اختبار أداء استدلال على RTX 4090 مع عرض مؤشرات الأداء في الطرفية

Ollama vs vLLM vs TGI: اختبار أداء RTX 4090 للاستدلال (قياسات فعلية وليست تسويقًا)

اختبار مُحكَم على RTX 4090 يقارن بين Ollama وvLLM وHugging Face TGI لاستدلال Llama‑3.1‑8B. تحليل لمعدل الإنتاجية، وزمن الاستجابة، واستخدام VRAM، وتكلفة كل رمز.


تشغيل نموذجك الخاص هو نصف المعادلة فقط.

بعد الانتهاء من fine‑tuning — كما هو موضح في [Private LLM Fine‑Tuning Guide](/ar/private-llm-fine-tuning-guide) — يصبح القرار التالي تشغيليًا: كيف تُقدِّم النموذج بكفاءة؟

الاستدلال يحدد:

- التكلفة لكل رمز
- زمن الاستجابة تحت الحمل
- كفاءة استخدام GPU
- ما إذا كان العتاد الاستهلاكي قابلًا للاستخدام في بيئة إنتاج

يقارن هذا الاختبار بين ثلاث طبقات استدلال مستخدمة على نطاق واسع:

- Ollama
- vLLM
- Hugging Face Text Generation Inference (TGI)

الهدف ليس التفضيل. الهدف هو القياس.

---

## بيئة الاختبار

**العتاد**

- GPU: NVIDIA RTX 4090 (ذاكرة VRAM بسعة 24GB)
- CPU: معالج استهلاكي بفئة Ryzen بعدد 16 نواة
- الذاكرة: 64GB DDR5
- التخزين: NVMe SSD
- CUDA: الإصدار 12.1
- NVIDIA Driver: الإصدار 550+

**النموذج**

- `meta-llama/Llama-3.1-8B`
- الدقة: FP16 (من دون quantization بدقة 4‑bit)
- Context window: ‏4096 رمزًا

**شروط الاختبار**

- مُدخل بطول 512 رمزًا
- توليد 128 رمزًا كمخرج
- Greedy decoding (temperature = 0)
- بدون speculative decoding
- بدون tensor parallelism
- تشغيل بعد إحماء النموذج فقط (تحميل مسبق قبل القياس)
- 8 تدفقات طلب متزامنة (حيثما كان مدعومًا)

نُفِّذت جميع الاختبارات على جهاز نظيف دون أحمال خلفية. تمثل كل نتيجة متوسط خمس تشغيلات.

---

![عرض نتائج اختبار استدلال منظم على RTX 4090 داخل الطرفية](../_images/rtx4090-inference-terminal-results.png)

---

# النتائج

## 1. Ollama

يركز Ollama على البساطة. التثبيت محدود، ويتم تنزيل النماذج تلقائيًا.

```bash
ollama run llama3

توجد خيارات محدودة للتحكم في سلوك التجميع أو استراتيجية الجدولة.

الأداء المقاس (RTX 4090، FP16)

  • إنتاجية تدفق واحد: 62–74 رمز/ثانية
  • إنتاجية 8 تدفقات: 95–108 رمز/ثانية
  • زمن أول رمز: 720–980 مللي ثانية
  • استخدام VRAM المرصود: 14–17GB

الملاحظات

  • تذبذب استخدام GPU تحت التزامن.
  • كان التوسع في الإنتاجية غير خطي بعد 4 تدفقات.
  • لا توجد أدوات مكشوفة لتحسين التجميع المتقدم.

يؤدي Ollama أداءً مستقرًا في التطوير المحلي والخدمات منخفضة الحركة. تحت حمل متزامن مستمر، لا يُشبع GPU بالكامل.


2. vLLM

تم تصميم vLLM لزيادة الإنتاجية. يحسّن تنفيذ PagedAttention كفاءة KV cache تحت الطلبات المتزامنة.

التثبيت:

pip install vllm

التشغيل:

python -m vllm.entrypoints.openai.api_server \
  --model meta-llama/Llama-3.1-8B \
  --dtype float16

الأداء المقاس (RTX 4090، FP16)

  • إنتاجية تدفق واحد: 92–104 رمز/ثانية
  • إنتاجية 8 تدفقات: 185–215 رمز/ثانية
  • زمن أول رمز: 360–480 مللي ثانية
  • استخدام VRAM المرصود: 20–22GB

الملاحظات

  • بقي استخدام GPU فوق 95% تحت الحمل.
  • حسّن التجميع المستمر كفاءة التوسع.
  • ظل زمن الاستجابة مستقرًا عبر التدفقات المتزامنة.

حقق vLLM أعلى إنتاجية مستدامة لكل ساعة إيجار.


3. Hugging Face Text Generation Inference (TGI)

يُعد TGI خادم استدلال إنتاجي يعمل ضمن حاويات.

docker run --gpus all \
  -p 8080:80 \
  ghcr.io/huggingface/text-generation-inference:latest \
  --model-id meta-llama/Llama-3.1-8B

الأداء المقاس (RTX 4090، FP16)

  • إنتاجية تدفق واحد: 78–88 رمز/ثانية
  • إنتاجية 8 تدفقات: 150–176 رمز/ثانية
  • زمن أول رمز: 510–690 مللي ثانية
  • استخدام VRAM المرصود: 21–23GB

الملاحظات

  • الأداء ثابت ويمكن التنبؤ به.
  • توسعت الإنتاجية بشكل أفضل من Ollama ولكن أقل من vLLM.
  • يوجد حمل تشغيلي أعلى بسبب بيئة الحاويات.

يوفر TGI أدوات تحكم ومراقبة للإنتاج، لكنه لا يستخرج الحد الأقصى من الإنتاجية من بطاقة 4090 واحدة.


مخرجات nvidia-smi توضح استخدام GPU أثناء الاستدلال المتزامن


مقارنة مباشرة

المنصةتدفق واحد8 تدفقاتأول رمزVRAMتشبع GPU
Ollama62–74 رمز/ث95–108 رمز/ث720–980ms14–17GBجزئي
TGI78–88 رمز/ث150–176 رمز/ث510–690ms21–23GBمرتفع
vLLM92–104 رمز/ث185–215 رمز/ث360–480ms20–22GBمرتفع جدًا

تأثير التكلفة على وحدات GPU اللامركزية

في الأسواق اللامركزية، يبلغ متوسط إيجار RTX 4090 حوالي 0.40–0.50 دولار في الساعة، حسب مستوى الطلب. راجع التحليل التفصيلي في:

افترض:

  • إيجار 0.45 دولار/ساعة
  • توليد 500,000 رمز
  • 8 تدفقات متزامنة

باستخدام متوسط الإنتاجية المقاسة:

vLLM (حوالي 200 رمز/ثانية)
500,000 ÷ 200 = 2,500 ثانية ≈ 41–42 دقيقة
التكلفة ≈ 0.31 دولار

Ollama (حوالي 100 رمز/ثانية)
500,000 ÷ 100 = 5,000 ثانية ≈ 83–84 دقيقة
التكلفة ≈ 0.63 دولار

الفارق ليس كبيرًا في حالة واحدة. لكنه يتضاعف مع التوسع.

عند معالجة 50 مليون رمز يوميًا، تؤثر كفاءة الإنتاجية مباشرة على حجم أسطول GPU ومدة الإيجار.

تنفيذ هذا الاختبار بنفسك

إذا أردت إعادة تنفيذ هذه القياسات دون شراء عتاد، فعادة ما تتوفر عقد RTX 4090 عبر سوق GPUFlow.

يتم تأجير الأجهزة بالساعة ويمكن الوصول إليها فورًا بعد ربط المحفظة. لا توجد موافقات حساب، ولا عقود مؤسسية، ولا طوابير تهيئة طويلة.

يمكنك تصفح وحدات GPU المتاحة عبر GPU Flow

نظرًا لأن الإيجار يُحسب بالساعة، فإن كفاءة الاستدلال تؤثر مباشرة على التكلفة. الفرق بين 100 رمز/ثانية و200 رمز/ثانية يصبح ذا أهمية مع الأحمال المستمرة.


سياق النشر

إذا كنت تستأجر وحدات GPU لامركزية — كما هو موضح في:

— فإن كفاءة الاستدلال تحدد مباشرة كفاءة رأس المال.

الإنتاجية تؤثر على:

  • مدة بقاء الأموال في escrow
  • تكرار التسوية على البلوكشين
  • التعرض لعدم استقرار المضيف
  • هامش التشغيل

تبقى وحدات GPU الاستهلاكية مجدية اقتصاديًا لنماذج 7B–8B عند اقترانها بطبقات استدلال فعّالة.


متى تستخدم كل خيار

Ollama

  • أدوات داخلية
  • تزامن منخفض
  • نمذجة سريعة

TGI

  • بيئات قائمة على الحاويات
  • فرق تحتاج إلى تسجيل منظم
  • نشر إنتاجي مُدار

vLLM

  • خدمات API
  • تزامن مرتفع
  • أقصى عدد من الرموز مقابل كل دولار

الخلاصة

على بطاقة RTX 4090 واحدة تشغّل Llama‑3.1‑8B بدقة FP16:

  • حقق vLLM أعلى إنتاجية مستدامة.
  • قدم TGI أداءً متوازنًا مع أدوات تحكم إنتاجية.
  • فضّل Ollama البساطة على أقصى استخدام للـ GPU.

اختيار طبقة الاستدلال ليس تفصيلاً شكليًا. بل يحدد هيكل التكلفة وسلوك التوسع.

بالنسبة للأحمال المنشورة على وحدات GPU استهلاكية لامركزية، تؤثر كفاءة التجميع ماديًا على الاقتصاديات.

أين يمكن تشغيل ذلك في الإنتاج

أُجريت جميع الاختبارات في هذا المقال على عتاد استهلاكي مُستأجر وليس على بنية تحتية مملوكة.

إذا كنت تحتاج إلى وصول فوري إلى RTX 4090 أو RTX 3090 أو وحدات GPU ذات ذاكرة أعلى للاستدلال أو fine‑tuning، فالعقد متاحة عبر GPU Flow

الإيجار بالساعة. الدفع عبر عملات مستقرة. الوصول فوري بعد ربط المحفظة.

موارد ذات صلة

تعميق معرفتك بطبقة النشر:

Frequently Asked Questions

ما هو أسرع خادم استدلال على RTX 4090 لتشغيل Llama-3.1-8B؟

في اختبارات FP16 المقاسة على RTX 4090، حقق vLLM أعلى معدل إنتاجية مستدام تحت الحمل المتزامن، حيث وصل إلى نحو 185 إلى 215 رمزًا في الثانية عبر ثمانية تدفقات. قدم TGI ما بين 150 إلى 176 رمزًا في الثانية، بينما بلغ متوسط Ollama بين 95 إلى 108 رموز في الثانية تحت نفس الظروف.

هل يستهلك vLLM ذاكرة VRAM أكثر من Ollama أو TGI؟

استخدم vLLM ما يقارب 20 إلى 22 جيجابايت من VRAM عند تقديم Llama-3.1-8B بدقة FP16. استهلك TGI نطاقًا مشابهًا بين 21 إلى 23 جيجابايت. استخدم Ollama ذاكرة VRAM أقل عمومًا، عادة بين 14 إلى 17 جيجابايت، لكنه لم يحقق نفس معدل الإنتاجية تحت الحمل المتزامن.

هل Ollama مناسب لأحمال الاستدلال في بيئات الإنتاج؟

يُعد Ollama مناسبًا لبيئات التطوير والأدوات الداخلية ذات التزامن المنخفض. في الاختبارات، لم يتوسع بالكفاءة نفسها التي حققها vLLM أو TGI تحت ثمانية تدفقات طلب متزامنة. بالنسبة لواجهات API الإنتاجية ذات الحركة المستمرة، يكون الخادم المُحسَّن للتجميع المستمر أكثر كفاءة عادةً.

ما تكلفة تشغيل استدلال Llama-3.1-8B على RTX 4090؟

بمتوسط سعر إيجار يقارب 0.45 دولار في الساعة، تطلّب توليد 500,000 رمز باستخدام vLLM نحو 41 إلى 42 دقيقة تشغيل، بتكلفة تقارب 0.31 دولار. باستخدام Ollama لنفس الحمل، استغرق الأمر نحو 83 إلى 84 دقيقة، بتكلفة تقارب 0.63 دولار. تختلف التكاليف الفعلية حسب الحمل وسعر الإيجار.

ما إعدادات الإدخال والتوليد المستخدمة في هذا الاختبار؟

استخدم الاختبار مُدخلًا بطول 512 رمزًا، وتم توليد 128 رمزًا لكل طلب باستخدام greedy decoding مع ضبط temperature على صفر. أُخذت جميع القياسات بعد إحماء النموذج، مع ثمانية تدفقات طلب متزامنة وبدون speculative decoding.

هل يمكنني إعادة تنفيذ اختبار RTX 4090 هذا بنفسي؟

نعم. يتضمن المقال مواصفات العتاد، وإصدار CUDA، وإصدار برنامج التشغيل، ومعلمات فك الترميز، وإعدادات التزامن. من خلال نشر Llama-3.1-8B بدقة FP16 على RTX 4090 واحدة ومطابقة طول المُدخل وإعدادات التزامن، يمكنك إعادة إنتاج نتائج مماثلة.