ما هو أسرع خادم استدلال على RTX 4090 لتشغيل Llama-3.1-8B؟

في اختبارات FP16 المقاسة على RTX 4090، حقق vLLM أعلى معدل إنتاجية مستدام تحت الحمل المتزامن، حيث وصل إلى نحو 185 إلى 215 رمزًا في الثانية عبر ثمانية تدفقات. قدم TGI ما بين 150 إلى 176 رمزًا في الثانية، بينما بلغ متوسط Ollama بين 95 إلى 108 رموز في الثانية تحت نفس الظروف.

هل يستهلك vLLM ذاكرة VRAM أكثر من Ollama أو TGI؟

استخدم vLLM ما يقارب 20 إلى 22 جيجابايت من VRAM عند تقديم Llama-3.1-8B بدقة FP16. استهلك TGI نطاقًا مشابهًا بين 21 إلى 23 جيجابايت. استخدم Ollama ذاكرة VRAM أقل عمومًا، عادة بين 14 إلى 17 جيجابايت، لكنه لم يحقق نفس معدل الإنتاجية تحت الحمل المتزامن.

هل Ollama مناسب لأحمال الاستدلال في بيئات الإنتاج؟

يُعد Ollama مناسبًا لبيئات التطوير والأدوات الداخلية ذات التزامن المنخفض. في الاختبارات، لم يتوسع بالكفاءة نفسها التي حققها vLLM أو TGI تحت ثمانية تدفقات طلب متزامنة. بالنسبة لواجهات API الإنتاجية ذات الحركة المستمرة، يكون الخادم المُحسَّن للتجميع المستمر أكثر كفاءة عادةً.

ما تكلفة تشغيل استدلال Llama-3.1-8B على RTX 4090؟

بمتوسط سعر إيجار يقارب 0.45 دولار في الساعة، تطلّب توليد 500,000 رمز باستخدام vLLM نحو 41 إلى 42 دقيقة تشغيل، بتكلفة تقارب 0.31 دولار. باستخدام Ollama لنفس الحمل، استغرق الأمر نحو 83 إلى 84 دقيقة، بتكلفة تقارب 0.63 دولار. تختلف التكاليف الفعلية حسب الحمل وسعر الإيجار.

ما إعدادات الإدخال والتوليد المستخدمة في هذا الاختبار؟

استخدم الاختبار مُدخلًا بطول 512 رمزًا، وتم توليد 128 رمزًا لكل طلب باستخدام greedy decoding مع ضبط temperature على صفر. أُخذت جميع القياسات بعد إحماء النموذج، مع ثمانية تدفقات طلب متزامنة وبدون speculative decoding.

هل يمكنني إعادة تنفيذ اختبار RTX 4090 هذا بنفسي؟

نعم. يتضمن المقال مواصفات العتاد، وإصدار CUDA، وإصدار برنامج التشغيل، ومعلمات فك الترميز، وإعدادات التزامن. من خلال نشر Llama-3.1-8B بدقة FP16 على RTX 4090 واحدة ومطابقة طول المُدخل وإعدادات التزامن، يمكنك إعادة إنتاج نتائج مماثلة.


تشغيل نموذجك الخاص هو نصف المعادلة فقط.

بعد الانتهاء من fine‑tuning — كما هو موضح في [Private LLM Fine‑Tuning Guide](/ar/private-llm-fine-tuning-guide) — يصبح القرار التالي تشغيليًا: كيف تُقدِّم النموذج بكفاءة؟

الاستدلال يحدد:

- التكلفة لكل رمز
- زمن الاستجابة تحت الحمل
- كفاءة استخدام GPU
- ما إذا كان العتاد الاستهلاكي قابلًا للاستخدام في بيئة إنتاج

يقارن هذا الاختبار بين ثلاث طبقات استدلال مستخدمة على نطاق واسع:

- Ollama
- vLLM
- Hugging Face Text Generation Inference (TGI)

الهدف ليس التفضيل. الهدف هو القياس.

---

## بيئة الاختبار

**العتاد**

- GPU: NVIDIA RTX 4090 (ذاكرة VRAM بسعة 24GB)
- CPU: معالج استهلاكي بفئة Ryzen بعدد 16 نواة
- الذاكرة: 64GB DDR5
- التخزين: NVMe SSD
- CUDA: الإصدار 12.1
- NVIDIA Driver: الإصدار 550+

**النموذج**

- `meta-llama/Llama-3.1-8B`
- الدقة: FP16 (من دون quantization بدقة 4‑bit)
- Context window: ‏4096 رمزًا

**شروط الاختبار**

- مُدخل بطول 512 رمزًا
- توليد 128 رمزًا كمخرج
- Greedy decoding (temperature = 0)
- بدون speculative decoding
- بدون tensor parallelism
- تشغيل بعد إحماء النموذج فقط (تحميل مسبق قبل القياس)
- 8 تدفقات طلب متزامنة (حيثما كان مدعومًا)

نُفِّذت جميع الاختبارات على جهاز نظيف دون أحمال خلفية. تمثل كل نتيجة متوسط خمس تشغيلات.

---

![عرض نتائج اختبار استدلال منظم على RTX 4090 داخل الطرفية](../_images/rtx4090-inference-terminal-results.png)

---

# النتائج

## 1. Ollama

يركز Ollama على البساطة. التثبيت محدود، ويتم تنزيل النماذج تلقائيًا.

```bash
ollama run llama3

توجد خيارات محدودة للتحكم في سلوك التجميع أو استراتيجية الجدولة.

الأداء المقاس (RTX 4090، FP16)

إنتاجية تدفق واحد: 62–74 رمز/ثانية
إنتاجية 8 تدفقات: 95–108 رمز/ثانية
زمن أول رمز: 720–980 مللي ثانية
استخدام VRAM المرصود: 14–17GB

الملاحظات

تذبذب استخدام GPU تحت التزامن.
كان التوسع في الإنتاجية غير خطي بعد 4 تدفقات.
لا توجد أدوات مكشوفة لتحسين التجميع المتقدم.

يؤدي Ollama أداءً مستقرًا في التطوير المحلي والخدمات منخفضة الحركة. تحت حمل متزامن مستمر، لا يُشبع GPU بالكامل.

2. vLLM

تم تصميم vLLM لزيادة الإنتاجية. يحسّن تنفيذ PagedAttention كفاءة KV cache تحت الطلبات المتزامنة.

التثبيت:

pip install vllm

التشغيل:

python -m vllm.entrypoints.openai.api_server \
  --model meta-llama/Llama-3.1-8B \
  --dtype float16

الأداء المقاس (RTX 4090، FP16)

إنتاجية تدفق واحد: 92–104 رمز/ثانية
إنتاجية 8 تدفقات: 185–215 رمز/ثانية
زمن أول رمز: 360–480 مللي ثانية
استخدام VRAM المرصود: 20–22GB

الملاحظات

بقي استخدام GPU فوق 95% تحت الحمل.
حسّن التجميع المستمر كفاءة التوسع.
ظل زمن الاستجابة مستقرًا عبر التدفقات المتزامنة.

حقق vLLM أعلى إنتاجية مستدامة لكل ساعة إيجار.

3. Hugging Face Text Generation Inference (TGI)

يُعد TGI خادم استدلال إنتاجي يعمل ضمن حاويات.

docker run --gpus all \
  -p 8080:80 \
  ghcr.io/huggingface/text-generation-inference:latest \
  --model-id meta-llama/Llama-3.1-8B

الأداء المقاس (RTX 4090، FP16)

إنتاجية تدفق واحد: 78–88 رمز/ثانية
إنتاجية 8 تدفقات: 150–176 رمز/ثانية
زمن أول رمز: 510–690 مللي ثانية
استخدام VRAM المرصود: 21–23GB

الملاحظات

الأداء ثابت ويمكن التنبؤ به.
توسعت الإنتاجية بشكل أفضل من Ollama ولكن أقل من vLLM.
يوجد حمل تشغيلي أعلى بسبب بيئة الحاويات.

يوفر TGI أدوات تحكم ومراقبة للإنتاج، لكنه لا يستخرج الحد الأقصى من الإنتاجية من بطاقة 4090 واحدة.

مخرجات nvidia-smi توضح استخدام GPU أثناء الاستدلال المتزامن

مقارنة مباشرة

المنصة	تدفق واحد	8 تدفقات	أول رمز	VRAM	تشبع GPU
Ollama	62–74 رمز/ث	95–108 رمز/ث	720–980ms	14–17GB	جزئي
TGI	78–88 رمز/ث	150–176 رمز/ث	510–690ms	21–23GB	مرتفع
vLLM	92–104 رمز/ث	185–215 رمز/ث	360–480ms	20–22GB	مرتفع جدًا

تأثير التكلفة على وحدات GPU اللامركزية

في الأسواق اللامركزية، يبلغ متوسط إيجار RTX 4090 حوالي 0.40–0.50 دولار في الساعة، حسب مستوى الطلب. راجع التحليل التفصيلي في:

افترض:

إيجار 0.45 دولار/ساعة
توليد 500,000 رمز
8 تدفقات متزامنة

باستخدام متوسط الإنتاجية المقاسة:

vLLM (حوالي 200 رمز/ثانية)
500,000 ÷ 200 = 2,500 ثانية ≈ 41–42 دقيقة
التكلفة ≈ 0.31 دولار

Ollama (حوالي 100 رمز/ثانية)
500,000 ÷ 100 = 5,000 ثانية ≈ 83–84 دقيقة
التكلفة ≈ 0.63 دولار

الفارق ليس كبيرًا في حالة واحدة. لكنه يتضاعف مع التوسع.

عند معالجة 50 مليون رمز يوميًا، تؤثر كفاءة الإنتاجية مباشرة على حجم أسطول GPU ومدة الإيجار.

تنفيذ هذا الاختبار بنفسك

إذا أردت إعادة تنفيذ هذه القياسات دون شراء عتاد، فعادة ما تتوفر عقد RTX 4090 عبر سوق GPUFlow.

يتم تأجير الأجهزة بالساعة ويمكن الوصول إليها فورًا بعد ربط المحفظة. لا توجد موافقات حساب، ولا عقود مؤسسية، ولا طوابير تهيئة طويلة.

يمكنك تصفح وحدات GPU المتاحة عبر GPU Flow

نظرًا لأن الإيجار يُحسب بالساعة، فإن كفاءة الاستدلال تؤثر مباشرة على التكلفة. الفرق بين 100 رمز/ثانية و200 رمز/ثانية يصبح ذا أهمية مع الأحمال المستمرة.

سياق النشر

إذا كنت تستأجر وحدات GPU لامركزية — كما هو موضح في:

— فإن كفاءة الاستدلال تحدد مباشرة كفاءة رأس المال.

الإنتاجية تؤثر على:

مدة بقاء الأموال في escrow
تكرار التسوية على البلوكشين
التعرض لعدم استقرار المضيف
هامش التشغيل

تبقى وحدات GPU الاستهلاكية مجدية اقتصاديًا لنماذج 7B–8B عند اقترانها بطبقات استدلال فعّالة.

متى تستخدم كل خيار

Ollama

أدوات داخلية
تزامن منخفض
نمذجة سريعة

TGI

بيئات قائمة على الحاويات
فرق تحتاج إلى تسجيل منظم
نشر إنتاجي مُدار

vLLM

خدمات API
تزامن مرتفع
أقصى عدد من الرموز مقابل كل دولار

الخلاصة

على بطاقة RTX 4090 واحدة تشغّل Llama‑3.1‑8B بدقة FP16:

حقق vLLM أعلى إنتاجية مستدامة.
قدم TGI أداءً متوازنًا مع أدوات تحكم إنتاجية.
فضّل Ollama البساطة على أقصى استخدام للـ GPU.

اختيار طبقة الاستدلال ليس تفصيلاً شكليًا. بل يحدد هيكل التكلفة وسلوك التوسع.

بالنسبة للأحمال المنشورة على وحدات GPU استهلاكية لامركزية، تؤثر كفاءة التجميع ماديًا على الاقتصاديات.

أين يمكن تشغيل ذلك في الإنتاج

أُجريت جميع الاختبارات في هذا المقال على عتاد استهلاكي مُستأجر وليس على بنية تحتية مملوكة.

إذا كنت تحتاج إلى وصول فوري إلى RTX 4090 أو RTX 3090 أو وحدات GPU ذات ذاكرة أعلى للاستدلال أو fine‑tuning، فالعقد متاحة عبر GPU Flow

الإيجار بالساعة. الدفع عبر عملات مستقرة. الوصول فوري بعد ربط المحفظة.

موارد ذات صلة

تعميق معرفتك بطبقة النشر:

الدليل الشامل لضبط LLM بشكل خاص على وحدات GPU اللامركزية — شرح كامل لتدريب نماذج الأوزان المفتوحة بشكل آمن
مقارنة أسعار تأجير GPU لعام 2026 — فروقات التكلفة المقاسة عبر منصات تأجير GPU الرئيسية
الرسوم الخفية في تأجير GPU — ما لا تكشفه صفحات التسعير بالساعة
مقارنة RunPod و Vast.ai — الفروقات بين البنية التحتية المركزية وبنية الأسواق

Ollama vs vLLM vs TGI: اختبار أداء RTX 4090 للاستدلال (قياسات فعلية وليست تسويقًا)

الأداء المقاس (RTX 4090، FP16)

الملاحظات

2. vLLM

الأداء المقاس (RTX 4090، FP16)

الملاحظات

3. Hugging Face Text Generation Inference (TGI)

الأداء المقاس (RTX 4090، FP16)

الملاحظات

مقارنة مباشرة

تأثير التكلفة على وحدات GPU اللامركزية

تنفيذ هذا الاختبار بنفسك

سياق النشر

متى تستخدم كل خيار

الخلاصة

أين يمكن تشغيل ذلك في الإنتاج

الإيجار بالساعة. الدفع عبر عملات مستقرة. الوصول فوري بعد ربط المحفظة.

موارد ذات صلة

Frequently Asked Questions

ما هو أسرع خادم استدلال على RTX 4090 لتشغيل Llama-3.1-8B؟

هل يستهلك vLLM ذاكرة VRAM أكثر من Ollama أو TGI؟

هل Ollama مناسب لأحمال الاستدلال في بيئات الإنتاج؟

ما تكلفة تشغيل استدلال Llama-3.1-8B على RTX 4090؟

ما إعدادات الإدخال والتوليد المستخدمة في هذا الاختبار؟

هل يمكنني إعادة تنفيذ اختبار RTX 4090 هذا بنفسي؟