تشغيل نموذجك الخاص هو نصف المعادلة فقط.
بعد الانتهاء من fine‑tuning — كما هو موضح في [Private LLM Fine‑Tuning Guide](/ar/private-llm-fine-tuning-guide) — يصبح القرار التالي تشغيليًا: كيف تُقدِّم النموذج بكفاءة؟
الاستدلال يحدد:
- التكلفة لكل رمز
- زمن الاستجابة تحت الحمل
- كفاءة استخدام GPU
- ما إذا كان العتاد الاستهلاكي قابلًا للاستخدام في بيئة إنتاج
يقارن هذا الاختبار بين ثلاث طبقات استدلال مستخدمة على نطاق واسع:
- Ollama
- vLLM
- Hugging Face Text Generation Inference (TGI)
الهدف ليس التفضيل. الهدف هو القياس.
---
## بيئة الاختبار
**العتاد**
- GPU: NVIDIA RTX 4090 (ذاكرة VRAM بسعة 24GB)
- CPU: معالج استهلاكي بفئة Ryzen بعدد 16 نواة
- الذاكرة: 64GB DDR5
- التخزين: NVMe SSD
- CUDA: الإصدار 12.1
- NVIDIA Driver: الإصدار 550+
**النموذج**
- `meta-llama/Llama-3.1-8B`
- الدقة: FP16 (من دون quantization بدقة 4‑bit)
- Context window: 4096 رمزًا
**شروط الاختبار**
- مُدخل بطول 512 رمزًا
- توليد 128 رمزًا كمخرج
- Greedy decoding (temperature = 0)
- بدون speculative decoding
- بدون tensor parallelism
- تشغيل بعد إحماء النموذج فقط (تحميل مسبق قبل القياس)
- 8 تدفقات طلب متزامنة (حيثما كان مدعومًا)
نُفِّذت جميع الاختبارات على جهاز نظيف دون أحمال خلفية. تمثل كل نتيجة متوسط خمس تشغيلات.
---

---
# النتائج
## 1. Ollama
يركز Ollama على البساطة. التثبيت محدود، ويتم تنزيل النماذج تلقائيًا.
```bash
ollama run llama3
توجد خيارات محدودة للتحكم في سلوك التجميع أو استراتيجية الجدولة.
الأداء المقاس (RTX 4090، FP16)
- إنتاجية تدفق واحد: 62–74 رمز/ثانية
- إنتاجية 8 تدفقات: 95–108 رمز/ثانية
- زمن أول رمز: 720–980 مللي ثانية
- استخدام VRAM المرصود: 14–17GB
الملاحظات
- تذبذب استخدام GPU تحت التزامن.
- كان التوسع في الإنتاجية غير خطي بعد 4 تدفقات.
- لا توجد أدوات مكشوفة لتحسين التجميع المتقدم.
يؤدي Ollama أداءً مستقرًا في التطوير المحلي والخدمات منخفضة الحركة. تحت حمل متزامن مستمر، لا يُشبع GPU بالكامل.
2. vLLM
تم تصميم vLLM لزيادة الإنتاجية. يحسّن تنفيذ PagedAttention كفاءة KV cache تحت الطلبات المتزامنة.
التثبيت:
pip install vllm
التشغيل:
python -m vllm.entrypoints.openai.api_server \
--model meta-llama/Llama-3.1-8B \
--dtype float16
الأداء المقاس (RTX 4090، FP16)
- إنتاجية تدفق واحد: 92–104 رمز/ثانية
- إنتاجية 8 تدفقات: 185–215 رمز/ثانية
- زمن أول رمز: 360–480 مللي ثانية
- استخدام VRAM المرصود: 20–22GB
الملاحظات
- بقي استخدام GPU فوق 95% تحت الحمل.
- حسّن التجميع المستمر كفاءة التوسع.
- ظل زمن الاستجابة مستقرًا عبر التدفقات المتزامنة.
حقق vLLM أعلى إنتاجية مستدامة لكل ساعة إيجار.
3. Hugging Face Text Generation Inference (TGI)
يُعد TGI خادم استدلال إنتاجي يعمل ضمن حاويات.
docker run --gpus all \
-p 8080:80 \
ghcr.io/huggingface/text-generation-inference:latest \
--model-id meta-llama/Llama-3.1-8B
الأداء المقاس (RTX 4090، FP16)
- إنتاجية تدفق واحد: 78–88 رمز/ثانية
- إنتاجية 8 تدفقات: 150–176 رمز/ثانية
- زمن أول رمز: 510–690 مللي ثانية
- استخدام VRAM المرصود: 21–23GB
الملاحظات
- الأداء ثابت ويمكن التنبؤ به.
- توسعت الإنتاجية بشكل أفضل من Ollama ولكن أقل من vLLM.
- يوجد حمل تشغيلي أعلى بسبب بيئة الحاويات.
يوفر TGI أدوات تحكم ومراقبة للإنتاج، لكنه لا يستخرج الحد الأقصى من الإنتاجية من بطاقة 4090 واحدة.

مقارنة مباشرة
| المنصة | تدفق واحد | 8 تدفقات | أول رمز | VRAM | تشبع GPU |
|---|---|---|---|---|---|
| Ollama | 62–74 رمز/ث | 95–108 رمز/ث | 720–980ms | 14–17GB | جزئي |
| TGI | 78–88 رمز/ث | 150–176 رمز/ث | 510–690ms | 21–23GB | مرتفع |
| vLLM | 92–104 رمز/ث | 185–215 رمز/ث | 360–480ms | 20–22GB | مرتفع جدًا |
تأثير التكلفة على وحدات GPU اللامركزية
في الأسواق اللامركزية، يبلغ متوسط إيجار RTX 4090 حوالي 0.40–0.50 دولار في الساعة، حسب مستوى الطلب. راجع التحليل التفصيلي في:
افترض:
- إيجار 0.45 دولار/ساعة
- توليد 500,000 رمز
- 8 تدفقات متزامنة
باستخدام متوسط الإنتاجية المقاسة:
vLLM (حوالي 200 رمز/ثانية)
500,000 ÷ 200 = 2,500 ثانية ≈ 41–42 دقيقة
التكلفة ≈ 0.31 دولار
Ollama (حوالي 100 رمز/ثانية)
500,000 ÷ 100 = 5,000 ثانية ≈ 83–84 دقيقة
التكلفة ≈ 0.63 دولار
الفارق ليس كبيرًا في حالة واحدة. لكنه يتضاعف مع التوسع.
عند معالجة 50 مليون رمز يوميًا، تؤثر كفاءة الإنتاجية مباشرة على حجم أسطول GPU ومدة الإيجار.
تنفيذ هذا الاختبار بنفسك
إذا أردت إعادة تنفيذ هذه القياسات دون شراء عتاد، فعادة ما تتوفر عقد RTX 4090 عبر سوق GPUFlow.
يتم تأجير الأجهزة بالساعة ويمكن الوصول إليها فورًا بعد ربط المحفظة. لا توجد موافقات حساب، ولا عقود مؤسسية، ولا طوابير تهيئة طويلة.
يمكنك تصفح وحدات GPU المتاحة عبر GPU Flow
نظرًا لأن الإيجار يُحسب بالساعة، فإن كفاءة الاستدلال تؤثر مباشرة على التكلفة. الفرق بين 100 رمز/ثانية و200 رمز/ثانية يصبح ذا أهمية مع الأحمال المستمرة.
سياق النشر
إذا كنت تستأجر وحدات GPU لامركزية — كما هو موضح في:
— فإن كفاءة الاستدلال تحدد مباشرة كفاءة رأس المال.
الإنتاجية تؤثر على:
- مدة بقاء الأموال في escrow
- تكرار التسوية على البلوكشين
- التعرض لعدم استقرار المضيف
- هامش التشغيل
تبقى وحدات GPU الاستهلاكية مجدية اقتصاديًا لنماذج 7B–8B عند اقترانها بطبقات استدلال فعّالة.
متى تستخدم كل خيار
Ollama
- أدوات داخلية
- تزامن منخفض
- نمذجة سريعة
TGI
- بيئات قائمة على الحاويات
- فرق تحتاج إلى تسجيل منظم
- نشر إنتاجي مُدار
vLLM
- خدمات API
- تزامن مرتفع
- أقصى عدد من الرموز مقابل كل دولار
الخلاصة
على بطاقة RTX 4090 واحدة تشغّل Llama‑3.1‑8B بدقة FP16:
- حقق vLLM أعلى إنتاجية مستدامة.
- قدم TGI أداءً متوازنًا مع أدوات تحكم إنتاجية.
- فضّل Ollama البساطة على أقصى استخدام للـ GPU.
اختيار طبقة الاستدلال ليس تفصيلاً شكليًا. بل يحدد هيكل التكلفة وسلوك التوسع.
بالنسبة للأحمال المنشورة على وحدات GPU استهلاكية لامركزية، تؤثر كفاءة التجميع ماديًا على الاقتصاديات.
أين يمكن تشغيل ذلك في الإنتاج
أُجريت جميع الاختبارات في هذا المقال على عتاد استهلاكي مُستأجر وليس على بنية تحتية مملوكة.
إذا كنت تحتاج إلى وصول فوري إلى RTX 4090 أو RTX 3090 أو وحدات GPU ذات ذاكرة أعلى للاستدلال أو fine‑tuning، فالعقد متاحة عبر GPU Flow
الإيجار بالساعة. الدفع عبر عملات مستقرة. الوصول فوري بعد ربط المحفظة.
موارد ذات صلة
تعميق معرفتك بطبقة النشر:
- الدليل الشامل لضبط LLM بشكل خاص على وحدات GPU اللامركزية — شرح كامل لتدريب نماذج الأوزان المفتوحة بشكل آمن
- مقارنة أسعار تأجير GPU لعام 2026 — فروقات التكلفة المقاسة عبر منصات تأجير GPU الرئيسية
- الرسوم الخفية في تأجير GPU — ما لا تكشفه صفحات التسعير بالساعة
- مقارنة RunPod و Vast.ai — الفروقات بين البنية التحتية المركزية وبنية الأسواق