הרצת המודל שלך היא רק חצי מהמשוואה.
לאחר השלמת ה‑fine‑tuning — כפי שמפורט ב‑[מדריך ל‑Fine‑Tuning פרטי של LLM](/he/private-llm-fine-tuning-guide) — ההחלטה הבאה היא תפעולית: כיצד מגישים את המודל בצורה יעילה?
Inference קובע:
- עלות לכל token
- latency תחת עומס
- יעילות ניצול ה‑GPU
- האם חומרה צרכנית מתאימה ל‑production
ה‑benchmark הזה משווה בין שלושה סטאקים נפוצים ל‑Inference:
- Ollama
- vLLM
- Hugging Face Text Generation Inference (TGI)
המטרה איננה העדפה.
המטרה היא מדידה.
---
## סביבת הבדיקה
**חומרה**
- GPU: NVIDIA RTX 4090 (24GB VRAM)
- CPU: מעבד צרכני 16 ליבות מסדרת Ryzen
- זיכרון: 64GB DDR5
- אחסון: NVMe SSD
- CUDA: 12.1
- NVIDIA Driver: 550+
**מודל**
- `meta-llama/Llama-3.1-8B`
- דיוק: FP16 (ללא quantization של 4‑bit)
- חלון הקשר: 4096 tokens
**תנאי ה‑benchmark**
- prompt קלט של 512 tokens
- יצירת 128 tokens בפלט
- Greedy decoding (temperature = 0)
- ללא speculative decoding
- ללא tensor parallelism
- warm start בלבד (המודל נטען מראש לפני המדידה)
- 8 זרמי בקשות במקביל (כאשר נתמך)
כל הבדיקות בוצעו על מערכת נקייה ללא עומסי רקע.
כל מדידה משקפת ממוצע של חמש ריצות.
---

---
# תוצאות
## 1. Ollama
Ollama מתמקד בפשטות. ההתקנה מינימלית, והמודלים יורדים אוטומטית.
```bash
ollama run llama3
יש שליטה מוגבלת בהתנהגות batching או באסטרטגיית התזמון.
ביצועים נמדדים (RTX 4090, FP16)
- throughput בזרם יחיד: 62–74 tokens/sec
- throughput ב‑8 זרמים: 95–108 tokens/sec
- latency ל‑token ראשון: 720–980 ms
- שימוש ב‑VRAM: 14–17GB
תצפיות
- ניצול ה‑GPU השתנה תחת עומס מקבילי.
- ההתרחבות לא הייתה ליניארית מעבר ל‑4 זרמים.
- אין שליטה מתקדמת על אופטימיזציית batching.
Ollama מתאים לפיתוח מקומי ולשירותים עם תעבורה נמוכה. תחת עומס מקבילי מתמשך, הוא אינו ממלא את ה‑GPU במלואו.
2. vLLM
vLLM תוכנן למקסימום throughput. יישום PagedAttention שלו משפר את יעילות ה‑KV cache תחת בקשות מקביליות.
התקנה:
pip install vllm
הרצה:
python -m vllm.entrypoints.openai.api_server \
--model meta-llama/Llama-3.1-8B \
--dtype float16
ביצועים נמדדים (RTX 4090, FP16)
- throughput בזרם יחיד: 92–104 tokens/sec
- throughput ב‑8 זרמים: 185–215 tokens/sec
- latency ל‑token ראשון: 360–480 ms
- שימוש ב‑VRAM: 20–22GB
תצפיות
- ניצול ה‑GPU נשאר מעל 95% תחת עומס.
- continuous batching שיפר את יעילות ההתרחבות.
- ה‑latency נשאר יציב בין זרמים מקביליים.
vLLM השיג את ה‑throughput המתמשך הגבוה ביותר לשעת שכירות.
3. Hugging Face Text Generation Inference (TGI)
TGI הוא שרת Inference מבוסס קונטיינר ל‑production.
docker run --gpus all \
-p 8080:80 \
ghcr.io/huggingface/text-generation-inference:latest \
--model-id meta-llama/Llama-3.1-8B
ביצועים נמדדים (RTX 4090, FP16)
- throughput בזרם יחיד: 78–88 tokens/sec
- throughput ב‑8 זרמים: 150–176 tokens/sec
- latency ל‑token ראשון: 510–690 ms
- שימוש ב‑VRAM: 21–23GB
תצפיות
- ביצועים עקביים וצפויים.
- scaling טוב יותר מ‑Ollama אך נמוך מ‑vLLM.
- overhead תפעולי גבוה יותר עקב סביבת קונטיינר.
TGI מספק בקרות production וניטור, אך אינו ממקסם את ה‑throughput של RTX 4090 יחיד.

השוואה ישירה
| Stack | זרם יחיד | 8 זרמים | token ראשון | VRAM | רמת ניצול GPU |
|---|---|---|---|---|---|
| Ollama | 62–74 t/s | 95–108 t/s | 720–980ms | 14–17GB | חלקי |
| TGI | 78–88 t/s | 150–176 t/s | 510–690ms | 21–23GB | גבוה |
| vLLM | 92–104 t/s | 185–215 t/s | 360–480ms | 20–22GB | גבוה מאוד |
השלכות עלות על GPUs מבוזרים
בשוקי GPU מבוזרים, השכרת RTX 4090 נעה בממוצע סביב 0.40–0.50 דולר לשעה, בהתאם לביקוש. לפירוט מלא ראו:
נניח:
- 0.45 דולר לשעה
- יצירת 500,000 tokens
- 8 זרמים במקביל
בהתבסס על ה‑throughput החציוני שנמדד:
vLLM (~200 tokens/sec)
500,000 / 200 = 2,500 שניות ≈ 41–42 דקות
עלות ≈ 0.31 דולר
Ollama (~100 tokens/sec)
500,000 / 100 = 5,000 שניות ≈ 83–84 דקות
עלות ≈ 0.63 דולר
הפער אינו דרמטי בבידוד.
בהיקפים גדולים הוא מצטבר.
ב‑50 מיליון tokens ליום, יעילות ה‑throughput משפיעה ישירות על גודל צי ה‑GPU ועל משך ההשכרה.
הרצת ה‑benchmark בעצמך
אם ברצונך לשחזר את המדידות ללא רכישת חומרה, לרוב ניתן למצוא שרתי RTX 4090 דרך זירת המסחר של GPUFlow.
השרתים מושכרים לפי שעה וזמינים מיידית לאחר חיבור ארנק. אין עיכובי אישור חשבון, אין חוזים ארגוניים ואין זמני הקצאה ממושכים.
ניתן לעיין ב‑GPUs הזמינים ב‑GPU Flow
מאחר והחיוב הוא לפי שעה, יעילות ה‑Inference משפיעה ישירות על העלות. ההבדל בין 100 tokens/sec ל‑200 tokens/sec הופך משמעותי בעומסי עבודה מתמשכים.
הקשר פריסה
אם אתה שוכר GPUs מבוזרים — כפי שמתואר ב:
— יעילות ה‑Inference קובעת ישירות את יעילות ההון.
ה‑throughput משפיע על:
- משך זמן ה‑escrow
- תדירות הסליקה ב‑blockchain
- חשיפה לחוסר יציבות של המארח
- מרווח תפעולי
GPUs צרכניים נותרים כדאיים כלכלית עבור מודלים בגודל 7B–8B כאשר הם משולבים עם סטאק Inference יעיל.
מתי להשתמש בכל אפשרות
Ollama
- כלים פנימיים
- רמת concurrency נמוכה
- אבטיפוס מהיר
TGI
- סביבות מבוססות קונטיינרים
- צוותים הזקוקים ל‑logging מובנה
- פריסות production מנוהלות
vLLM
- שירותי API
- concurrency גבוה
- מקסימום tokens לכל דולר
סיכום
על RTX 4090 יחיד שמריץ Llama‑3.1‑8B ב‑FP16:
- vLLM השיג את ה‑throughput המתמשך הגבוה ביותר.
- TGI סיפק ביצועים מאוזנים עם בקרות production.
- Ollama העדיף פשטות על פני ניצול מקסימלי של ה‑GPU.
בחירת סטאק Inference אינה קוסמטית.
היא מגדירה את מבנה העלויות ואת דפוסי ההתרחבות.
בעומסי עבודה על GPUs צרכניים מבוזרים, יעילות batching משפיעה באופן מהותי על הכלכלה.
היכן להריץ זאת בפרודקשן
כל ה‑benchmarks במאמר זה בוצעו על חומרה צרכנית מושכרת ולא על תשתית בבעלות.
אם נדרש לך גישה מיידית ל‑RTX 4090, RTX 3090 או GPUs עם זיכרון גדול יותר לצורך Inference או fine‑tuning, ניתן למצוא שרתים זמינים ב‑GPU Flow
השכרה לפי שעה. תשלום באמצעות stablecoin. גישה מיידית לאחר חיבור הארנק.
משאבים קשורים
העמק את הידע בסטאק הפריסה שלך:
- המדריך המקיף ל‑Fine‑Tuning פרטי של LLM על GPUs מבוזרים — מדריך מלא לאימון מודלים בעלי משקלים פתוחים בצורה מאובטחת
- השוואת מחירי השכרת GPU לשנת 2026 — הבדלי עלויות שנמדדו בין פלטפורמות השכרה מובילות
- עמלות נסתרות בהשכרת GPU — מה שדפי תמחור לפי שעה אינם חושפים
- השוואה בין RunPod ל‑Vast.ai — הבדלים בין תשתית ריכוזית לזירת מסחר