अपना स्वयं का मॉडल चलाना केवल आधा समाधान है।
fine‑tuning पूरा करने के बाद — जैसा कि हमारे [Private LLM Fine‑Tuning गाइड](/hi/private-llm-fine-tuning-guide) में विस्तार से बताया गया है — अगला निर्णय परिचालन संबंधी है: मॉडल को कुशलतापूर्वक कैसे serve किया जाए?
Inference निर्धारित करता है:
- प्रति token लागत
- लोड के तहत latency
- GPU उपयोग की दक्षता
- क्या उपभोक्ता हार्डवेयर production में व्यवहार्य है
यह बेंचमार्क तीन व्यापक रूप से उपयोग किए जाने वाले Inference stacks की तुलना करता है:
- Ollama
- vLLM
- Hugging Face Text Generation Inference (TGI)
उद्देश्य प्राथमिकता नहीं है।
उद्देश्य मापन है।
---
## परीक्षण वातावरण
**हार्डवेयर**
- GPU: NVIDIA RTX 4090 (24GB VRAM)
- CPU: 16‑core Ryzen‑class उपभोक्ता प्रोसेसर
- RAM: 64GB DDR5
- स्टोरेज: NVMe SSD
- CUDA: 12.1
- NVIDIA Driver: 550+
**मॉडल**
- `meta-llama/Llama-3.1-8B`
- प्रिसिजन: FP16 (4‑bit quantization नहीं)
- Context window: 4096 tokens
**बेंचमार्क शर्तें**
- 512-token input prompt
- 128-token output generation
- Greedy decoding (temperature = 0)
- speculative decoding नहीं
- tensor parallelism नहीं
- केवल warm start (मापन से पहले मॉडल प्रीलोड)
- 8 समवर्ती request streams (जहाँ समर्थित)
सभी परीक्षण एक साफ मशीन पर बिना बैकग्राउंड लोड के किए गए।
प्रत्येक मापन पाँच रन के औसत को दर्शाता है।
---

---
# परिणाम
## 1. Ollama
Ollama सरलता को प्राथमिकता देता है। इंस्टॉलेशन न्यूनतम है और मॉडल स्वतः डाउनलोड होते हैं।
```bash
ollama run llama3
batching व्यवहार या scheduling रणनीति के लिए सीमित कॉन्फ़िगरेशन उपलब्ध है।
मापा गया प्रदर्शन (RTX 4090, FP16)
- Single stream throughput: 62–74 tokens/sec
- 8-stream throughput: 95–108 tokens/sec
- First token latency: 720–980 ms
- देखा गया VRAM उपयोग: 14–17GB
अवलोकन
- concurrency के तहत GPU उपयोग में उतार‑चढ़ाव रहा।
- 4 streams के बाद throughput scaling रैखिक नहीं था।
- उन्नत batching optimization के लिए कोई स्पष्ट नियंत्रण उपलब्ध नहीं।
Ollama स्थानीय विकास और कम ट्रैफ़िक सेवाओं के लिए विश्वसनीय है।
सतत समवर्ती लोड के तहत यह GPU को पूरी तरह संतृप्त नहीं करता।
2. vLLM
vLLM को throughput के लिए डिज़ाइन किया गया है। इसका PagedAttention implementation समवर्ती requests के तहत KV cache दक्षता सुधारता है।
इंस्टॉलेशन:
pip install vllm
लॉन्च:
python -m vllm.entrypoints.openai.api_server \
--model meta-llama/Llama-3.1-8B \
--dtype float16
मापा गया प्रदर्शन (RTX 4090, FP16)
- Single stream throughput: 92–104 tokens/sec
- 8-stream throughput: 185–215 tokens/sec
- First token latency: 360–480 ms
- देखा गया VRAM उपयोग: 20–22GB
अवलोकन
- लोड के तहत GPU उपयोग 95% से ऊपर बना रहा।
- continuous batching ने scaling दक्षता में सुधार किया।
- समवर्ती streams में latency स्थिर रही।
vLLM ने प्रति किराया घंटे उच्चतम स्थायी throughput हासिल किया।
3. Hugging Face Text Generation Inference (TGI)
TGI एक containerized production Inference सर्वर है।
docker run --gpus all \
-p 8080:80 \
ghcr.io/huggingface/text-generation-inference:latest \
--model-id meta-llama/Llama-3.1-8B
मापा गया प्रदर्शन (RTX 4090, FP16)
- Single stream throughput: 78–88 tokens/sec
- 8-stream throughput: 150–176 tokens/sec
- First token latency: 510–690 ms
- देखा गया VRAM उपयोग: 21–23GB
अवलोकन
- प्रदर्शन सुसंगत और पूर्वानुमेय था।
- throughput scaling Ollama से बेहतर लेकिन vLLM से कम।
- container runtime के कारण परिचालन ओवरहेड अधिक।
TGI production controls और monitoring प्रदान करता है, लेकिन एकल 4090 से अधिकतम throughput नहीं निकालता।

प्रत्यक्ष तुलना
| Stack | Single Stream | 8 Streams | First Token | VRAM | GPU Saturation |
|---|---|---|---|---|---|
| Ollama | 62–74 t/s | 95–108 t/s | 720–980ms | 14–17GB | आंशिक |
| TGI | 78–88 t/s | 150–176 t/s | 510–690ms | 21–23GB | उच्च |
| vLLM | 92–104 t/s | 185–215 t/s | 360–480ms | 20–22GB | बहुत उच्च |
विकेन्द्रीकृत GPUs पर लागत प्रभाव
विकेन्द्रीकृत मार्केटप्लेस में RTX 4090 का किराया औसतन लगभग 0.40–0.50 USD प्रति घंटा रहता है, मांग के अनुसार। विस्तृत विश्लेषण देखें:
मान लें:
- 0.45 USD/घंटा
- 500,000 tokens उत्पन्न
- 8 समवर्ती streams
मापा गया मध्य throughput उपयोग करते हुए:
vLLM (~200 tokens/sec)
500,000 / 200 = 2,500 सेकंड ≈ 41–42 मिनट
लागत ≈ 0.31 USD
Ollama (~100 tokens/sec)
500,000 / 100 = 5,000 सेकंड ≈ 83–84 मिनट
लागत ≈ 0.63 USD
अलग से देखने पर लागत अंतर बड़ा नहीं है।
स्केल पर यह संचयी हो जाता है।
यदि प्रतिदिन 50 मिलियन tokens संसाधित किए जाते हैं, तो throughput दक्षता सीधे GPU फ्लीट आकार और किराया अवधि को प्रभावित करती है।
इस बेंचमार्क को स्वयं चलाएँ
यदि आप बिना हार्डवेयर खरीदे इन मापों को पुन: उत्पन्न करना चाहते हैं, तो RTX 4090 नोड्स आमतौर पर GPUFlow मार्केटप्लेस पर उपलब्ध होते हैं।
मशीनें प्रति घंटा किराये पर मिलती हैं और wallet कनेक्ट करते ही तुरंत एक्सेस की जा सकती हैं। कोई अकाउंट अप्रूवल देरी, एंटरप्राइज कॉन्ट्रैक्ट या लंबी provisioning कतार नहीं।
उपलब्ध GPUs ब्राउज़ करें: GPU Flow
किराया प्रति घंटा होने के कारण Inference दक्षता सीधे लागत को प्रभावित करती है। 100 tokens/sec और 200 tokens/sec के बीच का अंतर सतत workloads में महत्वपूर्ण हो जाता है।
डिप्लॉयमेंट संदर्भ
यदि आप विकेन्द्रीकृत GPUs किराये पर ले रहे हैं — जैसा कि इन लेखों में वर्णित है:
- KYC के बिना GPU कैसे किराये पर लें
- क्रिप्टो से GPU किराये पर लें
- स्मार्ट कॉन्ट्रैक्ट एस्क्रो समझाया गया
— तो Inference दक्षता सीधे पूंजी दक्षता निर्धारित करती है।
Throughput प्रभावित करता है:
- एस्क्रो अवधि
- ब्लॉकचेन सेटलमेंट आवृत्ति
- होस्ट अस्थिरता के प्रति जोखिम
- परिचालन मार्जिन
जब कुशल Inference stack के साथ जोड़ा जाए, तो उपभोक्ता GPUs 7B–8B मॉडलों के लिए आर्थिक रूप से व्यवहार्य बने रहते हैं।
कब किसे उपयोग करें
Ollama
- आंतरिक टूल्स
- कम concurrency
- त्वरित प्रोटोटाइपिंग
TGI
- कंटेनर-आधारित वातावरण
- संरचित लॉगिंग की आवश्यकता वाली टीमें
- प्रबंधित production डिप्लॉयमेंट
vLLM
- API सेवाएँ
- उच्च concurrency
- प्रति डॉलर अधिकतम tokens
निष्कर्ष
एकल RTX 4090 पर Llama‑3.1‑8B को FP16 में चलाते हुए:
- vLLM ने सबसे अधिक स्थायी throughput प्राप्त किया।
- TGI ने production नियंत्रणों के साथ संतुलित प्रदर्शन प्रदान किया।
- Ollama ने अधिकतम GPU उपयोग के बजाय सरलता को प्राथमिकता दी।
Inference stack का चयन सतही निर्णय नहीं है।
यह लागत संरचना और स्केलिंग व्यवहार को परिभाषित करता है।
विकेन्द्रीकृत उपभोक्ता GPUs पर तैनात workloads के लिए batching दक्षता का आर्थिक प्रभाव प्रत्यक्ष होता है।
इसे production में कहाँ चलाएँ
इस लेख के सभी बेंचमार्क स्वामित्व वाले इन्फ्रास्ट्रक्चर के बजाय किराये के उपभोक्ता हार्डवेयर पर किए गए थे।
यदि आपको Inference या fine‑tuning के लिए RTX 4090, RTX 3090 या अधिक मेमोरी वाले GPUs की तत्काल आवश्यकता है, तो नोड्स GPU Flow पर उपलब्ध हैं।
प्रति घंटा किराया। Stablecoin के माध्यम से भुगतान। Wallet कनेक्शन के तुरंत बाद एक्सेस।
संबंधित संसाधन
अपने डिप्लॉयमेंट स्टैक की समझ गहरी करें:
- विकेन्द्रीकृत GPUs पर प्राइवेट LLM फाइन‑ट्यूनिंग की अंतिम मार्गदर्शिका — ओपन‑वेट्स मॉडलों को सुरक्षित रूप से प्रशिक्षित करने की पूर्ण प्रक्रिया
- GPU किराया मूल्य तुलना 2026 — प्रमुख GPU किराया प्लेटफॉर्म्स के बीच मापे गए लागत अंतर
- GPU किराये में छिपी हुई फीस — प्रति घंटा मूल्य पृष्ठ क्या प्रकट नहीं करते
- RunPod बनाम Vast.ai तुलना — केंद्रीकृत बनाम मार्केटप्लेस इन्फ्रास्ट्रक्चर अंतर