RTX 4090 पर Llama-3.1-8B के लिए कौन सा Inference सर्वर सबसे तेज है?

RTX 4090 पर किए गए FP16 परीक्षणों में, vLLM ने समवर्ती लोड के तहत सबसे अधिक स्थायी throughput हासिल किया, आठ streams पर लगभग 185 से 215 tokens प्रति सेकंड तक। TGI ने 150 से 176 tokens प्रति सेकंड दिए, जबकि Ollama ने समान परिस्थितियों में औसतन 95 से 108 tokens प्रति सेकंड हासिल किए।

क्या vLLM, Ollama या TGI की तुलना में अधिक VRAM उपयोग करता है?

FP16 में Llama-3.1-8B सर्व करते समय vLLM ने लगभग 20 से 22GB VRAM का उपयोग किया। TGI ने 21 से 23GB के समान दायरे का उपभोग किया। Ollama ने कुल मिलाकर कम VRAM उपयोग किया, सामान्यतः 14 से 17GB के बीच, लेकिन समवर्ती लोड के तहत समान throughput प्राप्त नहीं किया।

क्या Ollama production Inference workloads के लिए उपयुक्त है?

Ollama विकास वातावरण और कम concurrency वाले आंतरिक टूल्स के लिए उपयुक्त है। परीक्षणों में, यह आठ समवर्ती request streams के तहत vLLM या TGI जितना कुशलतापूर्वक स्केल नहीं हुआ। निरंतर ट्रैफ़िक वाली production APIs के लिए, continuous batching के लिए अनुकूलित सर्वर सामान्यतः अधिक कुशल होता है।

RTX 4090 पर Llama-3.1-8B Inference चलाने की लागत कितनी है?

लगभग 0.45 USD प्रति घंटा की औसत किराया दर पर, vLLM का उपयोग करते हुए 500,000 tokens उत्पन्न करने में लगभग 41 से 42 मिनट लगे, जिसकी लागत लगभग 0.31 USD थी। समान workload के लिए Ollama का उपयोग करने पर लगभग 83 से 84 मिनट लगे, जिसकी लागत लगभग 0.63 USD थी। वास्तविक लागत workload और किराया मूल्य पर निर्भर करती है।

इस बेंचमार्क में कौन से prompt और generation सेटिंग्स उपयोग किए गए थे?

बेंचमार्क में 512-token input prompt और प्रति request 128 tokens generation का उपयोग किया गया, greedy decoding के साथ जहाँ temperature शून्य पर सेट था। सभी माप model warm‑up के बाद लिए गए, आठ समवर्ती request streams के साथ और बिना speculative decoding।

क्या मैं इस RTX 4090 Inference बेंचमार्क को स्वयं पुन: उत्पन्न कर सकता हूँ?

हाँ। लेख में hardware specifications, CUDA version, driver version, decoding parameters और concurrency configuration शामिल हैं। एकल RTX 4090 पर FP16 में Llama-3.1-8B deploy करके और prompt लंबाई तथा concurrency सेटिंग्स मिलाकर, आप तुलनीय परिणाम प्राप्त कर सकते हैं।


अपना स्वयं का मॉडल चलाना केवल आधा समाधान है।

fine‑tuning पूरा करने के बाद — जैसा कि हमारे [Private LLM Fine‑Tuning गाइड](/hi/private-llm-fine-tuning-guide) में विस्तार से बताया गया है — अगला निर्णय परिचालन संबंधी है: मॉडल को कुशलतापूर्वक कैसे serve किया जाए?

Inference निर्धारित करता है:

- प्रति token लागत
- लोड के तहत latency
- GPU उपयोग की दक्षता
- क्या उपभोक्ता हार्डवेयर production में व्यवहार्य है

यह बेंचमार्क तीन व्यापक रूप से उपयोग किए जाने वाले Inference stacks की तुलना करता है:

- Ollama
- vLLM
- Hugging Face Text Generation Inference (TGI)

उद्देश्य प्राथमिकता नहीं है।
उद्देश्य मापन है।

---

## परीक्षण वातावरण

**हार्डवेयर**

- GPU: NVIDIA RTX 4090 (24GB VRAM)
- CPU: 16‑core Ryzen‑class उपभोक्ता प्रोसेसर
- RAM: 64GB DDR5
- स्टोरेज: NVMe SSD
- CUDA: 12.1
- NVIDIA Driver: 550+

**मॉडल**

- `meta-llama/Llama-3.1-8B`
- प्रिसिजन: FP16 (4‑bit quantization नहीं)
- Context window: 4096 tokens

**बेंचमार्क शर्तें**

- 512-token input prompt
- 128-token output generation
- Greedy decoding (temperature = 0)
- speculative decoding नहीं
- tensor parallelism नहीं
- केवल warm start (मापन से पहले मॉडल प्रीलोड)
- 8 समवर्ती request streams (जहाँ समर्थित)

सभी परीक्षण एक साफ मशीन पर बिना बैकग्राउंड लोड के किए गए।
प्रत्येक मापन पाँच रन के औसत को दर्शाता है।

---

![RTX 4090 पर संरचित Inference बेंचमार्क मेट्रिक्स दिखाता हुआ टर्मिनल](../_images/rtx4090-inference-terminal-results.png)

---

# परिणाम

## 1. Ollama

Ollama सरलता को प्राथमिकता देता है। इंस्टॉलेशन न्यूनतम है और मॉडल स्वतः डाउनलोड होते हैं।

```bash
ollama run llama3

batching व्यवहार या scheduling रणनीति के लिए सीमित कॉन्फ़िगरेशन उपलब्ध है।

मापा गया प्रदर्शन (RTX 4090, FP16)

Single stream throughput: 62–74 tokens/sec
8-stream throughput: 95–108 tokens/sec
First token latency: 720–980 ms
देखा गया VRAM उपयोग: 14–17GB

अवलोकन

concurrency के तहत GPU उपयोग में उतार‑चढ़ाव रहा।
4 streams के बाद throughput scaling रैखिक नहीं था।
उन्नत batching optimization के लिए कोई स्पष्ट नियंत्रण उपलब्ध नहीं।

Ollama स्थानीय विकास और कम ट्रैफ़िक सेवाओं के लिए विश्वसनीय है।
सतत समवर्ती लोड के तहत यह GPU को पूरी तरह संतृप्त नहीं करता।

2. vLLM

vLLM को throughput के लिए डिज़ाइन किया गया है। इसका PagedAttention implementation समवर्ती requests के तहत KV cache दक्षता सुधारता है।

इंस्टॉलेशन:

pip install vllm

लॉन्च:

python -m vllm.entrypoints.openai.api_server \
  --model meta-llama/Llama-3.1-8B \
  --dtype float16

मापा गया प्रदर्शन (RTX 4090, FP16)

Single stream throughput: 92–104 tokens/sec
8-stream throughput: 185–215 tokens/sec
First token latency: 360–480 ms
देखा गया VRAM उपयोग: 20–22GB

अवलोकन

लोड के तहत GPU उपयोग 95% से ऊपर बना रहा।
continuous batching ने scaling दक्षता में सुधार किया।
समवर्ती streams में latency स्थिर रही।

vLLM ने प्रति किराया घंटे उच्चतम स्थायी throughput हासिल किया।

3. Hugging Face Text Generation Inference (TGI)

TGI एक containerized production Inference सर्वर है।

docker run --gpus all \
  -p 8080:80 \
  ghcr.io/huggingface/text-generation-inference:latest \
  --model-id meta-llama/Llama-3.1-8B

मापा गया प्रदर्शन (RTX 4090, FP16)

Single stream throughput: 78–88 tokens/sec
8-stream throughput: 150–176 tokens/sec
First token latency: 510–690 ms
देखा गया VRAM उपयोग: 21–23GB

अवलोकन

प्रदर्शन सुसंगत और पूर्वानुमेय था।
throughput scaling Ollama से बेहतर लेकिन vLLM से कम।
container runtime के कारण परिचालन ओवरहेड अधिक।

TGI production controls और monitoring प्रदान करता है, लेकिन एकल 4090 से अधिकतम throughput नहीं निकालता।

समवर्ती Inference के दौरान GPU उपयोग दिखाता हुआ nvidia-smi आउटपुट

प्रत्यक्ष तुलना

Stack	Single Stream	8 Streams	First Token	VRAM	GPU Saturation
Ollama	62–74 t/s	95–108 t/s	720–980ms	14–17GB	आंशिक
TGI	78–88 t/s	150–176 t/s	510–690ms	21–23GB	उच्च
vLLM	92–104 t/s	185–215 t/s	360–480ms	20–22GB	बहुत उच्च

विकेन्द्रीकृत GPUs पर लागत प्रभाव

विकेन्द्रीकृत मार्केटप्लेस में RTX 4090 का किराया औसतन लगभग 0.40–0.50 USD प्रति घंटा रहता है, मांग के अनुसार। विस्तृत विश्लेषण देखें:

मान लें:

0.45 USD/घंटा
500,000 tokens उत्पन्न
8 समवर्ती streams

मापा गया मध्य throughput उपयोग करते हुए:

vLLM (~200 tokens/sec)
500,000 / 200 = 2,500 सेकंड ≈ 41–42 मिनट
लागत ≈ 0.31 USD

Ollama (~100 tokens/sec)
500,000 / 100 = 5,000 सेकंड ≈ 83–84 मिनट
लागत ≈ 0.63 USD

अलग से देखने पर लागत अंतर बड़ा नहीं है।
स्केल पर यह संचयी हो जाता है।

यदि प्रतिदिन 50 मिलियन tokens संसाधित किए जाते हैं, तो throughput दक्षता सीधे GPU फ्लीट आकार और किराया अवधि को प्रभावित करती है।

इस बेंचमार्क को स्वयं चलाएँ

यदि आप बिना हार्डवेयर खरीदे इन मापों को पुन: उत्पन्न करना चाहते हैं, तो RTX 4090 नोड्स आमतौर पर GPUFlow मार्केटप्लेस पर उपलब्ध होते हैं।

मशीनें प्रति घंटा किराये पर मिलती हैं और wallet कनेक्ट करते ही तुरंत एक्सेस की जा सकती हैं। कोई अकाउंट अप्रूवल देरी, एंटरप्राइज कॉन्ट्रैक्ट या लंबी provisioning कतार नहीं।

उपलब्ध GPUs ब्राउज़ करें: GPU Flow

किराया प्रति घंटा होने के कारण Inference दक्षता सीधे लागत को प्रभावित करती है। 100 tokens/sec और 200 tokens/sec के बीच का अंतर सतत workloads में महत्वपूर्ण हो जाता है।

डिप्लॉयमेंट संदर्भ

यदि आप विकेन्द्रीकृत GPUs किराये पर ले रहे हैं — जैसा कि इन लेखों में वर्णित है:

— तो Inference दक्षता सीधे पूंजी दक्षता निर्धारित करती है।

Throughput प्रभावित करता है:

एस्क्रो अवधि
ब्लॉकचेन सेटलमेंट आवृत्ति
होस्ट अस्थिरता के प्रति जोखिम
परिचालन मार्जिन

जब कुशल Inference stack के साथ जोड़ा जाए, तो उपभोक्ता GPUs 7B–8B मॉडलों के लिए आर्थिक रूप से व्यवहार्य बने रहते हैं।

कब किसे उपयोग करें

Ollama

आंतरिक टूल्स
कम concurrency
त्वरित प्रोटोटाइपिंग

TGI

कंटेनर-आधारित वातावरण
संरचित लॉगिंग की आवश्यकता वाली टीमें
प्रबंधित production डिप्लॉयमेंट

vLLM

API सेवाएँ
उच्च concurrency
प्रति डॉलर अधिकतम tokens

निष्कर्ष

एकल RTX 4090 पर Llama‑3.1‑8B को FP16 में चलाते हुए:

vLLM ने सबसे अधिक स्थायी throughput प्राप्त किया।
TGI ने production नियंत्रणों के साथ संतुलित प्रदर्शन प्रदान किया।
Ollama ने अधिकतम GPU उपयोग के बजाय सरलता को प्राथमिकता दी।

Inference stack का चयन सतही निर्णय नहीं है।
यह लागत संरचना और स्केलिंग व्यवहार को परिभाषित करता है।

विकेन्द्रीकृत उपभोक्ता GPUs पर तैनात workloads के लिए batching दक्षता का आर्थिक प्रभाव प्रत्यक्ष होता है।

इसे production में कहाँ चलाएँ

इस लेख के सभी बेंचमार्क स्वामित्व वाले इन्फ्रास्ट्रक्चर के बजाय किराये के उपभोक्ता हार्डवेयर पर किए गए थे।

यदि आपको Inference या fine‑tuning के लिए RTX 4090, RTX 3090 या अधिक मेमोरी वाले GPUs की तत्काल आवश्यकता है, तो नोड्स GPU Flow पर उपलब्ध हैं।

Ollama vs vLLM vs TGI: RTX 4090 Inference बेंचमार्क (मापा गया, न कि मार्केटिंग)

मापा गया प्रदर्शन (RTX 4090, FP16)

अवलोकन

2. vLLM

मापा गया प्रदर्शन (RTX 4090, FP16)

अवलोकन

3. Hugging Face Text Generation Inference (TGI)

मापा गया प्रदर्शन (RTX 4090, FP16)

अवलोकन

प्रत्यक्ष तुलना

विकेन्द्रीकृत GPUs पर लागत प्रभाव

इस बेंचमार्क को स्वयं चलाएँ

डिप्लॉयमेंट संदर्भ

कब किसे उपयोग करें

निष्कर्ष

इसे production में कहाँ चलाएँ

प्रति घंटा किराया। Stablecoin के माध्यम से भुगतान। Wallet कनेक्शन के तुरंत बाद एक्सेस।

संबंधित संसाधन

Frequently Asked Questions

RTX 4090 पर Llama-3.1-8B के लिए कौन सा Inference सर्वर सबसे तेज है?

क्या vLLM, Ollama या TGI की तुलना में अधिक VRAM उपयोग करता है?

क्या Ollama production Inference workloads के लिए उपयुक्त है?

RTX 4090 पर Llama-3.1-8B Inference चलाने की लागत कितनी है?

इस बेंचमार्क में कौन से prompt और generation सेटिंग्स उपयोग किए गए थे?

क्या मैं इस RTX 4090 Inference बेंचमार्क को स्वयं पुन: उत्पन्न कर सकता हूँ?