Das Ausführen eines eigenen Modells ist nur die halbe Gleichung.
Nach dem Fine‑Tuning – wie in unserem [Leitfaden für privates LLM‑Fine‑Tuning](/de/private-llm-fine-tuning-guide) beschrieben – ist die nächste Entscheidung operativ: Wie wird das Modell effizient bereitgestellt?
Inference bestimmt:
- Kosten pro Token
- Latenz unter Last
- Effizienz der GPU‑Auslastung
- Ob Consumer‑Hardware in Produktion tragfähig ist
Dieser Benchmark vergleicht drei weit verbreitete Inference‑Stacks:
- Ollama
- vLLM
- Hugging Face Text Generation Inference (TGI)
Das Ziel ist keine Präferenz.
Das Ziel ist Messung.
---
## Testumgebung
**Hardware**
- GPU: NVIDIA RTX 4090 (24GB VRAM)
- CPU: 16‑Core Consumer‑Prozessor der Ryzen‑Klasse
- RAM: 64GB DDR5
- Speicher: NVMe SSD
- CUDA: 12.1
- NVIDIA‑Treiber: 550+
**Modell**
- `meta-llama/Llama-3.1-8B`
- Präzision: FP16 (keine 4‑Bit‑Quantisierung)
- Kontextfenster: 4096 Tokens
**Benchmark‑Bedingungen**
- 512‑Token Input‑Prompt
- 128‑Token Output‑Generierung
- Greedy Decoding (temperature = 0)
- Kein Speculative Decoding
- Kein Tensor Parallelism
- Nur Warm‑Start (Modell vor Messung geladen)
- 8 parallele Request‑Streams (sofern unterstützt)
Alle Tests wurden auf einem sauberen System ohne Hintergrundlast durchgeführt.
Jeder Messwert entspricht dem Mittelwert aus fünf Durchläufen.
---

---
# Ergebnisse
## 1. Ollama
Ollama priorisiert Einfachheit. Die Installation ist minimal, Modelle werden automatisch geladen.
```bash
ollama run llama3
Es gibt nur begrenzte Konfigurationsmöglichkeiten für Batching‑Verhalten oder Scheduling‑Strategien.
Gemessene Performance (RTX 4090, FP16)
- Single‑Stream‑Durchsatz: 62–74 Tokens/sec
- 8‑Stream‑Durchsatz: 95–108 Tokens/sec
- First‑Token‑Latenz: 720–980 ms
- Beobachtete VRAM‑Nutzung: 14–17GB
Beobachtungen
- Die GPU‑Auslastung schwankte unter Parallelität.
- Die Skalierung war ab mehr als vier Streams nicht linear.
- Keine freigelegten Kontrollen für fortgeschrittene Batching‑Optimierung.
Ollama funktioniert zuverlässig für lokale Entwicklung und Dienste mit geringem Traffic. Unter dauerhaft paralleler Last wird die GPU jedoch nicht vollständig ausgelastet.
2. vLLM
vLLM ist auf Durchsatz optimiert. Die PagedAttention‑Implementierung verbessert die Effizienz des KV‑Caches bei parallelen Requests.
Installation:
pip install vllm
Start:
python -m vllm.entrypoints.openai.api_server \
--model meta-llama/Llama-3.1-8B \
--dtype float16
Gemessene Performance (RTX 4090, FP16)
- Single‑Stream‑Durchsatz: 92–104 Tokens/sec
- 8‑Stream‑Durchsatz: 185–215 Tokens/sec
- First‑Token‑Latenz: 360–480 ms
- Beobachtete VRAM‑Nutzung: 20–22GB
Beobachtungen
- GPU‑Auslastung blieb unter Last über 95 %.
- Continuous Batching verbesserte die Skalierungseffizienz.
- Die Latenz blieb bei parallelen Streams stabil.
vLLM erreichte den höchsten nachhaltigen Durchsatz pro Mietstunde.
3. Hugging Face Text Generation Inference (TGI)
TGI ist ein containerisierter Inference‑Server für Produktionsumgebungen.
docker run --gpus all \
-p 8080:80 \
ghcr.io/huggingface/text-generation-inference:latest \
--model-id meta-llama/Llama-3.1-8B
Gemessene Performance (RTX 4090, FP16)
- Single‑Stream‑Durchsatz: 78–88 Tokens/sec
- 8‑Stream‑Durchsatz: 150–176 Tokens/sec
- First‑Token‑Latenz: 510–690 ms
- Beobachtete VRAM‑Nutzung: 21–23GB
Beobachtungen
- Performance war konsistent und vorhersehbar.
- Skalierung besser als bei Ollama, aber unter vLLM.
- Höherer operativer Overhead durch Container‑Runtime.
TGI bietet Produktionskontrollen und Monitoring, schöpft jedoch nicht den maximalen Durchsatz einer einzelnen 4090 aus.

Direkter Vergleich
| Stack | Single Stream | 8 Streams | First Token | VRAM | GPU‑Sättigung |
|---|---|---|---|---|---|
| Ollama | 62–74 t/s | 95–108 t/s | 720–980ms | 14–17GB | Teilweise |
| TGI | 78–88 t/s | 150–176 t/s | 510–690ms | 21–23GB | Hoch |
| vLLM | 92–104 t/s | 185–215 t/s | 360–480ms | 20–22GB | Sehr hoch |
Kostenauswirkungen auf dezentralen GPUs
Auf dezentralen Marktplätzen liegen die Mietpreise für eine RTX 4090 im Durchschnitt bei etwa 0,40–0,50 USD pro Stunde, abhängig von der Nachfrage. Eine detaillierte Aufschlüsselung finden Sie hier:
Annahmen:
- 0,45 USD pro Stunde
- 500.000 generierte Tokens
- 8 parallele Streams
Unter Verwendung des gemessenen Median‑Durchsatzes:
vLLM (~200 Tokens/sec)
500.000 / 200 = 2.500 Sekunden ≈ 41–42 Minuten
Kosten ≈ 0,31 USD
Ollama (~100 Tokens/sec)
500.000 / 100 = 5.000 Sekunden ≈ 83–84 Minuten
Kosten ≈ 0,63 USD
Der Unterschied wirkt isoliert betrachtet gering.
Im großen Maßstab summiert er sich.
Bei 50 Millionen Tokens pro Tag beeinflusst die Durchsatzeffizienz direkt die benötigte GPU‑Flottengröße und Mietdauer.
Diesen Benchmark selbst durchführen
Wenn Sie diese Messungen ohne eigene Hardware reproduzieren möchten, sind RTX 4090‑Nodes in der Regel über den GPUFlow‑Marktplatz verfügbar.
Maschinen werden stundenweise vermietet und sind unmittelbar nach Wallet‑Verbindung zugänglich. Es gibt keine Account‑Freigaben, keine Enterprise‑Verträge und keine langen Provisionierungszeiten.
Verfügbare GPUs finden Sie unter GPU Flow
Da die Abrechnung stundenweise erfolgt, wirkt sich Inference‑Effizienz direkt auf die Kosten aus. Der Unterschied zwischen 100 Tokens/sec und 200 Tokens/sec wird bei dauerhafter Last wirtschaftlich relevant.
Deployment‑Kontext
Wenn Sie dezentrale GPUs mieten – wie beschrieben in:
– bestimmt die Inference‑Effizienz unmittelbar die Kapitaleffizienz.
Der Durchsatz beeinflusst:
- Dauer der Escrow‑Bindung
- Häufigkeit der Blockchain‑Abrechnung
- Exposition gegenüber Host‑Instabilität
- Operative Marge
Consumer‑GPUs bleiben für 7B–8B‑Modelle wirtschaftlich tragfähig, wenn sie mit effizienten Inference‑Stacks kombiniert werden.
Wann welcher Stack sinnvoll ist
Ollama
- Interne Tools
- Geringe Parallelität
- Schnelles Prototyping
TGI
- Containerisierte Umgebungen
- Teams mit Bedarf an strukturiertem Logging
- Verwaltete Produktionsdeployments
vLLM
- API‑Services
- Hohe Parallelität
- Maximale Tokens pro Dollar
Fazit
Auf einer einzelnen RTX 4090 mit Llama‑3.1‑8B in FP16:
- erzielte vLLM den höchsten nachhaltigen Durchsatz.
- bot TGI ausgewogene Performance mit Produktionskontrollen.
- priorisierte Ollama Einfachheit gegenüber maximaler GPU‑Auslastung.
Die Wahl des Inference‑Stacks ist nicht kosmetisch.
Sie definiert Kostenstruktur und Skalierungsverhalten.
Für Workloads auf dezentralen Consumer‑GPUs beeinflusst Batching‑Effizienz die Wirtschaftlichkeit unmittelbar.
Wo dies produktiv betrieben werden kann
Alle Benchmarks in diesem Artikel wurden auf gemieteter Consumer‑Hardware und nicht auf eigener Infrastruktur durchgeführt.
Wenn Sie sofortigen Zugriff auf RTX 4090, RTX 3090 oder GPUs mit höherem Speicher für Inference oder Fine‑Tuning benötigen, sind entsprechende Nodes über GPU Flow verfügbar.
Abrechnung stundenweise. Zahlung per Stablecoin. Zugriff unmittelbar nach Wallet‑Verbindung.
Verwandte Ressourcen
Vertiefen Sie Ihr Deployment‑Know‑how:
- Der umfassende Leitfaden für privates LLM‑Fine‑Tuning auf dezentralen GPUs — Vollständige Anleitung zum sicheren Training von Open‑Weights‑Modellen
- GPU‑Mietpreisvergleich 2026 — Gemessene Kostenunterschiede zwischen großen GPU‑Mietplattformen
- Versteckte Gebühren bei der GPU‑Miete — Was Stundentarif‑Seiten nicht offenlegen
- RunPod vs. Vast.ai Vergleich — Unterschiede zwischen zentralisierter Infrastruktur und Marktplatz‑Modellen