独自モデルを実行することは、全体の半分にすぎません。
fine‑tuning を完了した後 — 詳細は[分散型 GPU におけるプライベート LLM ファインチューニングガイド](/ja/private-llm-fine-tuning-guide)を参照 — 次の判断は運用面です。どのように効率的にモデルを提供するか。
推論は以下を決定します。
- トークンあたりのコスト
- 負荷時のレイテンシ
- GPU 利用効率
- コンシューマー向けハードウェアが本番で実用的かどうか
本ベンチマークでは、広く使用されている 3 つの推論スタックを比較します。
- Ollama
- vLLM
- Hugging Face Text Generation Inference (TGI)
目的は好みではありません。
目的は測定です。
---
## テスト環境
**ハードウェア**
- GPU: NVIDIA RTX 4090(24GB VRAM)
- CPU: 16 コア Ryzen クラスのコンシューマープロセッサ
- RAM: 64GB DDR5
- ストレージ: NVMe SSD
- CUDA: 12.1
- NVIDIA Driver: 550+
**モデル**
- `meta-llama/Llama-3.1-8B`
- 精度: FP16(4‑bit 量子化なし)
- コンテキストウィンドウ: 4096 トークン
**ベンチマーク条件**
- 512 トークン入力プロンプト
- 128 トークン生成
- Greedy decoding(temperature = 0)
- speculative decoding なし
- tensor parallelism なし
- ウォームスタートのみ(測定前にモデルをロード)
- 8 同時リクエストストリーム(対応している場合)
すべてのテストはバックグラウンド負荷のないクリーンな環境で実行しました。
各測定値は 5 回実行の平均です。
---

---
# 結果
## 1. Ollama
Ollama はシンプルさを重視しています。インストールは最小限で、モデルは自動的にダウンロードされます。
```bash
ollama run llama3
バッチ処理やスケジューリング戦略に関する詳細な設定は限定的です。
実測パフォーマンス(RTX 4090、FP16)
- 単一ストリームスループット: 62–74 トークン/秒
- 8 ストリームスループット: 95–108 トークン/秒
- 初回トークンレイテンシ: 720–980 ms
- 観測 VRAM 使用量: 14–17GB
観察結果
- 同時実行時に GPU 利用率が変動。
- 4 ストリーム以降、スケーリングは非線形。
- 高度なバッチ最適化の制御は公開されていない。
Ollama はローカル開発や低トラフィック用途には適しています。
継続的な同時負荷下では GPU を完全に飽和させることはできません。
2. vLLM
vLLM はスループット重視で設計されています。PagedAttention 実装により、同時リクエスト時の KV キャッシュ効率を改善します。
インストール:
pip install vllm
起動:
python -m vllm.entrypoints.openai.api_server \
--model meta-llama/Llama-3.1-8B \
--dtype float16
実測パフォーマンス(RTX 4090、FP16)
- 単一ストリームスループット: 92–104 トークン/秒
- 8 ストリームスループット: 185–215 トークン/秒
- 初回トークンレイテンシ: 360–480 ms
- 観測 VRAM 使用量: 20–22GB
観察結果
- 負荷下で GPU 利用率は 95% 以上を維持。
- continuous batching によりスケーリング効率が向上。
- 同時ストリーム間でレイテンシは安定。
vLLM はレンタル 1 時間あたりで最も高い持続スループットを達成しました。
3. Hugging Face Text Generation Inference (TGI)
TGI はコンテナ化された本番向け推論サーバーです。
docker run --gpus all \
-p 8080:80 \
ghcr.io/huggingface/text-generation-inference:latest \
--model-id meta-llama/Llama-3.1-8B
実測パフォーマンス(RTX 4090、FP16)
- 単一ストリームスループット: 78–88 トークン/秒
- 8 ストリームスループット: 150–176 トークン/秒
- 初回トークンレイテンシ: 510–690 ms
- 観測 VRAM 使用量: 21–23GB
観察結果
- パフォーマンスは一貫して安定。
- Ollama より良好だが vLLM には及ばない。
- コンテナ実行環境による運用オーバーヘッドあり。
TGI は本番向けの制御や監視機能を提供しますが、単一 4090 から最大スループットを引き出すことはできません。

直接比較
| スタック | 単一ストリーム | 8 ストリーム | 初回トークン | VRAM | GPU 飽和度 |
|---|---|---|---|---|---|
| Ollama | 62–74 t/s | 95–108 t/s | 720–980ms | 14–17GB | 部分的 |
| TGI | 78–88 t/s | 150–176 t/s | 510–690ms | 21–23GB | 高い |
| vLLM | 92–104 t/s | 185–215 t/s | 360–480ms | 20–22GB | 非常に高い |
分散型 GPU におけるコストへの影響
分散型マーケットプレイスでは、RTX 4090 のレンタル料金は需要に応じておおよそ 1 時間あたり 0.40~0.50 USD が一般的です。詳細な内訳は以下を参照してください。
前提条件:
- 0.45 USD/時間
- 500,000 トークン生成
- 同時 8 ストリーム
実測中央値のスループットを使用すると:
vLLM(約 200 tokens/sec)
500,000 / 200 = 2,500 秒 ≈ 41~42 分
コスト ≈ 0.31 USD
Ollama(約 100 tokens/sec)
500,000 / 100 = 5,000 秒 ≈ 83~84 分
コスト ≈ 0.63 USD
単体では大きな差に見えません。
スケールすると差は拡大します。
1 日あたり 5,000 万トークンを処理する場合、スループット効率は GPU 台数とレンタル時間に直接影響します。
このベンチマークを自分で実行する
ハードウェアを購入せずに再現したい場合、RTX 4090 ノードは通常 GPUFlow マーケットプレイスで利用可能です。
マシンは時間単位でレンタルされ、ウォレット接続後すぐに利用できます。アカウント承認の待ち時間、エンタープライズ契約、長いプロビジョニング待機はありません。
利用可能な GPU は GPU Flow で確認できます。
時間課金のため、推論効率は直接コストに影響します。100 tokens/sec と 200 tokens/sec の差は、継続的なワークロードでは無視できません。
デプロイメントの文脈
分散型 GPU をレンタルしている場合 — 以下の記事で説明している通り:
— 推論効率は資本効率を直接左右します。
スループットは次に影響します:
- エスクロー期間
- ブロックチェーン決済頻度
- ホスト不安定性への露出
- 運用マージン
効率的な推論スタックと組み合わせれば、コンシューマー GPU は 7B~8B モデルにおいて経済的に十分実用的です。
用途別の選択
Ollama
- 内部ツール
- 低同時実行
- 迅速なプロトタイピング
TGI
- コンテナ化環境
- 構造化ログが必要なチーム
- 管理された本番デプロイ
vLLM
- API サービス
- 高同時実行
- 1 ドルあたり最大トークン数
結論
単一の RTX 4090 上で Llama‑3.1‑8B を FP16 で実行した場合:
- vLLM が最も高い持続スループットを達成。
- TGI は本番向け制御を備えたバランス型パフォーマンス。
- Ollama は最大 GPU 利用よりもシンプルさを優先。
推論スタックの選択は表面的な問題ではありません。
コスト構造とスケーリング特性を決定します。
分散型コンシューマー GPU 上のワークロードでは、バッチ効率が経済性に直接影響します。
本番環境での実行先
本記事のすべてのベンチマークは、自社インフラではなくレンタルされたコンシューマーハードウェア上で実施されました。
推論や fine‑tuning のために RTX 4090、RTX 3090、またはより大容量メモリの GPU が必要な場合、ノードは GPU Flow で利用可能です。
時間単位レンタル。ステーブルコイン決済。ウォレット接続後すぐに利用可能。
関連リソース
デプロイメントスタックをさらに深める:
- 分散型 GPU におけるプライベート LLM ファインチューニング完全ガイド — オープンウェイトモデルを安全にトレーニングするための包括的手順
- GPU レンタル価格比較 2026 — 主要 GPU レンタルプラットフォーム間の実測コスト差
- GPU レンタルにおける隠れた手数料 — 時間課金ページが開示しない項目
- RunPod と Vast.ai の比較 — 集中型インフラとマーケットプレイス型インフラの違い