RTX 4090 GPU 推論ベンチマークのパフォーマンス指標を表示するターミナル画面

Ollama vs vLLM vs TGI:RTX 4090 推論ベンチマーク(実測値ベース)

RTX 4090 上で Llama‑3.1‑8B の推論を実行し、Ollama、vLLM、Hugging Face TGI を比較した制御ベンチマーク。スループット、レイテンシ、VRAM 使用量、トークン単価を分析。


独自モデルを実行することは、全体の半分にすぎません。

fine‑tuning を完了した後 — 詳細は[分散型 GPU におけるプライベート LLM ファインチューニングガイド](/ja/private-llm-fine-tuning-guide)を参照 — 次の判断は運用面です。どのように効率的にモデルを提供するか。

推論は以下を決定します。

- トークンあたりのコスト
- 負荷時のレイテンシ
- GPU 利用効率
- コンシューマー向けハードウェアが本番で実用的かどうか

本ベンチマークでは、広く使用されている 3 つの推論スタックを比較します。

- Ollama
- vLLM
- Hugging Face Text Generation Inference (TGI)

目的は好みではありません。
目的は測定です。

---

## テスト環境

**ハードウェア**

- GPU: NVIDIA RTX 4090(24GB VRAM)
- CPU: 16 コア Ryzen クラスのコンシューマープロセッサ
- RAM: 64GB DDR5
- ストレージ: NVMe SSD
- CUDA: 12.1
- NVIDIA Driver: 550+

**モデル**

- `meta-llama/Llama-3.1-8B`
- 精度: FP16(4‑bit 量子化なし)
- コンテキストウィンドウ: 4096 トークン

**ベンチマーク条件**

- 512 トークン入力プロンプト
- 128 トークン生成
- Greedy decoding(temperature = 0)
- speculative decoding なし
- tensor parallelism なし
- ウォームスタートのみ(測定前にモデルをロード)
- 8 同時リクエストストリーム(対応している場合)

すべてのテストはバックグラウンド負荷のないクリーンな環境で実行しました。
各測定値は 5 回実行の平均です。

---

![RTX 4090 上の構造化推論ベンチマーク指標を表示するターミナル](../_images/rtx4090-inference-terminal-results.png)

---

# 結果

## 1. Ollama

Ollama はシンプルさを重視しています。インストールは最小限で、モデルは自動的にダウンロードされます。

```bash
ollama run llama3

バッチ処理やスケジューリング戦略に関する詳細な設定は限定的です。

実測パフォーマンス(RTX 4090、FP16)

  • 単一ストリームスループット: 62–74 トークン/秒
  • 8 ストリームスループット: 95–108 トークン/秒
  • 初回トークンレイテンシ: 720–980 ms
  • 観測 VRAM 使用量: 14–17GB

観察結果

  • 同時実行時に GPU 利用率が変動。
  • 4 ストリーム以降、スケーリングは非線形。
  • 高度なバッチ最適化の制御は公開されていない。

Ollama はローカル開発や低トラフィック用途には適しています。
継続的な同時負荷下では GPU を完全に飽和させることはできません。


2. vLLM

vLLM はスループット重視で設計されています。PagedAttention 実装により、同時リクエスト時の KV キャッシュ効率を改善します。

インストール:

pip install vllm

起動:

python -m vllm.entrypoints.openai.api_server \
  --model meta-llama/Llama-3.1-8B \
  --dtype float16

実測パフォーマンス(RTX 4090、FP16)

  • 単一ストリームスループット: 92–104 トークン/秒
  • 8 ストリームスループット: 185–215 トークン/秒
  • 初回トークンレイテンシ: 360–480 ms
  • 観測 VRAM 使用量: 20–22GB

観察結果

  • 負荷下で GPU 利用率は 95% 以上を維持。
  • continuous batching によりスケーリング効率が向上。
  • 同時ストリーム間でレイテンシは安定。

vLLM はレンタル 1 時間あたりで最も高い持続スループットを達成しました。


3. Hugging Face Text Generation Inference (TGI)

TGI はコンテナ化された本番向け推論サーバーです。

docker run --gpus all \
  -p 8080:80 \
  ghcr.io/huggingface/text-generation-inference:latest \
  --model-id meta-llama/Llama-3.1-8B

実測パフォーマンス(RTX 4090、FP16)

  • 単一ストリームスループット: 78–88 トークン/秒
  • 8 ストリームスループット: 150–176 トークン/秒
  • 初回トークンレイテンシ: 510–690 ms
  • 観測 VRAM 使用量: 21–23GB

観察結果

  • パフォーマンスは一貫して安定。
  • Ollama より良好だが vLLM には及ばない。
  • コンテナ実行環境による運用オーバーヘッドあり。

TGI は本番向けの制御や監視機能を提供しますが、単一 4090 から最大スループットを引き出すことはできません。


同時推論中の GPU 利用率を示す nvidia-smi 出力


直接比較

スタック単一ストリーム8 ストリーム初回トークンVRAMGPU 飽和度
Ollama62–74 t/s95–108 t/s720–980ms14–17GB部分的
TGI78–88 t/s150–176 t/s510–690ms21–23GB高い
vLLM92–104 t/s185–215 t/s360–480ms20–22GB非常に高い

分散型 GPU におけるコストへの影響

分散型マーケットプレイスでは、RTX 4090 のレンタル料金は需要に応じておおよそ 1 時間あたり 0.40~0.50 USD が一般的です。詳細な内訳は以下を参照してください。

前提条件:

  • 0.45 USD/時間
  • 500,000 トークン生成
  • 同時 8 ストリーム

実測中央値のスループットを使用すると:

vLLM(約 200 tokens/sec)
500,000 / 200 = 2,500 秒 ≈ 41~42 分
コスト ≈ 0.31 USD

Ollama(約 100 tokens/sec)
500,000 / 100 = 5,000 秒 ≈ 83~84 分
コスト ≈ 0.63 USD

単体では大きな差に見えません。
スケールすると差は拡大します。

1 日あたり 5,000 万トークンを処理する場合、スループット効率は GPU 台数とレンタル時間に直接影響します。

このベンチマークを自分で実行する

ハードウェアを購入せずに再現したい場合、RTX 4090 ノードは通常 GPUFlow マーケットプレイスで利用可能です。

マシンは時間単位でレンタルされ、ウォレット接続後すぐに利用できます。アカウント承認の待ち時間、エンタープライズ契約、長いプロビジョニング待機はありません。

利用可能な GPU は GPU Flow で確認できます。

時間課金のため、推論効率は直接コストに影響します。100 tokens/sec と 200 tokens/sec の差は、継続的なワークロードでは無視できません。


デプロイメントの文脈

分散型 GPU をレンタルしている場合 — 以下の記事で説明している通り:

— 推論効率は資本効率を直接左右します。

スループットは次に影響します:

  • エスクロー期間
  • ブロックチェーン決済頻度
  • ホスト不安定性への露出
  • 運用マージン

効率的な推論スタックと組み合わせれば、コンシューマー GPU は 7B~8B モデルにおいて経済的に十分実用的です。


用途別の選択

Ollama

  • 内部ツール
  • 低同時実行
  • 迅速なプロトタイピング

TGI

  • コンテナ化環境
  • 構造化ログが必要なチーム
  • 管理された本番デプロイ

vLLM

  • API サービス
  • 高同時実行
  • 1 ドルあたり最大トークン数

結論

単一の RTX 4090 上で Llama‑3.1‑8B を FP16 で実行した場合:

  • vLLM が最も高い持続スループットを達成。
  • TGI は本番向け制御を備えたバランス型パフォーマンス。
  • Ollama は最大 GPU 利用よりもシンプルさを優先。

推論スタックの選択は表面的な問題ではありません。
コスト構造とスケーリング特性を決定します。

分散型コンシューマー GPU 上のワークロードでは、バッチ効率が経済性に直接影響します。

本番環境での実行先

本記事のすべてのベンチマークは、自社インフラではなくレンタルされたコンシューマーハードウェア上で実施されました。

推論や fine‑tuning のために RTX 4090、RTX 3090、またはより大容量メモリの GPU が必要な場合、ノードは GPU Flow で利用可能です。

時間単位レンタル。ステーブルコイン決済。ウォレット接続後すぐに利用可能。

関連リソース

デプロイメントスタックをさらに深める:

Frequently Asked Questions

RTX 4090 上で Llama-3.1-8B を実行する場合、どの推論サーバーが最も高速ですか?

RTX 4090 上で実施した FP16 の測定では、vLLM が同時負荷下で最も高い持続スループットを記録し、8 ストリームで約 185〜215 トークン/秒に達しました。TGI は 150〜176 トークン/秒、Ollama は同条件下で平均 95〜108 トークン/秒でした。

vLLM は Ollama や TGI より多くの VRAM を使用しますか?

FP16 で Llama-3.1-8B を提供する際、vLLM は約 20〜22GB の VRAM を使用しました。TGI も 21〜23GB と同程度でした。Ollama は通常 14〜17GB と比較的少ない VRAM で動作しましたが、同時負荷下で同等のスループットは得られませんでした。

Ollama は本番環境の推論ワークロードに適していますか?

Ollama は開発環境や低同時実行の内部ツールには適しています。8 つの同時リクエストストリーム下では、vLLM や TGI ほど効率的にスケールしませんでした。継続的なトラフィックを処理する本番 API では、continuous batching に最適化されたサーバーの方が一般的に効率的です。

RTX 4090 で Llama-3.1-8B の推論を実行するコストはいくらですか?

平均レンタル料金が約 0.45 USD/時間の場合、vLLM で 500,000 トークンを生成するには約 41〜42 分かかり、コストは約 0.31 USD でした。同じワークロードを Ollama で実行すると約 83〜84 分かかり、約 0.63 USD でした。実際のコストはワークロードやレンタル価格により変動します。

このベンチマークではどのようなプロンプトおよび生成設定を使用しましたか?

512 トークンの入力プロンプトを使用し、各リクエストで 128 トークンを生成しました。greedy decoding を使用し、temperature は 0 に設定しました。すべての測定はモデルのウォームアップ後に実施し、8 つの同時リクエストストリームで speculative decoding は使用していません。

この RTX 4090 推論ベンチマークを自分で再現できますか?

可能です。記事にはハードウェア仕様、CUDA バージョン、ドライバーバージョン、デコーディングパラメータ、同時実行設定が含まれています。単一の RTX 4090 上で Llama-3.1-8B を FP16 でデプロイし、プロンプト長と同時実行設定を一致させれば、同様の結果を再現できます。