RTX 4090 上で Llama-3.1-8B を実行する場合、どの推論サーバーが最も高速ですか？

RTX 4090 上で実施した FP16 の測定では、vLLM が同時負荷下で最も高い持続スループットを記録し、8 ストリームで約 185〜215 トークン/秒に達しました。TGI は 150〜176 トークン/秒、Ollama は同条件下で平均 95〜108 トークン/秒でした。

vLLM は Ollama や TGI より多くの VRAM を使用しますか？

FP16 で Llama-3.1-8B を提供する際、vLLM は約 20〜22GB の VRAM を使用しました。TGI も 21〜23GB と同程度でした。Ollama は通常 14〜17GB と比較的少ない VRAM で動作しましたが、同時負荷下で同等のスループットは得られませんでした。

Ollama は本番環境の推論ワークロードに適していますか？

Ollama は開発環境や低同時実行の内部ツールには適しています。8 つの同時リクエストストリーム下では、vLLM や TGI ほど効率的にスケールしませんでした。継続的なトラフィックを処理する本番 API では、continuous batching に最適化されたサーバーの方が一般的に効率的です。

RTX 4090 で Llama-3.1-8B の推論を実行するコストはいくらですか？

平均レンタル料金が約 0.45 USD/時間の場合、vLLM で 500,000 トークンを生成するには約 41〜42 分かかり、コストは約 0.31 USD でした。同じワークロードを Ollama で実行すると約 83〜84 分かかり、約 0.63 USD でした。実際のコストはワークロードやレンタル価格により変動します。

このベンチマークではどのようなプロンプトおよび生成設定を使用しましたか？

512 トークンの入力プロンプトを使用し、各リクエストで 128 トークンを生成しました。greedy decoding を使用し、temperature は 0 に設定しました。すべての測定はモデルのウォームアップ後に実施し、8 つの同時リクエストストリームで speculative decoding は使用していません。

この RTX 4090 推論ベンチマークを自分で再現できますか？

可能です。記事にはハードウェア仕様、CUDA バージョン、ドライバーバージョン、デコーディングパラメータ、同時実行設定が含まれています。単一の RTX 4090 上で Llama-3.1-8B を FP16 でデプロイし、プロンプト長と同時実行設定を一致させれば、同様の結果を再現できます。


独自モデルを実行することは、全体の半分にすぎません。

fine‑tuning を完了した後 — 詳細は[分散型 GPU におけるプライベート LLM ファインチューニングガイド](/ja/private-llm-fine-tuning-guide)を参照 — 次の判断は運用面です。どのように効率的にモデルを提供するか。

推論は以下を決定します。

- トークンあたりのコスト
- 負荷時のレイテンシ
- GPU 利用効率
- コンシューマー向けハードウェアが本番で実用的かどうか

本ベンチマークでは、広く使用されている 3 つの推論スタックを比較します。

- Ollama
- vLLM
- Hugging Face Text Generation Inference (TGI)

目的は好みではありません。
目的は測定です。

---

## テスト環境

**ハードウェア**

- GPU: NVIDIA RTX 4090（24GB VRAM）
- CPU: 16 コア Ryzen クラスのコンシューマープロセッサ
- RAM: 64GB DDR5
- ストレージ: NVMe SSD
- CUDA: 12.1
- NVIDIA Driver: 550+

**モデル**

- `meta-llama/Llama-3.1-8B`
- 精度: FP16（4‑bit 量子化なし）
- コンテキストウィンドウ: 4096 トークン

**ベンチマーク条件**

- 512 トークン入力プロンプト
- 128 トークン生成
- Greedy decoding（temperature = 0）
- speculative decoding なし
- tensor parallelism なし
- ウォームスタートのみ（測定前にモデルをロード）
- 8 同時リクエストストリーム（対応している場合）

すべてのテストはバックグラウンド負荷のないクリーンな環境で実行しました。
各測定値は 5 回実行の平均です。

---

![RTX 4090 上の構造化推論ベンチマーク指標を表示するターミナル](../_images/rtx4090-inference-terminal-results.png)

---

# 結果

## 1. Ollama

Ollama はシンプルさを重視しています。インストールは最小限で、モデルは自動的にダウンロードされます。

```bash
ollama run llama3

バッチ処理やスケジューリング戦略に関する詳細な設定は限定的です。

実測パフォーマンス（RTX 4090、FP16）

単一ストリームスループット: 62–74 トークン/秒
8 ストリームスループット: 95–108 トークン/秒
初回トークンレイテンシ: 720–980 ms
観測 VRAM 使用量: 14–17GB

観察結果

同時実行時に GPU 利用率が変動。
4 ストリーム以降、スケーリングは非線形。
高度なバッチ最適化の制御は公開されていない。

Ollama はローカル開発や低トラフィック用途には適しています。
継続的な同時負荷下では GPU を完全に飽和させることはできません。

2. vLLM

vLLM はスループット重視で設計されています。PagedAttention 実装により、同時リクエスト時の KV キャッシュ効率を改善します。

インストール:

pip install vllm

起動:

python -m vllm.entrypoints.openai.api_server \
  --model meta-llama/Llama-3.1-8B \
  --dtype float16

実測パフォーマンス（RTX 4090、FP16）

単一ストリームスループット: 92–104 トークン/秒
8 ストリームスループット: 185–215 トークン/秒
初回トークンレイテンシ: 360–480 ms
観測 VRAM 使用量: 20–22GB

観察結果

負荷下で GPU 利用率は 95% 以上を維持。
continuous batching によりスケーリング効率が向上。
同時ストリーム間でレイテンシは安定。

vLLM はレンタル 1 時間あたりで最も高い持続スループットを達成しました。

3. Hugging Face Text Generation Inference (TGI)

TGI はコンテナ化された本番向け推論サーバーです。

docker run --gpus all \
  -p 8080:80 \
  ghcr.io/huggingface/text-generation-inference:latest \
  --model-id meta-llama/Llama-3.1-8B

実測パフォーマンス（RTX 4090、FP16）

単一ストリームスループット: 78–88 トークン/秒
8 ストリームスループット: 150–176 トークン/秒
初回トークンレイテンシ: 510–690 ms
観測 VRAM 使用量: 21–23GB

観察結果

パフォーマンスは一貫して安定。
Ollama より良好だが vLLM には及ばない。
コンテナ実行環境による運用オーバーヘッドあり。

TGI は本番向けの制御や監視機能を提供しますが、単一 4090 から最大スループットを引き出すことはできません。

同時推論中の GPU 利用率を示す nvidia-smi 出力

直接比較

スタック	単一ストリーム	8 ストリーム	初回トークン	VRAM	GPU 飽和度
Ollama	62–74 t/s	95–108 t/s	720–980ms	14–17GB	部分的
TGI	78–88 t/s	150–176 t/s	510–690ms	21–23GB	高い
vLLM	92–104 t/s	185–215 t/s	360–480ms	20–22GB	非常に高い

分散型 GPU におけるコストへの影響

分散型マーケットプレイスでは、RTX 4090 のレンタル料金は需要に応じておおよそ 1 時間あたり 0.40～0.50 USD が一般的です。詳細な内訳は以下を参照してください。

前提条件:

0.45 USD/時間
500,000 トークン生成
同時 8 ストリーム

実測中央値のスループットを使用すると:

vLLM（約 200 tokens/sec）
500,000 / 200 = 2,500 秒 ≈ 41～42 分
コスト ≈ 0.31 USD

Ollama（約 100 tokens/sec）
500,000 / 100 = 5,000 秒 ≈ 83～84 分
コスト ≈ 0.63 USD

単体では大きな差に見えません。
スケールすると差は拡大します。

1 日あたり 5,000 万トークンを処理する場合、スループット効率は GPU 台数とレンタル時間に直接影響します。

このベンチマークを自分で実行する

ハードウェアを購入せずに再現したい場合、RTX 4090 ノードは通常 GPUFlow マーケットプレイスで利用可能です。

マシンは時間単位でレンタルされ、ウォレット接続後すぐに利用できます。アカウント承認の待ち時間、エンタープライズ契約、長いプロビジョニング待機はありません。

利用可能な GPU は GPU Flow で確認できます。

時間課金のため、推論効率は直接コストに影響します。100 tokens/sec と 200 tokens/sec の差は、継続的なワークロードでは無視できません。

デプロイメントの文脈

分散型 GPU をレンタルしている場合 — 以下の記事で説明している通り:

— 推論効率は資本効率を直接左右します。

スループットは次に影響します:

エスクロー期間
ブロックチェーン決済頻度
ホスト不安定性への露出
運用マージン

効率的な推論スタックと組み合わせれば、コンシューマー GPU は 7B～8B モデルにおいて経済的に十分実用的です。

用途別の選択

Ollama

内部ツール
低同時実行
迅速なプロトタイピング

TGI

コンテナ化環境
構造化ログが必要なチーム
管理された本番デプロイ

vLLM

API サービス
高同時実行
1 ドルあたり最大トークン数

結論

単一の RTX 4090 上で Llama‑3.1‑8B を FP16 で実行した場合:

vLLM が最も高い持続スループットを達成。
TGI は本番向け制御を備えたバランス型パフォーマンス。
Ollama は最大 GPU 利用よりもシンプルさを優先。

推論スタックの選択は表面的な問題ではありません。
コスト構造とスケーリング特性を決定します。

分散型コンシューマー GPU 上のワークロードでは、バッチ効率が経済性に直接影響します。

本番環境での実行先

本記事のすべてのベンチマークは、自社インフラではなくレンタルされたコンシューマーハードウェア上で実施されました。

推論や fine‑tuning のために RTX 4090、RTX 3090、またはより大容量メモリの GPU が必要な場合、ノードは GPU Flow で利用可能です。

Ollama vs vLLM vs TGI：RTX 4090 推論ベンチマーク（実測値ベース）

実測パフォーマンス（RTX 4090、FP16）

観察結果

2. vLLM

実測パフォーマンス（RTX 4090、FP16）

観察結果

3. Hugging Face Text Generation Inference (TGI)

実測パフォーマンス（RTX 4090、FP16）

観察結果

直接比較

分散型 GPU におけるコストへの影響

このベンチマークを自分で実行する

デプロイメントの文脈

用途別の選択

結論

本番環境での実行先

時間単位レンタル。ステーブルコイン決済。ウォレット接続後すぐに利用可能。

関連リソース

Frequently Asked Questions

RTX 4090 上で Llama-3.1-8B を実行する場合、どの推論サーバーが最も高速ですか？

vLLM は Ollama や TGI より多くの VRAM を使用しますか？

Ollama は本番環境の推論ワークロードに適していますか？

RTX 4090 で Llama-3.1-8B の推論を実行するコストはいくらですか？

このベンチマークではどのようなプロンプトおよび生成設定を使用しましたか？

この RTX 4090 推論ベンチマークを自分で再現できますか？