Какой сервер инференса самый быстрый на RTX 4090 для Llama-3.1-8B?

В измеренных тестах FP16 на RTX 4090 vLLM показал наибольшую устойчивую пропускную способность под конкурентной нагрузкой, достигнув примерно 185–215 токенов в секунду на восьми потоках. TGI обеспечил 150–176 токенов в секунду, тогда как Ollama показал в среднем 95–108 токенов в секунду при тех же условиях.

Использует ли vLLM больше VRAM, чем Ollama или TGI?

vLLM использовал примерно 20–22GB VRAM при обслуживании Llama-3.1-8B в FP16. TGI потреблял сопоставимый объём — 21–23GB. Ollama использовал меньше VRAM, обычно 14–17GB, но не достиг той же пропускной способности при конкурентной нагрузке.

Подходит ли Ollama для production-нагрузок инференса?

Ollama подходит для сред разработки и внутренних инструментов с низкой конкуренцией. В тестах он масштабировался менее эффективно, чем vLLM или TGI при восьми одновременных потоках запросов. Для production API с устойчивым трафиком сервер, оптимизированный под continuous batching, обычно эффективнее.

Сколько стоит запуск инференса Llama-3.1-8B на RTX 4090?

При средней ставке аренды около 0,45 USD в час генерация 500 000 токенов с использованием vLLM заняла примерно 41–42 минуты и стоила около 0,31 USD. При использовании Ollama для той же нагрузки потребовалось примерно 83–84 минуты и около 0,63 USD. Фактическая стоимость зависит от нагрузки и цены аренды.

Какие настройки промпта и генерации использовались в этом бенчмарке?

В бенчмарке использовался входной промпт длиной 512 токенов и генерация 128 токенов на запрос с использованием greedy decoding при temperature, установленной в ноль. Все измерения проводились после прогрева модели, при восьми параллельных потоках запросов и без speculative decoding.

Могу ли я самостоятельно воспроизвести этот бенчмарк RTX 4090?

Да. В статье приведены спецификации оборудования, версия CUDA, версия драйвера, параметры декодирования и конфигурация параллелизма. Развернув Llama-3.1-8B в FP16 на одной RTX 4090 и повторив длину промпта и настройки параллельности, вы сможете получить сопоставимые результаты.


Запуск собственной модели — это только половина задачи.

После завершения fine‑tuning — как описано в нашем [Руководстве по приватному fine‑tuning LLM](/ru/private-llm-fine-tuning-guide) — следующий шаг носит операционный характер: как эффективно обслуживать модель?

Инференс определяет:

- Стоимость за токен
- Задержку под нагрузкой
- Эффективность использования GPU
- Возможность использования потребительского оборудования в production

В этом бенчмарке сравниваются три широко применяемых стека инференса:

- Ollama
- vLLM
- Hugging Face Text Generation Inference (TGI)

Цель — не предпочтение.
Цель — измерение.

---

## Тестовая среда

**Оборудование**

- GPU: NVIDIA RTX 4090 (24GB VRAM)
- CPU: 16‑ядерный потребительский процессор класса Ryzen
- RAM: 64GB DDR5
- Хранилище: NVMe SSD
- CUDA: 12.1
- Драйвер NVIDIA: 550+

**Модель**

- `meta-llama/Llama-3.1-8B`
- Точность: FP16 (без 4‑битной квантизации)
- Контекстное окно: 4096 токенов

**Условия бенчмарка**

- Входной промпт 512 токенов
- Генерация 128 токенов
- Greedy decoding (temperature = 0)
- Без speculative decoding
- Без tensor parallelism
- Только warm start (модель предварительно загружена)
- 8 параллельных потоков запросов (где поддерживается)

Все тесты проводились на чистой машине без фоновых нагрузок.
Каждое значение — среднее из пяти запусков.

---

![Терминал с отображением структурированных метрик бенчмарка инференса на RTX 4090](../_images/rtx4090-inference-terminal-results.png)

---

# Результаты

## 1. Ollama

Ollama ориентирован на простоту. Установка минимальна, модели загружаются автоматически.

```bash
ollama run llama3

Настройки batching и стратегии планирования ограничены.

Измеренная производительность (RTX 4090, FP16)

Пропускная способность одного потока: 62–74 токена/сек
Пропускная способность 8 потоков: 95–108 токенов/сек
Задержка первого токена: 720–980 мс
Наблюдаемое использование VRAM: 14–17GB

Наблюдения

Использование GPU колебалось при параллельной нагрузке.
Масштабирование было нелинейным после 4 потоков.
Нет доступных расширенных настроек оптимизации batching.

Ollama стабильно работает для локальной разработки и сервисов с низкой нагрузкой.
При устойчивой конкурентной нагрузке GPU не используется полностью.

2. vLLM

vLLM разработан для высокой пропускной способности. Реализация PagedAttention повышает эффективность KV cache при параллельных запросах.

Установка:

pip install vllm

Запуск:

python -m vllm.entrypoints.openai.api_server \
  --model meta-llama/Llama-3.1-8B \
  --dtype float16

Измеренная производительность (RTX 4090, FP16)

Пропускная способность одного потока: 92–104 токена/сек
Пропускная способность 8 потоков: 185–215 токенов/сек
Задержка первого токена: 360–480 мс
Наблюдаемое использование VRAM: 20–22GB

Наблюдения

Использование GPU оставалось выше 95% под нагрузкой.
Continuous batching улучшил масштабирование.
Задержка оставалась стабильной при параллельных потоках.

vLLM показал наибольшую устойчивую пропускную способность на час аренды.

3. Hugging Face Text Generation Inference (TGI)

TGI — контейнеризированный сервер инференса для production.

docker run --gpus all \
  -p 8080:80 \
  ghcr.io/huggingface/text-generation-inference:latest \
  --model-id meta-llama/Llama-3.1-8B

Измеренная производительность (RTX 4090, FP16)

Пропускная способность одного потока: 78–88 токенов/сек
Пропускная способность 8 потоков: 150–176 токенов/сек
Задержка первого токена: 510–690 мс
Наблюдаемое использование VRAM: 21–23GB

Наблюдения

Производительность была стабильной и предсказуемой.
Масштабирование лучше, чем у Ollama, но ниже, чем у vLLM.
Более высокий операционный overhead из‑за контейнерной среды.

TGI предоставляет production‑контроль и мониторинг, но не извлекает максимальную пропускную способность из одной RTX 4090.

Вывод nvidia-smi с загрузкой GPU во время параллельного инференса

Прямое сравнение

Стек	1 поток	8 потоков	Первый токен	VRAM	Насыщение GPU
Ollama	62–74 т/с	95–108 т/с	720–980мс	14–17GB	Частичное
TGI	78–88 т/с	150–176 т/с	510–690мс	21–23GB	Высокое
vLLM	92–104 т/с	185–215 т/с	360–480мс	20–22GB	Очень высокое

Влияние на стоимость при использовании децентрализованных GPU

На децентрализованных маркетплейсах аренда RTX 4090 обычно стоит около 0,40–0,50 USD в час в зависимости от спроса. Подробный разбор см. в:

Предположим:

0,45 USD/час
500 000 сгенерированных токенов
8 параллельных потоков

Используя медианную измеренную пропускную способность:

vLLM (~200 токенов/сек)
500 000 / 200 = 2 500 секунд ≈ 41–42 минуты
Стоимость ≈ 0,31 USD

Ollama (~100 токенов/сек)
500 000 / 100 = 5 000 секунд ≈ 83–84 минуты
Стоимость ≈ 0,63 USD

Разница невелика в изоляции.
При масштабировании она накапливается.

При объёме 50 миллионов токенов в день эффективность пропускной способности напрямую влияет на размер GPU‑парка и длительность аренды.

Как повторить этот бенчмарк самостоятельно

Если вы хотите воспроизвести измерения без покупки оборудования, узлы RTX 4090 обычно доступны через маркетплейс GPUFlow.

Машины арендуются почасово и становятся доступными сразу после подключения кошелька. Нет задержек с одобрением аккаунта, корпоративных контрактов или длительных очередей на развертывание.

Доступные GPU можно посмотреть на GPU Flow

Поскольку аренда почасовая, эффективность инференса напрямую влияет на стоимость. Разница между 100 и 200 токенами в секунду становится существенной при устойчивых нагрузках.

Контекст развертывания

Если вы арендуете децентрализованные GPU — как описано в:

— эффективность инференса напрямую определяет эффективность использования капитала.

Пропускная способность влияет на:

Длительность удержания средств в эскроу
Частоту расчетов в блокчейне
Риск нестабильности хоста
Операционную маржу

Потребительские GPU остаются экономически оправданными для моделей 7B–8B при использовании эффективных стеков инференса.

Когда использовать каждый вариант

Ollama

Внутренние инструменты
Низкая параллельность
Быстрое прототипирование

TGI

Контейнеризированные среды
Команды, которым требуется структурированное логирование
Управляемые production‑развертывания

vLLM

API‑сервисы
Высокая параллельность
Максимальное количество токенов на доллар

Заключение

На одной RTX 4090 при запуске Llama‑3.1‑8B в FP16:

vLLM обеспечил наибольшую устойчивую пропускную способность.
TGI продемонстрировал сбалансированную производительность с production‑контролем.
Ollama сделал ставку на простоту, а не на максимальную загрузку GPU.

Выбор стека инференса — не косметическое решение.
Он определяет структуру затрат и поведение при масштабировании.

Для нагрузок, размещённых на децентрализованных потребительских GPU, эффективность batching существенно влияет на экономику.

Где запускать это в production

Все бенчмарки в статье проводились на арендованном потребительском оборудовании, а не на собственной инфраструктуре.

Если вам нужен немедленный доступ к RTX 4090, RTX 3090 или GPU с большим объёмом памяти для инференса или fine‑tuning, соответствующие узлы доступны на GPU Flow

Почасовая аренда. Оплата в стейблкоинах. Доступ сразу после подключения кошелька.

Связанные материалы

Углубите понимание своего стека развертывания:

Полное руководство по приватному fine‑tuning LLM на децентрализованных GPU — Подробный процесс безопасного обучения моделей с открытыми весами
Сравнение цен на аренду GPU в 2026 году — Измеренные различия в стоимости между основными платформами аренды GPU
Скрытые комиссии при аренде GPU — О чём не пишут на страницах с почасовой тарификацией
Сравнение RunPod и Vast.ai — Различия между централизованной инфраструктурой и маркетплейс‑моделью

Ollama vs vLLM vs TGI: бенчмарк инференса на RTX 4090 (измерения, а не маркетинг)

Измеренная производительность (RTX 4090, FP16)

Наблюдения

2. vLLM

Измеренная производительность (RTX 4090, FP16)

Наблюдения

3. Hugging Face Text Generation Inference (TGI)

Измеренная производительность (RTX 4090, FP16)

Наблюдения

Прямое сравнение

Влияние на стоимость при использовании децентрализованных GPU

Как повторить этот бенчмарк самостоятельно

Контекст развертывания

Когда использовать каждый вариант

Заключение

Где запускать это в production

Почасовая аренда. Оплата в стейблкоинах. Доступ сразу после подключения кошелька.

Связанные материалы

Frequently Asked Questions

Какой сервер инференса самый быстрый на RTX 4090 для Llama-3.1-8B?

Использует ли vLLM больше VRAM, чем Ollama или TGI?

Подходит ли Ollama для production-нагрузок инференса?

Сколько стоит запуск инференса Llama-3.1-8B на RTX 4090?

Какие настройки промпта и генерации использовались в этом бенчмарке?

Могу ли я самостоятельно воспроизвести этот бенчмарк RTX 4090?