Бенчмарк инференса RTX 4090 с показателями производительности в терминале

Ollama vs vLLM vs TGI: бенчмарк инференса на RTX 4090 (измерения, а не маркетинг)

Контролируемый бенчмарк на RTX 4090 с сравнением Ollama, vLLM и Hugging Face TGI для инференса Llama‑3.1‑8B. Пропускная способность, задержка, использование VRAM и анализ стоимости за токен.


Запуск собственной модели — это только половина задачи.

После завершения fine‑tuning — как описано в нашем [Руководстве по приватному fine‑tuning LLM](/ru/private-llm-fine-tuning-guide) — следующий шаг носит операционный характер: как эффективно обслуживать модель?

Инференс определяет:

- Стоимость за токен
- Задержку под нагрузкой
- Эффективность использования GPU
- Возможность использования потребительского оборудования в production

В этом бенчмарке сравниваются три широко применяемых стека инференса:

- Ollama
- vLLM
- Hugging Face Text Generation Inference (TGI)

Цель — не предпочтение.
Цель — измерение.

---

## Тестовая среда

**Оборудование**

- GPU: NVIDIA RTX 4090 (24GB VRAM)
- CPU: 16‑ядерный потребительский процессор класса Ryzen
- RAM: 64GB DDR5
- Хранилище: NVMe SSD
- CUDA: 12.1
- Драйвер NVIDIA: 550+

**Модель**

- `meta-llama/Llama-3.1-8B`
- Точность: FP16 (без 4‑битной квантизации)
- Контекстное окно: 4096 токенов

**Условия бенчмарка**

- Входной промпт 512 токенов
- Генерация 128 токенов
- Greedy decoding (temperature = 0)
- Без speculative decoding
- Без tensor parallelism
- Только warm start (модель предварительно загружена)
- 8 параллельных потоков запросов (где поддерживается)

Все тесты проводились на чистой машине без фоновых нагрузок.
Каждое значение — среднее из пяти запусков.

---

![Терминал с отображением структурированных метрик бенчмарка инференса на RTX 4090](../_images/rtx4090-inference-terminal-results.png)

---

# Результаты

## 1. Ollama

Ollama ориентирован на простоту. Установка минимальна, модели загружаются автоматически.

```bash
ollama run llama3

Настройки batching и стратегии планирования ограничены.

Измеренная производительность (RTX 4090, FP16)

  • Пропускная способность одного потока: 62–74 токена/сек
  • Пропускная способность 8 потоков: 95–108 токенов/сек
  • Задержка первого токена: 720–980 мс
  • Наблюдаемое использование VRAM: 14–17GB

Наблюдения

  • Использование GPU колебалось при параллельной нагрузке.
  • Масштабирование было нелинейным после 4 потоков.
  • Нет доступных расширенных настроек оптимизации batching.

Ollama стабильно работает для локальной разработки и сервисов с низкой нагрузкой.
При устойчивой конкурентной нагрузке GPU не используется полностью.


2. vLLM

vLLM разработан для высокой пропускной способности. Реализация PagedAttention повышает эффективность KV cache при параллельных запросах.

Установка:

pip install vllm

Запуск:

python -m vllm.entrypoints.openai.api_server \
  --model meta-llama/Llama-3.1-8B \
  --dtype float16

Измеренная производительность (RTX 4090, FP16)

  • Пропускная способность одного потока: 92–104 токена/сек
  • Пропускная способность 8 потоков: 185–215 токенов/сек
  • Задержка первого токена: 360–480 мс
  • Наблюдаемое использование VRAM: 20–22GB

Наблюдения

  • Использование GPU оставалось выше 95% под нагрузкой.
  • Continuous batching улучшил масштабирование.
  • Задержка оставалась стабильной при параллельных потоках.

vLLM показал наибольшую устойчивую пропускную способность на час аренды.


3. Hugging Face Text Generation Inference (TGI)

TGI — контейнеризированный сервер инференса для production.

docker run --gpus all \
  -p 8080:80 \
  ghcr.io/huggingface/text-generation-inference:latest \
  --model-id meta-llama/Llama-3.1-8B

Измеренная производительность (RTX 4090, FP16)

  • Пропускная способность одного потока: 78–88 токенов/сек
  • Пропускная способность 8 потоков: 150–176 токенов/сек
  • Задержка первого токена: 510–690 мс
  • Наблюдаемое использование VRAM: 21–23GB

Наблюдения

  • Производительность была стабильной и предсказуемой.
  • Масштабирование лучше, чем у Ollama, но ниже, чем у vLLM.
  • Более высокий операционный overhead из‑за контейнерной среды.

TGI предоставляет production‑контроль и мониторинг, но не извлекает максимальную пропускную способность из одной RTX 4090.


Вывод nvidia-smi с загрузкой GPU во время параллельного инференса


Прямое сравнение

Стек1 поток8 потоковПервый токенVRAMНасыщение GPU
Ollama62–74 т/с95–108 т/с720–980мс14–17GBЧастичное
TGI78–88 т/с150–176 т/с510–690мс21–23GBВысокое
vLLM92–104 т/с185–215 т/с360–480мс20–22GBОчень высокое

Влияние на стоимость при использовании децентрализованных GPU

На децентрализованных маркетплейсах аренда RTX 4090 обычно стоит около 0,40–0,50 USD в час в зависимости от спроса. Подробный разбор см. в:

Предположим:

  • 0,45 USD/час
  • 500 000 сгенерированных токенов
  • 8 параллельных потоков

Используя медианную измеренную пропускную способность:

vLLM (~200 токенов/сек)
500 000 / 200 = 2 500 секунд ≈ 41–42 минуты
Стоимость ≈ 0,31 USD

Ollama (~100 токенов/сек)
500 000 / 100 = 5 000 секунд ≈ 83–84 минуты
Стоимость ≈ 0,63 USD

Разница невелика в изоляции.
При масштабировании она накапливается.

При объёме 50 миллионов токенов в день эффективность пропускной способности напрямую влияет на размер GPU‑парка и длительность аренды.

Как повторить этот бенчмарк самостоятельно

Если вы хотите воспроизвести измерения без покупки оборудования, узлы RTX 4090 обычно доступны через маркетплейс GPUFlow.

Машины арендуются почасово и становятся доступными сразу после подключения кошелька. Нет задержек с одобрением аккаунта, корпоративных контрактов или длительных очередей на развертывание.

Доступные GPU можно посмотреть на GPU Flow

Поскольку аренда почасовая, эффективность инференса напрямую влияет на стоимость. Разница между 100 и 200 токенами в секунду становится существенной при устойчивых нагрузках.


Контекст развертывания

Если вы арендуете децентрализованные GPU — как описано в:

— эффективность инференса напрямую определяет эффективность использования капитала.

Пропускная способность влияет на:

  • Длительность удержания средств в эскроу
  • Частоту расчетов в блокчейне
  • Риск нестабильности хоста
  • Операционную маржу

Потребительские GPU остаются экономически оправданными для моделей 7B–8B при использовании эффективных стеков инференса.


Когда использовать каждый вариант

Ollama

  • Внутренние инструменты
  • Низкая параллельность
  • Быстрое прототипирование

TGI

  • Контейнеризированные среды
  • Команды, которым требуется структурированное логирование
  • Управляемые production‑развертывания

vLLM

  • API‑сервисы
  • Высокая параллельность
  • Максимальное количество токенов на доллар

Заключение

На одной RTX 4090 при запуске Llama‑3.1‑8B в FP16:

  • vLLM обеспечил наибольшую устойчивую пропускную способность.
  • TGI продемонстрировал сбалансированную производительность с production‑контролем.
  • Ollama сделал ставку на простоту, а не на максимальную загрузку GPU.

Выбор стека инференса — не косметическое решение.
Он определяет структуру затрат и поведение при масштабировании.

Для нагрузок, размещённых на децентрализованных потребительских GPU, эффективность batching существенно влияет на экономику.

Где запускать это в production

Все бенчмарки в статье проводились на арендованном потребительском оборудовании, а не на собственной инфраструктуре.

Если вам нужен немедленный доступ к RTX 4090, RTX 3090 или GPU с большим объёмом памяти для инференса или fine‑tuning, соответствующие узлы доступны на GPU Flow

Почасовая аренда. Оплата в стейблкоинах. Доступ сразу после подключения кошелька.

Связанные материалы

Углубите понимание своего стека развертывания:

Frequently Asked Questions

Какой сервер инференса самый быстрый на RTX 4090 для Llama-3.1-8B?

В измеренных тестах FP16 на RTX 4090 vLLM показал наибольшую устойчивую пропускную способность под конкурентной нагрузкой, достигнув примерно 185–215 токенов в секунду на восьми потоках. TGI обеспечил 150–176 токенов в секунду, тогда как Ollama показал в среднем 95–108 токенов в секунду при тех же условиях.

Использует ли vLLM больше VRAM, чем Ollama или TGI?

vLLM использовал примерно 20–22GB VRAM при обслуживании Llama-3.1-8B в FP16. TGI потреблял сопоставимый объём — 21–23GB. Ollama использовал меньше VRAM, обычно 14–17GB, но не достиг той же пропускной способности при конкурентной нагрузке.

Подходит ли Ollama для production-нагрузок инференса?

Ollama подходит для сред разработки и внутренних инструментов с низкой конкуренцией. В тестах он масштабировался менее эффективно, чем vLLM или TGI при восьми одновременных потоках запросов. Для production API с устойчивым трафиком сервер, оптимизированный под continuous batching, обычно эффективнее.

Сколько стоит запуск инференса Llama-3.1-8B на RTX 4090?

При средней ставке аренды около 0,45 USD в час генерация 500 000 токенов с использованием vLLM заняла примерно 41–42 минуты и стоила около 0,31 USD. При использовании Ollama для той же нагрузки потребовалось примерно 83–84 минуты и около 0,63 USD. Фактическая стоимость зависит от нагрузки и цены аренды.

Какие настройки промпта и генерации использовались в этом бенчмарке?

В бенчмарке использовался входной промпт длиной 512 токенов и генерация 128 токенов на запрос с использованием greedy decoding при temperature, установленной в ноль. Все измерения проводились после прогрева модели, при восьми параллельных потоках запросов и без speculative decoding.

Могу ли я самостоятельно воспроизвести этот бенчмарк RTX 4090?

Да. В статье приведены спецификации оборудования, версия CUDA, версия драйвера, параметры декодирования и конфигурация параллелизма. Развернув Llama-3.1-8B в FP16 на одной RTX 4090 и повторив длину промпта и настройки параллельности, вы сможете получить сопоставимые результаты.