Запуск собственной модели — это только половина задачи.
После завершения fine‑tuning — как описано в нашем [Руководстве по приватному fine‑tuning LLM](/ru/private-llm-fine-tuning-guide) — следующий шаг носит операционный характер: как эффективно обслуживать модель?
Инференс определяет:
- Стоимость за токен
- Задержку под нагрузкой
- Эффективность использования GPU
- Возможность использования потребительского оборудования в production
В этом бенчмарке сравниваются три широко применяемых стека инференса:
- Ollama
- vLLM
- Hugging Face Text Generation Inference (TGI)
Цель — не предпочтение.
Цель — измерение.
---
## Тестовая среда
**Оборудование**
- GPU: NVIDIA RTX 4090 (24GB VRAM)
- CPU: 16‑ядерный потребительский процессор класса Ryzen
- RAM: 64GB DDR5
- Хранилище: NVMe SSD
- CUDA: 12.1
- Драйвер NVIDIA: 550+
**Модель**
- `meta-llama/Llama-3.1-8B`
- Точность: FP16 (без 4‑битной квантизации)
- Контекстное окно: 4096 токенов
**Условия бенчмарка**
- Входной промпт 512 токенов
- Генерация 128 токенов
- Greedy decoding (temperature = 0)
- Без speculative decoding
- Без tensor parallelism
- Только warm start (модель предварительно загружена)
- 8 параллельных потоков запросов (где поддерживается)
Все тесты проводились на чистой машине без фоновых нагрузок.
Каждое значение — среднее из пяти запусков.
---

---
# Результаты
## 1. Ollama
Ollama ориентирован на простоту. Установка минимальна, модели загружаются автоматически.
```bash
ollama run llama3
Настройки batching и стратегии планирования ограничены.
Измеренная производительность (RTX 4090, FP16)
- Пропускная способность одного потока: 62–74 токена/сек
- Пропускная способность 8 потоков: 95–108 токенов/сек
- Задержка первого токена: 720–980 мс
- Наблюдаемое использование VRAM: 14–17GB
Наблюдения
- Использование GPU колебалось при параллельной нагрузке.
- Масштабирование было нелинейным после 4 потоков.
- Нет доступных расширенных настроек оптимизации batching.
Ollama стабильно работает для локальной разработки и сервисов с низкой нагрузкой.
При устойчивой конкурентной нагрузке GPU не используется полностью.
2. vLLM
vLLM разработан для высокой пропускной способности. Реализация PagedAttention повышает эффективность KV cache при параллельных запросах.
Установка:
pip install vllm
Запуск:
python -m vllm.entrypoints.openai.api_server \
--model meta-llama/Llama-3.1-8B \
--dtype float16
Измеренная производительность (RTX 4090, FP16)
- Пропускная способность одного потока: 92–104 токена/сек
- Пропускная способность 8 потоков: 185–215 токенов/сек
- Задержка первого токена: 360–480 мс
- Наблюдаемое использование VRAM: 20–22GB
Наблюдения
- Использование GPU оставалось выше 95% под нагрузкой.
- Continuous batching улучшил масштабирование.
- Задержка оставалась стабильной при параллельных потоках.
vLLM показал наибольшую устойчивую пропускную способность на час аренды.
3. Hugging Face Text Generation Inference (TGI)
TGI — контейнеризированный сервер инференса для production.
docker run --gpus all \
-p 8080:80 \
ghcr.io/huggingface/text-generation-inference:latest \
--model-id meta-llama/Llama-3.1-8B
Измеренная производительность (RTX 4090, FP16)
- Пропускная способность одного потока: 78–88 токенов/сек
- Пропускная способность 8 потоков: 150–176 токенов/сек
- Задержка первого токена: 510–690 мс
- Наблюдаемое использование VRAM: 21–23GB
Наблюдения
- Производительность была стабильной и предсказуемой.
- Масштабирование лучше, чем у Ollama, но ниже, чем у vLLM.
- Более высокий операционный overhead из‑за контейнерной среды.
TGI предоставляет production‑контроль и мониторинг, но не извлекает максимальную пропускную способность из одной RTX 4090.

Прямое сравнение
| Стек | 1 поток | 8 потоков | Первый токен | VRAM | Насыщение GPU |
|---|---|---|---|---|---|
| Ollama | 62–74 т/с | 95–108 т/с | 720–980мс | 14–17GB | Частичное |
| TGI | 78–88 т/с | 150–176 т/с | 510–690мс | 21–23GB | Высокое |
| vLLM | 92–104 т/с | 185–215 т/с | 360–480мс | 20–22GB | Очень высокое |
Влияние на стоимость при использовании децентрализованных GPU
На децентрализованных маркетплейсах аренда RTX 4090 обычно стоит около 0,40–0,50 USD в час в зависимости от спроса. Подробный разбор см. в:
Предположим:
- 0,45 USD/час
- 500 000 сгенерированных токенов
- 8 параллельных потоков
Используя медианную измеренную пропускную способность:
vLLM (~200 токенов/сек)
500 000 / 200 = 2 500 секунд ≈ 41–42 минуты
Стоимость ≈ 0,31 USD
Ollama (~100 токенов/сек)
500 000 / 100 = 5 000 секунд ≈ 83–84 минуты
Стоимость ≈ 0,63 USD
Разница невелика в изоляции.
При масштабировании она накапливается.
При объёме 50 миллионов токенов в день эффективность пропускной способности напрямую влияет на размер GPU‑парка и длительность аренды.
Как повторить этот бенчмарк самостоятельно
Если вы хотите воспроизвести измерения без покупки оборудования, узлы RTX 4090 обычно доступны через маркетплейс GPUFlow.
Машины арендуются почасово и становятся доступными сразу после подключения кошелька. Нет задержек с одобрением аккаунта, корпоративных контрактов или длительных очередей на развертывание.
Доступные GPU можно посмотреть на GPU Flow
Поскольку аренда почасовая, эффективность инференса напрямую влияет на стоимость. Разница между 100 и 200 токенами в секунду становится существенной при устойчивых нагрузках.
Контекст развертывания
Если вы арендуете децентрализованные GPU — как описано в:
— эффективность инференса напрямую определяет эффективность использования капитала.
Пропускная способность влияет на:
- Длительность удержания средств в эскроу
- Частоту расчетов в блокчейне
- Риск нестабильности хоста
- Операционную маржу
Потребительские GPU остаются экономически оправданными для моделей 7B–8B при использовании эффективных стеков инференса.
Когда использовать каждый вариант
Ollama
- Внутренние инструменты
- Низкая параллельность
- Быстрое прототипирование
TGI
- Контейнеризированные среды
- Команды, которым требуется структурированное логирование
- Управляемые production‑развертывания
vLLM
- API‑сервисы
- Высокая параллельность
- Максимальное количество токенов на доллар
Заключение
На одной RTX 4090 при запуске Llama‑3.1‑8B в FP16:
- vLLM обеспечил наибольшую устойчивую пропускную способность.
- TGI продемонстрировал сбалансированную производительность с production‑контролем.
- Ollama сделал ставку на простоту, а не на максимальную загрузку GPU.
Выбор стека инференса — не косметическое решение.
Он определяет структуру затрат и поведение при масштабировании.
Для нагрузок, размещённых на децентрализованных потребительских GPU, эффективность batching существенно влияет на экономику.
Где запускать это в production
Все бенчмарки в статье проводились на арендованном потребительском оборудовании, а не на собственной инфраструктуре.
Если вам нужен немедленный доступ к RTX 4090, RTX 3090 или GPU с большим объёмом памяти для инференса или fine‑tuning, соответствующие узлы доступны на GPU Flow
Почасовая аренда. Оплата в стейблкоинах. Доступ сразу после подключения кошелька.
Связанные материалы
Углубите понимание своего стека развертывания:
- Полное руководство по приватному fine‑tuning LLM на децентрализованных GPU — Подробный процесс безопасного обучения моделей с открытыми весами
- Сравнение цен на аренду GPU в 2026 году — Измеренные различия в стоимости между основными платформами аренды GPU
- Скрытые комиссии при аренде GPU — О чём не пишут на страницах с почасовой тарификацией
- Сравнение RunPod и Vast.ai — Различия между централизованной инфраструктурой и маркетплейс‑моделью