자체 모델을 실행하는 것은 전체의 절반에 불과합니다.
fine‑tuning을 완료한 이후 — 자세한 내용은 [탈중앙화 GPU에서의 프라이빗 LLM 파인튜닝 가이드](/ko/private-llm-fine-tuning-guide)를 참고하십시오 — 다음 결정은 운영적인 문제입니다. 모델을 어떻게 효율적으로 서빙할 것인가입니다.
Inference는 다음을 결정합니다:
- 토큰당 비용
- 부하 상황에서의 지연 시간
- GPU 활용 효율
- 소비자용 하드웨어가 프로덕션에서 실용적인지 여부
이 벤치마크는 널리 사용되는 세 가지 Inference 스택을 비교합니다:
- Ollama
- vLLM
- Hugging Face Text Generation Inference (TGI)
목적은 선호가 아닙니다.
목적은 측정입니다.
---
## 테스트 환경
**하드웨어**
- GPU: NVIDIA RTX 4090 (24GB VRAM)
- CPU: 16코어 Ryzen급 소비자용 프로세서
- RAM: 64GB DDR5
- 스토리지: NVMe SSD
- CUDA: 12.1
- NVIDIA Driver: 550+
**모델**
- `meta-llama/Llama-3.1-8B`
- 정밀도: FP16 (4‑bit 양자화 미사용)
- 컨텍스트 윈도우: 4096 tokens
**벤치마크 조건**
- 512-token 입력 프롬프트
- 128-token 출력 생성
- Greedy decoding (temperature = 0)
- speculative decoding 미사용
- tensor parallelism 미사용
- 워밍업 이후 측정 (사전 로드된 상태)
- 8개 동시 요청 스트림 (지원되는 경우)
모든 테스트는 백그라운드 작업이 없는 클린 환경에서 실행되었습니다.
각 측정값은 5회 실행 평균입니다.
---

---
# 결과
## 1. Ollama
Ollama는 단순성을 우선합니다. 설치는 최소한이며, 모델은 자동으로 다운로드됩니다.
```bash
ollama run llama3
배치 동작이나 스케줄링 전략에 대한 세부 설정은 제한적입니다.
실측 성능 (RTX 4090, FP16)
- 단일 스트림 처리량: 62–74 tokens/sec
- 8 스트림 처리량: 95–108 tokens/sec
- 첫 토큰 지연 시간: 720–980 ms
- 관측된 VRAM 사용량: 14–17GB
관찰 사항
- 동시성 환경에서 GPU 활용률이 변동함.
- 4 스트림 이후 처리량 확장이 비선형적임.
- 고급 배치 최적화에 대한 노출된 제어 기능이 없음.
Ollama는 로컬 개발 및 저트래픽 서비스에 적합합니다.
지속적인 동시 부하 환경에서는 GPU를 완전히 포화시키지 못합니다.
2. vLLM
vLLM은 처리량을 위해 설계되었습니다. PagedAttention 구현은 동시 요청 환경에서 KV 캐시 효율을 개선합니다.
설치:
pip install vllm
실행:
python -m vllm.entrypoints.openai.api_server \
--model meta-llama/Llama-3.1-8B \
--dtype float16
실측 성능 (RTX 4090, FP16)
- 단일 스트림 처리량: 92–104 tokens/sec
- 8 스트림 처리량: 185–215 tokens/sec
- 첫 토큰 지연 시간: 360–480 ms
- 관측된 VRAM 사용량: 20–22GB
관찰 사항
- 부하 환경에서 GPU 활용률이 95% 이상 유지됨.
- continuous batching이 확장 효율을 향상시킴.
- 동시 스트림 간 지연 시간이 안정적으로 유지됨.
vLLM은 시간당 임대 기준으로 가장 높은 지속 처리량을 달성했습니다.
3. Hugging Face Text Generation Inference (TGI)
TGI는 컨테이너 기반의 프로덕션 Inference 서버입니다.
docker run --gpus all \
-p 8080:80 \
ghcr.io/huggingface/text-generation-inference:latest \
--model-id meta-llama/Llama-3.1-8B
실측 성능 (RTX 4090, FP16)
- 단일 스트림 처리량: 78–88 tokens/sec
- 8 스트림 처리량: 150–176 tokens/sec
- 첫 토큰 지연 시간: 510–690 ms
- 관측된 VRAM 사용량: 21–23GB
관찰 사항
- 성능이 일관되고 예측 가능함.
- Ollama보다 확장성은 좋지만 vLLM보다는 낮음.
- 컨테이너 런타임으로 인한 운영 오버헤드 존재.
TGI는 프로덕션 제어 및 모니터링 기능을 제공하지만, 단일 4090에서 최대 처리량을 끌어내지는 못합니다.

직접 비교
| 스택 | 단일 스트림 | 8 스트림 | 첫 토큰 | VRAM | GPU 포화도 |
|---|---|---|---|---|---|
| Ollama | 62–74 t/s | 95–108 t/s | 720–980ms | 14–17GB | 부분적 |
| TGI | 78–88 t/s | 150–176 t/s | 510–690ms | 21–23GB | 높음 |
| vLLM | 92–104 t/s | 185–215 t/s | 360–480ms | 20–22GB | 매우 높음 |
탈중앙화 GPU에서의 비용 영향
탈중앙화 마켓플레이스에서 RTX 4090의 임대 비용은 수요에 따라 시간당 약 0.40–0.50 USD 수준입니다. 자세한 분석은 다음을 참고하십시오:
가정:
- 시간당 0.45 USD
- 500,000 tokens 생성
- 8개 동시 스트림
실측 중앙값 처리량 기준:
vLLM (~200 tokens/sec)
500,000 / 200 = 2,500초 ≈ 41–42분
비용 ≈ 0.31 USD
Ollama (~100 tokens/sec)
500,000 / 100 = 5,000초 ≈ 83–84분
비용 ≈ 0.63 USD
단일 작업 기준으로는 큰 차이가 아닙니다.
규모가 커지면 누적됩니다.
하루 5천만 tokens를 처리하는 경우, 처리량 효율은 GPU 수량과 임대 시간에 직접적인 영향을 미칩니다.
이 벤치마크를 직접 실행하기
하드웨어를 구매하지 않고 동일한 측정을 재현하려는 경우, RTX 4090 노드는 일반적으로 GPUFlow 마켓플레이스를 통해 이용할 수 있습니다.
장비는 시간 단위로 임대되며, 지갑 연결 후 즉시 접근할 수 있습니다. 계정 승인 지연, 기업 계약, 장기 프로비저닝 대기열은 없습니다.
사용 가능한 GPU는 GPU Flow에서 확인할 수 있습니다.
시간 단위 과금이므로 Inference 효율은 곧 비용에 직결됩니다. 100 tokens/sec와 200 tokens/sec의 차이는 지속적인 워크로드에서 실질적인 의미를 가집니다.
배포 맥락
탈중앙화 GPU를 임대하고 있다면 — 다음 문서에서 설명한 것처럼:
— Inference 효율은 자본 효율을 직접적으로 결정합니다.
처리량은 다음에 영향을 줍니다:
- 에스크로 유지 기간
- 블록체인 정산 빈도
- 호스트 불안정성에 대한 노출
- 운영 마진
효율적인 Inference 스택과 결합하면, 소비자용 GPU는 7B–8B 모델에서도 경제적으로 충분히 활용 가능합니다.
언제 어떤 스택을 사용할 것인가
Ollama
- 내부 도구
- 낮은 동시성
- 빠른 프로토타이핑
TGI
- 컨테이너 기반 환경
- 구조화된 로깅이 필요한 팀
- 관리형 프로덕션 배포
vLLM
- API 서비스
- 높은 동시성
- 달러당 최대 토큰 처리
결론
단일 RTX 4090에서 Llama‑3.1‑8B를 FP16으로 실행한 결과:
- vLLM이 가장 높은 지속 처리량을 기록했습니다.
- TGI는 프로덕션 제어 기능과 함께 균형 잡힌 성능을 제공했습니다.
- Ollama는 최대 GPU 활용보다는 단순성을 우선했습니다.
Inference 스택 선택은 표면적인 문제가 아닙니다.
비용 구조와 확장 방식에 직접적인 영향을 줍니다.
탈중앙화 소비자 GPU에서 배포되는 워크로드의 경우, 배치 효율은 경제성에 실질적인 차이를 만듭니다.
프로덕션에서 실행할 위치
이 문서의 모든 벤치마크는 자체 인프라가 아닌 임대한 소비자용 하드웨어에서 수행되었습니다.
Inference 또는 fine‑tuning을 위해 RTX 4090, RTX 3090 또는 더 큰 메모리를 가진 GPU가 즉시 필요하다면, 노드는 GPU Flow에서 이용할 수 있습니다.
시간 단위 임대. 스테이블코인 결제. 지갑 연결 후 즉시 접근 가능.
관련 자료
배포 스택 이해를 심화하려면:
- 탈중앙화 GPU에서의 프라이빗 LLM 파인튜닝 종합 가이드 — 오픈 웨이트 모델을 안전하게 학습하는 전체 절차
- GPU 임대 가격 비교 2026 — 주요 GPU 임대 플랫폼 간 실측 비용 차이
- GPU 임대 시 숨겨진 수수료 — 시간당 요금 페이지에 표시되지 않는 항목
- RunPod vs Vast.ai 비교 — 중앙집중형 인프라와 마켓플레이스형 인프라의 차이