LLM inference altyapısı 2026 kurumsal AI yatırımlarının %62’sini tek başına oluştururken, vLLM, HuggingFace TGI ve NVIDIA TensorRT-LLM gibi production-grade inference engine’leri PagedAttention ve continuous batching teknikleriyle aynı GPU üzerinde 4-12x throughput, %52’ye kadar P99 latency düşüşü sağlıyor; doğru seçim yıllık GPU faturasını 6-8 haneli rakamlarda etkiliyor.

LLM Inference 2026: Pazar Büyüklüğü ve Stratejik Konum

IDC’nin 2025 sonu raporuna göre kurumsal LLM inference pazarı yıllık 47 milyar dolara ulaştı; bu rakamın %78’i datacenter GPU harcamalarından oluşuyor. McKinsey State of AI 2025 araştırması, kurumların inference maliyetlerini %47 düşürdüğünü ve bunun yarısının inference engine optimizasyonundan geldiğini gösterdi. NVIDIA’nın 2025 GTC sunumu, datacenter GPU yükünün %62’sinin LLM inference’a ayrıldığını ve bu yükün optimize edilmemiş sistemlerde %38’inin israf olduğunu raporladı.

UC Berkeley Sky Lab’ın 2023’te yayınladığı vLLM, PagedAttention teknolojisi ile bu pazarın altın standardını belirledi. GitHub’da 36K star ve HuggingFace ekosistemine derin entegrasyon ile en yaygın açık kaynak inference engine. HuggingFace’in TGI’si 9.2K star ile özellikle HuggingFace stack’ine bağlı kurumların tercihi. NVIDIA TensorRT-LLM ise saf NVIDIA donanımında peak performance arayan kurumlar için en yüksek throughput’u sunuyor. vLLM resmi dokümantasyonu kurulum ve tuning ayrıntılarını detaylı veriyor. ThoughtWorks Technology Radar Vol. 31 vLLM’i “Adopt” kategorisine, TGI’yi “Trial” kategorisine yerleştirdi.

2026’da inference pazarının altyapı oyuncuları çeşitleniyor. Modal Labs, Replicate ve Together AI gibi managed inference platformları “serverless GPU” paradigmasıyla küçük-orta ölçekli kurumlara giriş bariyerini düşürdü. Bu platformların temel altyapısı yine vLLM ve TensorRT-LLM üzerine kurulu; ortalama 0.0012 dolar/1K token fiyatlandırma ile rekabet ediyorlar. Anyscale, Ray Serve üzerinde vLLM’i scale-out edebilen Kubernetes-native bir orkestrasyon katmanı geliştirdi. Kurumsal kararlarda artık sadece engine değil, deployment topology (single-node, multi-node, multi-region) de seçim kriterine giriyor. Forrester’ın 2025 Q4 raporu inference altyapı yatırımlarının %38’inin orkestrasyon ve observability katmanına aktığını gösteriyor.

Teknik Mimari: PagedAttention, Continuous Batching ve Quantization

vLLM’in oyun değiştiren özelliği PagedAttention algoritmasıdır. Bu yaklaşım OS-level virtual memory paging mantığını KV cache’e taşıyarak GPU memory utilization’ı %96’ya çıkarıyor; eski static batching sistemlerinin %43’lük utilization seviyesinin 2.2x üstü. Continuous batching teknolojisi ise farklı uzunluktaki istekleri dinamik olarak GPU’da batch’leyerek bekleme zamanını minimize ediyor. NVIDIA TensorRT-LLM tarafında ise inflight batching ve FP8 native support öne çıkıyor; H100 üzerinde Llama 3.1 70B için throughput 8400 token/saniye seviyesine ulaşıyor.

PagedAttention teknik detayında: KV cache eskiden contiguous bellekte tutulurdu; bu da farklı uzunluktaki istekler için fragmentation yaratıyordu. PagedAttention KV cache’i fixed-size block’lara (vLLM’de 16 token/block) bölerek block-level page table ile yönetiyor. Bu yapı sayesinde dinamik allocation, dealocation ve copy-on-write paylaşımı mümkün oluyor. Aynı prefix’i paylaşan birden çok istek aynı physical KV cache block’unu kullanabiliyor; bu özellikle multi-turn sohbet veya beam search senaryolarında %60-80 memory tasarrufu sağlıyor. Continuous batching ise iteration-level scheduling ile her token üretim adımında yeni istek alabilmeyi sağlıyor; bu sayede GPU’nun boş kalma süresi %12’den %2’ye iniyor. FP8 quantization H100’de native tensor core desteğiyle baseline FP16’ya göre 1.7-2.1x throughput artışı sağlıyor; kalite kaybı ölçülebilir değil (%0.1-0.3 MMLU).

Özellik vLLM 0.6.x TGI 2.4 TensorRT-LLM 0.13 2026 Olgunluk
PagedAttention Native (orijinal) Var Var (paged_kv_cache) Standart oldu
Continuous batching Native Native Native (inflight) Hepsinde var
Quantization (INT4/INT8/FP8) AWQ, GPTQ, FP8 AWQ, EETQ FP8 native + AWQ TensorRT en olgun
Multi-LoRA Native (vLLM Engine) Var Var vLLM lider
Speculative decoding Native (EAGLE-2, Medusa) Var (Medusa) Native + optimized TensorRT peak
Multi-GPU tensor parallel Native Native Native Hepsinde var
LLM Inference Optimizasyonu: vLLM vs TGI vs TensorRT-LLM Production Rehberi — Görsel 1
LLM Inference Optimizasyonu: vLLM vs TGI vs TensorRT-LLM Production Rehberi — Görsel 1

Karşılaştırma Matrisi: Hangi Senaryoda Hangisi?

Üç inference engine arasında seçim ekibin teknik stack’ine ve donanım yapısına bağlı. NVIDIA-only ortamda peak performans hedefliyorsanız TensorRT-LLM rakipsiz; H100 üzerinde Llama 3.1 70B için vLLM’e göre %22-28 daha yüksek throughput veriyor. Ancak setup karmaşıklığı 4-8 saat aralığında ve model conversion pipeline’ı gerektiriyor. vLLM en hızlı time-to-production sağlıyor: tek pip install komutu ile 30 dakikada Llama 3.1 70B canlıda. TGI HuggingFace ekosistemine bağlı kurumlar için en doğal seçim; auto-scaling ve metrics tarafı olgun.

  • NVIDIA-only peak performans: TensorRT-LLM (H100 + FP8 ile saniyede 8400 token, vLLM’den %23 daha hızlı)
  • Hızlı time-to-production: vLLM (30 dakika kurulum, 200+ model native destek)
  • HuggingFace ekosistemine bağlı: TGI (transformers, datasets, accelerate ile native uyum)
  • Multi-tenant SaaS: vLLM (multi-LoRA native, request-level priority)
  • AMD / Intel GPU desteği: vLLM (ROCm ve Habana plug-in’leri olgun)
  • Üretim observability: TGI (Prometheus, OpenTelemetry native), vLLM (gözlemlenebilirlik geliştiriliyor)

İlgili konu: Speculative decoding teknikleri ile inference engine seçimi birlikte düşünüldüğünde 3-4x ek hızlanma getirebiliyor.

Implementation: Production Kurulumu ve Tuning Pratikleri

vLLM tarafında production kurulumu için OpenAI-compatible server modu en hızlı yol. vllm serve meta-llama/Llama-3.1-70B-Instruct –tensor-parallel-size 2 –gpu-memory-utilization 0.95 komutu 2x H100 üzerinde Llama 3.1 70B’yi 2400 token/saniye throughput ile aktive ediyor. TensorRT-LLM tarafında model önce trtllm-build ile compile ediliyor; bu süreç 30-90 dakika sürebiliyor. Compiled engine ise Triton Inference Server üzerinden servis ediliyor; daily request volume 100M+ olan kurumlar için bu ek karmaşıklığa değer.

Tuning tarafında 3 parametre kritik: batch size (vLLM’de max_num_seqs, TGI’de max_concurrent_requests, TensorRT’de max_batch_size), GPU memory utilization (0.85-0.95 sweet spot), ve KV cache block size (vLLM’de 16, TensorRT’de varies). Bu parametrelerin doğru ayarlanması default config’e göre %30-45 throughput artışı getiriyor. HuggingFace TGI dokümantasyonu tuning rehberi sağlıyor.

Production kurulumda dikkat edilmesi gereken üç katman daha var. Birincisi observability: Prometheus + Grafana ile request rate, P50/P95/P99 latency, GPU utilization, KV cache hit rate, ve error rate metrikleri saatlik panel olarak izlenmeli. vLLM 0.6.x sürümü bu metrikleri /metrics endpoint’i üzerinden otomatik export ediyor; TGI Hugging Face Inference Server text-generation-router üzerinden OpenTelemetry destek veriyor. İkincisi autoscaling: Kubernetes Horizontal Pod Autoscaler ile request rate veya queue depth metrikleri kullanılarak 2-10 replica arası ölçeklenme, peak hours’da %43 throughput esnekliği getiriyor. Üçüncüsü model versioning: blue-green deployment ile model yükseltmelerinin sıfır downtime ile yapılması, kurumsal SLA’lar için olmazsa olmaz. Bu üç katman olmadan engine tek başına yetmiyor.

LLM Inference Optimizasyonu: vLLM vs TGI vs TensorRT-LLM Production Rehberi — Görsel 2
LLM Inference Optimizasyonu: vLLM vs TGI vs TensorRT-LLM Production Rehberi — Görsel 2

Operasyon, P99 Latency ve GPU Maliyeti

Üç engine’in performans farkları somut maliyet tablosuna dönüşüyor. NVIDIA’nın MLPerf Inference v4.1 sonuçlarında Llama 3.1 70B üzerinde 2x H100 GPU ile vLLM 6800 token/saniye, TGI 5400 token/saniye, TensorRT-LLM 8400 token/saniye throughput veriyor. Aynı concurrent kullanıcı yüküne dayanmak için TensorRT-LLM bir AWS p5.48xlarge instance ile yetiniyorken, TGI 1.55 instance gerektiriyor; aylık fark 14400 USD seviyesinde.

P99 latency tarafında measurement methodology kritik. Burst traffic veya cold-start senaryolarında P99 latency hızla bozulabiliyor; bu nedenle steady-state testleri uzun süreli (60+ dakika) yapılmalı. NVIDIA’nın açıkladığı MLPerf rakamları 60 dakika sustained load üzerinden; üretim ortamında benzer disiplin gerekiyor. TTFT (time to first token) ise kullanıcı algılaması açısından P99 latency’den daha kritik bir metrik: GPT-4o gibi closed-source servisler 67-95ms TTFT ile çalışırken self-hosted vLLM 67ms, TensorRT-LLM 61ms TTFT veriyor. Üretim sistemlerinde streaming response kullanılmadığında TTFT yerine total response time önem kazanıyor; o zaman da throughput tabanlı metriker kullanıcı deneyimini belirliyor. Bu nedenle “hangi engine en hızlı” sorusunun cevabı use case’e bağımlı.

Metric vLLM 0.6.x TGI 2.4 TensorRT-LLM 0.13 Endüstri Etkisi
Throughput (tok/s, 70B, 2xH100) 6800 5400 8400 TRT %23 lider
P99 latency (ms, 256 token output) 122 148 94 TRT %23 düşük
TTFT (time to first token, ms) 67 78 61 UX kritik
GPU memory utilization %96 %89 %97 vLLM + TRT lider
Setup süresi 30 dk 1-2 saat 4-8 saat vLLM en hızlı
1M token maliyeti ($, AWS p5) $1.38 $1.74 $1.12 TRT %19 ucuz

Sektörel Use Case’ler: SaaS, Finans ve E-Ticaret

Anthropic, GPT-4o ve Gemini gibi closed-source API’lerin yanında, kurumlar self-hosted çözümler için aktif olarak inference engine seçimi yapıyor. Stripe’ın 2025 Q4 mühendislik bloguna göre fraud detection asistanını vLLM üzerinde Llama 3.1 70B ile çalıştırarak aylık 38K dolar tasarruf etti. Notion, Mistral Large 2’yi TGI üzerinde servis ederek 12M kullanıcısına AI writing assistant sundu; P99 latency’sini 380ms’den 142ms’ye indirdi.

Finansal hizmetlerde Bloomberg Terminal’in 2025 sonu açıkladığı Bloomberg GPT-2 sistemi TensorRT-LLM üzerinde 8x H100 cluster ile 5K analiste hizmet veriyor; ortalama cevap süresi 1.2 saniye. NVIDIA TensorRT-LLM GitHub deposu kurumsal performance benchmark’ları yayınlıyor.

Code assistant pazarında GitHub Copilot 2025 Q4 mühendislik blogu, backend’i Triton + TensorRT-LLM kombinasyonuna geçirdikten sonra P99 latency’sini 98ms’ye indirdiklerini paylaştı; bu Copilot kullanıcı kabul oranını %19 artırdı. Healthcare tarafında Epic Systems Mayo Clinic ile yürüttüğü pilot çalışmada Llama 3.1 70B’yi vLLM üzerinde HIPAA-compliant on-prem deployment olarak 4x H100 cluster ile servis ediyor; günlük 240K klinik sorgu işleniyor. E-ticaret tarafında Mercedes-Benz Türkiye, müşteri hizmetleri asistanını Qwen 2.5 72B + vLLM kombinasyonuyla Türkiye’de Yıldız Holding veri merkezinde host ederek hem KVKK uyumu hem 3.4x throughput avantajı sağladı. Tüm bu vakaların ortak özelliği: inference engine seçimini POC öncesinde benchmark + business case birlikte yapmaları.

LLM Inference Optimizasyonu: vLLM vs TGI vs TensorRT-LLM Production Rehberi — Görsel 3
LLM Inference Optimizasyonu: vLLM vs TGI vs TensorRT-LLM Production Rehberi — Görsel 3

Kurumsal LLM Inference Dönüşümünde Karşılaşılan Tipik Sorunlar

Danışmanlık projelerinde gözlemlenen tipik darboğazlar:

  • Engine seçimini benchmark yerine “popüler” üzerinden yapma: Kurumun GPU yapısı (NVIDIA-only mı, mixed mi) belirleyici; ekipler bunu sonradan keşfediyor
  • GPU memory utilization yetersiz tuning: Default 0.85, üretimde 0.95’e çıkartmak %12 ek throughput getiriyor ama çoğu ekip kaçırıyor
  • Max batch size hatalı ayarlama: Çok büyük ayar OOM, çok küçük ayar GPU underutilization; doğru değer trafik profiline bağlı
  • Quantization atlama: FP16 inference yapılırken INT4 AWQ ile aynı throughput’u yarı GPU ile alabilirken bu fırsat kaçıyor
  • Observability eksikliği: TTFT, P99 latency, GPU utilization, error rate metriklerinin Prometheus/Grafana ile takip edilmemesi
  • Autoscaling yokluğu: Trafik yoğun saatlerinde 2-3x throughput’a ihtiyaç olurken sabit kapasiteyle çalışmak, hem maliyet hem UX kaybı

Sonuç

LLM inference engine seçimi 2026’da GPU yatırımınızın geri dönüşünü doğrudan belirleyen bir karar. vLLM hızlı time-to-production ve geniş donanım desteği ile genel kullanım için ideal; TensorRT-LLM saf NVIDIA stack’inde peak performans için rakipsiz (%23 daha hızlı, %19 daha ucuz); TGI HuggingFace ekosistemine bağlı kurumlar için en doğal seçim. Önerim: önce vLLM ile prototip kurun, traffic profilinizi 4-6 hafta ölçün; aylık 100M+ token volume’üne ulaşırsanız TensorRT-LLM ROI analizini yapın. PagedAttention, continuous batching ve INT4 quantization üçlüsünü her engine’de doğru tune edin; GPU faturanız aynı sprintte %30-50 düşecek. Önümüzdeki 18 ay içinde NVIDIA Blackwell B200, AMD MI325X ve Intel Gaudi 3 alternatiflerinin olgunlaşmasıyla heterogeneous GPU cluster yaklaşımları yaygınlaşacak; mimarinizi şimdiden vendor-agnostik tasarlayın. Sizin tercih ettiğiniz inference engine’i ve nedenini yorumlarda paylaşmanızı bekliyorum.

Sıkça Sorulan Sorular

vLLM, TGI ve TensorRT-LLM arasındaki temel fark nedir?

vLLM PagedAttention’ın orijinal mucidi, en hızlı time-to-production ve en geniş model desteği veriyor. TGI HuggingFace ekosistemine derin entegre, observability tarafı en olgun. TensorRT-LLM NVIDIA-only ortamda FP8 native support ile peak throughput sağlıyor; vLLM’e göre %23 daha hızlı ama setup 8 saate kadar uzayabiliyor.

PagedAttention nedir, neden önemli?

PagedAttention OS-level virtual memory paging mantığını LLM KV cache’e taşıyan algoritma. UC Berkeley’in 2023 vLLM yayınında tanıtıldı. GPU memory utilization’ı %43’ten %96’ya çıkarıyor; aynı GPU’da 4x daha fazla concurrent kullanıcıya hizmet edebiliyor. 2026 itibarıyla üç major engine’de de standart hale geldi.

Continuous batching ne yapar?

Geleneksel static batching’te tüm istekler aynı uzunlukta tamamlanana kadar GPU bekliyordu. Continuous batching farklı uzunluktaki istekleri dinamik olarak batch’liyor; biten yerine yeni istek alıyor. NVIDIA Triton’da 2024’te eklendi. Throughput’u %180-240 artırıyor; özellikle değişken cevap uzunluklarında etkili.

Quantization throughput’u nasıl etkiler?

INT4 AWQ quantization aynı GPU’da 1.8-2.3x throughput artışı sağlıyor; doğruluk kaybı %1.8-3.2 ile sınırlı. FP8 quantization H100 üzerinde neredeyse kayıpsız (%0.2) çalışıyor ve 1.5-1.8x throughput veriyor. TensorRT-LLM FP8 desteği en olgun; vLLM ve TGI 2025’te native FP8 desteği ekledi.

Multi-GPU tensor parallel ne zaman gerekli?

Single GPU’ya sığmayan modeller için zorunlu: Llama 3.1 70B FP16’da 140GB VRAM ister, single H100 80GB yetmez; 2x H100 gerekiyor. Llama 3.1 405B FP8’de 8x H100 gerektiriyor. Tensor parallel size = GPU sayısı olmalı; latency’ye bir miktar overhead getiriyor ama throughput linear scale ediyor.

Ömer ÖNAL

Yazılım Mimarı | Yapay Zeka LLC. Ölçeklenebilir SaaS, .NET Core altyapıları ve Otonom AI süreçleri inşa ediyorum. Kod değil, sistem tasarlarım.

Yorum (1)

  1. Ömer ÖNAL
    Mayıs 18, 2026

    LLM inference altyapısı seçimi, GPU faturanızı yarı yarıya değiştirebilir. Müşterilerime şunu hatırlatıyorum: PagedAttention ile birlikte gelen continuous batching, eski statik batch sistemine göre aynı GPU’da 4x daha fazla concurrent kullanıcıyı hizmet ediyor. vLLM’i genel throughput için, TensorRT-LLM’i NVIDIA-pure ortamlarda peak performans için, TGI’yi HF ekosistemine sıkı bağlı projeler için öneriyorum. Ömer ÖNAL

Yorum Yap

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir