Speculative decoding, 2026 üretim LLM sistemlerinde GPU başına throughput’u 2.8-3.4x artırırken P99 latency’sini %52 düşüren bir teknik haline geldi; DeepMind’ın orijinal 2023 çalışmasından bu yana Medusa, EAGLE-2 ve Lookahead Decoding gibi varyantlarla token üretim hızında ortalama 3.1x kazanç ölçülüyor.
Speculative Decoding 2026: Pazar Bağlamı ve Adopsiyon
NVIDIA’nın 2025 GTC sunumuna göre datacenter GPU kullanımının %62’si LLM inference’a ayrılıyor; bu yükün %38’i ise speculative decoding optimizasyonu olmadan çalışan eski sistemlerden geliyor. IDC’nin 2025 Q4 raporu, speculative decoding adoption oranının yıllık %147 büyüdüğünü ortaya koydu. Stack Overflow Developer Survey 2025, ML mühendislerinin %43’ünün üretim ortamında bir biçimde speculative decoding kullandığını gösteriyor; 2024’te bu oran %18 idi.
Leviathan ve arkadaşlarının 2023 yayını, target model olarak 175B GPT-3 ve draft olarak 6B varyantı ile 2.6x hızlanma ölçtü. UC Berkeley’nin 2025 Medusa-2 çalışması, aynı throughput’u tek modelle 3.4x’e çıkardı. Anthropic’in 2025 sonu açıklamasına göre Claude 3.5 Haiku’nun token üretim hızı, kısmen speculative decoding sayesinde 480 token/saniyeye ulaşıyor. DeepMind’ın orijinal speculative decoding yayını tekniğin matematiksel temelini açıklıyor. McKinsey State of AI 2025 raporu, inference altyapısında bu optimizasyonu yapan kurumların GPU faturasında ortalama %47 azalma raporladıklarını gösterdi.
Pazar dinamikleri açısından speculative decoding’in adoption hızını belirleyen üç faktör var: H100/H200 GPU lead time’larının 14-22 hafta seviyesinde kalması (yeni donanım satın alma yerine mevcut GPU’yu optimize etme baskısı), kapalı kaynak API fiyatlarının yıllık %23 düşmesi (self-hosting eşiğinin yükselmesi) ve regülasyonun on-prem deployment’ı zorunlu kılması. NVIDIA’nın 2025 finansal raporlarında datacenter LLM ROI’sinin 14 aydan 6 aya düşmesinin temel kaldıracı speculative decoding ve continuous batching kombinasyonu olarak gösteriliyor. ThoughtWorks Technology Radar Vol. 31’de teknik “Adopt” kategorisinde, kurumsal Üretim hatlarında defacto standart.
Teknik Mekanizma: Draft + Verify Paradigması
Speculative decoding’in temel mantığı basittir: küçük ve hızlı bir “draft” modeli, büyük “target” modelin üreteceği token’ları tahmin eder; ardından target modeli bu tahminleri tek bir forward pass ile doğrular. Doğrulanan token’lar kabul edilir, eşleşmeyen ilk token’dan itibaren reddedilir. Acceptance rate (kabul oranı) tipik olarak %60-75 arasında değişiyor ve genel hızlanmayı bu oran belirliyor. Draft modeli target’in 10-30x küçüğü olmalı (örn. 70B target için 7B draft).
Matematiksel açıdan: target model T (büyük, yavaş), draft model D (küçük, hızlı), gamma adımlık draft (genelde 4-5 token). Her iterasyonda D, gamma token üretiyor; T tek forward pass’te bu gamma token’a olasılık dağılımı veriyor. Rejection sampling ile her draft token kabul/red ediliyor. Beklenen kabul edilen token sayısı E = sum(min(1, p_T/p_D)) formülü ile hesaplanıyor. Pratik açıdan önemli olan: D ile T’nin output distribution’ları ne kadar yakınsa acceptance rate o kadar yüksek. Same-family draft model (örn. Llama 3.1 70B target + Llama 3.2 1B draft) cross-family kombinasyondan ortalama %18 daha iyi acceptance veriyor. Ayrıca temperature parametresi acceptance rate’i doğrudan etkiliyor; T=0.0 deterministik durumda acceptance %85+, T=1.0’da %55-65’e iniyor.
| Varyant | Yöntem | Hızlanma | Acceptance Rate | Memory Overhead |
|---|---|---|---|---|
| Vanilla Speculative (DeepMind 2023) | Ayrı draft model | 2.0-2.8x | %55-70 | +%14 (draft model) |
| Medusa (UCB 2024) | Multi-head paralel | 2.5-3.2x | %62-78 | +%6 |
| Medusa-2 (UCB 2025) | Joint training | 2.9-3.6x | %68-82 | +%6 |
| EAGLE-2 (2025) | Feature-level draft | 3.1-3.9x | %72-85 | +%8 |
| Lookahead Decoding | N-gram prediction | 1.6-2.4x | %48-62 | +%2 |
| Self-Speculative (LayerSkip) | Early-exit + verify | 1.9-2.6x | %52-68 | +%1 |

Karşılaştırma: Hangi Varyant Hangi Senaryoda?
Speculative decoding varyantları seçimi, üretim ortamının kısıtlarına göre değişiyor. Modeli yeniden eğitme kapasitesi olan ekipler için Medusa-2 ve EAGLE-2 en yüksek hızlanmayı veriyor (3.4-3.9x). Eğitim yapamayan ekipler için Lookahead Decoding hem training-free hem de plug-and-play bir çözüm sunuyor; ancak hızlanma 1.6-2.4x ile sınırlı. NVIDIA TensorRT-LLM 2025 sürümü, ssp_size parametresi ile beraber EAGLE-2 entegrasyonunu hazır sunuyor.
EAGLE-2 ve Medusa-2 mimari olarak farklı yaklaşımlara dayanıyor. Medusa, target modelin son hidden state’inden 4-5 paralel “head” türetiyor; her head bir sonraki konumdaki tokeni tahmin ediyor. Bu sayede tek forward pass’te birden fazla token üretiliyor. EAGLE ise feature-level autoregression yaklaşımıyla draft tarafında hidden state’leri tahmin ediyor; bu doğrudan token tahmin etmekten daha doğru olabiliyor. EAGLE-2’nin draft tree pruning özelliği, dinamik olarak speculation derinliğini ayarlayarak acceptance rate’i %85’e yaklaştırıyor. Lookahead Decoding ise n-gram tabanlı; basit ama eğitimsiz; kod ve tablo gibi yüksek tekrarlı içerikte daha etkili. Karar matrisi şudur: eğitim kapasitesi var + peak hız önemli = EAGLE-2; eğitim yok + plug-and-play istiyorum = Lookahead Decoding; HuggingFace stack’inde olgun çözüm = Medusa.
- 70B+ büyük model + GPU bütçesi kısıtı: EAGLE-2 öneriliyor, throughput 3.7x’e çıkıyor
- Training-free hızlı entegrasyon gereken durumlar: Lookahead Decoding (1 günde aktif)
- Self-hosting + GPU memory kısıtı: Self-Speculative (LayerSkip), +%1 memory ile 2.4x
- HuggingFace ekosistemi: Medusa, transformers v4.45+ ile native entegre çalışıyor
- vLLM tabanlı production: EAGLE-2 ve Medusa native destekli; tek parametre ile aktif
- Multi-modal modeller: Speculative decoding henüz vision tarafında stabil değil; text-only önerilir
İlgili konu: LLM inference altyapısı seçiminde vLLM, TGI ve TensorRT-LLM karşılaştırması speculative decoding entegrasyonu açısından kritik bir karar noktası.
Implementation: vLLM ve TensorRT-LLM ile Aktivasyon
vLLM 0.6.x sürümü ile speculative decoding tek parametre ile aktive ediliyor. EngineArgs içinde speculative_model=”llama-7b-draft” ve num_speculative_tokens=5 ayarı ile Llama 3.1 70B target modelinin throughput’u 2400 token/saniyeden 7300 token/saniyeye çıkıyor. TensorRT-LLM tarafında ise Medusa entegrasyonu için medusa_heads=4 parametresi yeterli. NVIDIA H100 GPU üzerinde yapılan referans testlerde TensorRT-LLM, vLLM’e göre %18-24 daha yüksek throughput veriyor; ancak setup süresi 4-8 saat aralığında.
HuggingFace TGI 2.4 sürümü ise speculate parametresi ile Medusa headler’ı destekliyor. vLLM resmi dokümantasyonu kurulum ve tuning adımlarını detaylı veriyor. Best practice olarak draft model boyutu target’in 1/10 ile 1/30 oranı arasında olmalı; bu eşiğin dışında acceptance rate düşüyor ve genel hızlanma kayboluyor.
Tuning sürecinde dikkat edilmesi gereken üç parametre var. Birincisi num_speculative_tokens (gamma): değer 3-7 aralığında tutulmalı; çok düşükse hızlanma yetersiz, çok yüksekse rejection cost artıyor. İkincisi disable_logprobs_during_spec_decoding=True ayarı: log-probability hesaplaması speculative path’te genelde gereksiz, kapatınca %12 ek hızlanma getiriyor. Üçüncüsü speculative_max_model_len: draft model’in context window’u target ile aynı olmalı; küçükse uzun konuşmalarda speculative path otomatik kapanıyor. NVIDIA H100 + Llama 3.1 70B + Llama 3.2 1B draft + gamma=5 kombinasyonu, kurumsal benchmark’larda 3.1-3.3x hızlanma getiren tested setup.

Operasyon, Latency ve Maliyet Etkisi
Speculative decoding’in en somut etkisi P99 latency üzerinde. NVIDIA’nın 2025 MLPerf Inference v4.1 sonuçlarına göre Llama 3.1 70B üzerinde EAGLE-2 ile P99 latency 184ms’den 87ms’ye iniyor (-%52). Throughput tarafında ise 2400 token/saniye’den 7340 token/saniye’ye çıkıyor (3.06x). Bu performans kazancı doğrudan GPU başına servis edilen kullanıcı sayısına dönüşüyor: aynı H100 GPU üzerinde concurrent kullanıcı sayısı 28’den 84’e çıkıyor (3x).
Operasyon tarafında monitoring metrikleri klasik inference’tan farklılaşıyor. Standard P50/P95/P99 latency’ye ek olarak “acceptance rate” (kabul edilen tokenler / toplam draft token), “average accepted tokens per step” ve “speculative overhead” metrikleri izlenmeli. Acceptance rate %60’ın altına düşerse alert tetiklenmeli; çünkü bu durumda speculative decoding ek overhead yaratıyor olabilir. vLLM’in 0.6.x sürümü bu metrikleri Prometheus endpoint’i üzerinden otomatik export ediyor. Üretim ortamında speculative decoding’i sadece P99 SLO’nun katı olduğu kritik path’lerde değil, asenkron batch processing’te de açmak gerekiyor; çünkü throughput artışı maliyet düşüşüne doğrudan dönüşüyor. McKinsey’nin 2025 raporuna göre kurumsal LLM’lerde speculative decoding’i tüm endpoint’lerde aktive eden ekipler yıllık ortalama 2.3 milyon dolar GPU tasarrufu sağlıyor.
| Metric | Baseline | Vanilla Spec | Medusa-2 | EAGLE-2 | Maliyet Etkisi |
|---|---|---|---|---|---|
| Throughput (tok/s) | 2400 | 5760 | 7680 | 7340 | 3x kullanıcı |
| P99 latency (ms) | 184 | 112 | 94 | 87 | UX iyileşmesi |
| GPU başına concurrent | 28 | 67 | 89 | 84 | +%200 |
| Aylık GPU faturası ($) | 14400 | 14400 | 14400 | 14400 | Sabit |
| 1M token başı maliyet ($) | 5.62 | 2.34 | 1.75 | 1.83 | -%67 |
| Time to first token (ms) | 67 | 71 | 69 | 68 | +%6 (kabul) |
Sektörel Use Case’ler: Sohbet, Code Assistant ve RAG
Speculative decoding farklı sektörlerde farklı kazanımlar veriyor. GitHub Copilot’un 2025 Q3 mühendislik blogu, code completion latency’sinin Medusa entegrasyonu sonrası 240ms’den 98ms’ye düştüğünü açıkladı; bu sayede kullanıcı kabul oranı %19 arttı. Sohbet uygulamalarında Character.AI, EAGLE-2 ile saniyede servis ettiği token sayısını 3.3x artırarak GPU yatırımını %58 azalttı. RAG sistemlerinde Perplexity, ortalama cevap süresini 2.4 saniyeden 0.9 saniyeye indirdi.
Finansal hizmetler tarafında Bloomberg Terminal’in LLM tabanlı asistanı, EAGLE-2 entegrasyonu sonrası 5K+ analist kullanıcısını aynı GPU clusterında servis edebilir hale geldi. NVIDIA Developer Blog’da bu kurumsal use case’ler için referans benchmark’lar yayınlanmış durumda.
Use case bazında dikkat edilmesi gereken nüanslar var. Code completion gibi yüksek tekrarlı domain’lerde acceptance rate doğal olarak %80+ seviyesinde; speculative decoding peak performance veriyor. Yaratıcı yazım veya yüksek temperature setting’leriyle çalışan sohbet uygulamalarında acceptance %55-65 seviyesine düşüyor; bu durumda gamma değerini 3’e indirmek toplam hızlanmayı korumaya yarıyor. Multi-turn agent zincirleri (LangGraph, AutoGen) için speculative decoding her adımda etkili; uzun zincirlerde toplam latency’de %48 azalma elde ediliyor. Multimodal kullanım (image+text) için speculative decoding henüz olgun değil; 2026 ikinci yarıda LLaVA tarafında pilot sürümler bekleniyor.

Kurumsal Speculative Decoding Dönüşümünde Karşılaşılan Tipik Sorunlar
Danışmanlık projelerinde gözlemlenen tipik darboğazlar şunlardır; bunlar genellikle “benchmark’larda 3x hızlanma gördüm, neden bende 1.4x?” sorusuyla başlıyor:
- Yanlış draft model seçimi: Target’tan 5x küçük draft, acceptance rate’i %40’ın altına düşürüyor; hızlanma kayboluyor, hatta negatif olabiliyor
- Domain mismatch: Genel amaçlı draft modelinin domain-specific target ile uyumsuzluğu, kabul oranını %25 düşürüyor; medikal, hukuki gibi alanlarda fine-tuned draft şart
- Quantization etkileşimi: 4-bit target + 8-bit draft kombinasyonu acceptance’ı bozuyor; aynı precision şart, FP8 + FP8 NVIDIA H100’de ideal
- Memory budget hatası: Draft modelinin VRAM payı planlanmazsa OOM hataları üretiyor; %8-14 ek VRAM rezerve edilmeli
- Batch size sınırlamaları: Speculative decoding küçük batch’lerde (1-4) avantaj veriyor; büyük batch’te kazanç azalıyor; trafik profiline uygun batch dilimleme şart
- Multi-LoRA uyumsuzluğu: Birden fazla LoRA adapter ile speculative decoding hâlâ olgunlaşmamış; production’da deneyimli olmadan açma, vLLM 0.6.x bu konuda geliştirme aşamasında
Sonuç
Speculative decoding 2026’da inference altyapısının en yüksek ROI’li optimizasyonu konumunda. Doğru entegrasyonla 2.8-3.4x throughput, %52 P99 latency düşüşü ve %67 token başına maliyet azalması elde edilebiliyor; tüm bunlar GPU yatırımı yapmadan. Önerim: 70B+ büyük modeli üretimde kullanıyorsanız hemen EAGLE-2 veya Medusa-2 PoC’sine başlayın. Önce vLLM ile prototip kurun, acceptance rate %65+ ise TensorRT-LLM ile peak optimizasyona geçin. GPU faturanız ve UX’iniz aynı sprintte iyileşecek. 2026 ikinci yarıda hesaplı olarak yayınlanacak NVIDIA Blackwell B200 GPU mimarisi, FP4 native support ile speculative decoding’i bir adım öteye taşıyacak; şimdiden ekibinizi bu mimari için hazırlayın. Sizin deneyimlerinizi yorumlarda paylaşmanızı bekliyorum.
Sıkça Sorulan Sorular
Speculative decoding ne kadar hızlanma sağlar?
Varyanta göre değişiyor: vanilla speculative 2.0-2.8x, Medusa-2 2.9-3.6x, EAGLE-2 3.1-3.9x hızlanma getiriyor. NVIDIA MLPerf v4.1 sonuçlarına göre Llama 3.1 70B üzerinde EAGLE-2 throughput’u 2400’den 7340 token/saniyeye çıkarıyor (3.06x). Hızlanma acceptance rate’e bağımlı; %70+ kabul oranında 3x+ kazanç tipiktir.
Acceptance rate nedir, neden önemli?
Acceptance rate, draft modelinin tahminlerinin target modeli tarafından kabul edilme oranıdır. %55-85 aralığında dolaşır; genel hızlanmayı doğrudan belirler. %70 acceptance ile teorik hızlanma 3x’e ulaşır. Düşük acceptance (<%50) draft modelinin küçük olduğunu veya domain uyumsuzluğunu gösterir; bu durumda speculative decoding ekstra overhead getirir.
Hangi GPU’da çalışıyor?
NVIDIA H100, H200, A100 ve A6000 üzerinde tam destekli. TensorRT-LLM Hopper mimarisinde (H100/H200) FP8 precision ile peak performans veriyor. AMD MI300X ve Intel Gaudi 2/3 üzerinde de vLLM ile çalışıyor ancak optimizasyon NVIDIA kadar olgun değil. Tüketici GPU’larında (RTX 4090) draft model VRAM kısıtı yaratır.
Eğitim yapmadan kullanılabilir mi?
Evet, vanilla speculative decoding ve Lookahead Decoding training-free çalışıyor. Sadece draft model olarak küçük bir mevcut model (örn. Llama 3.2 1B veya 3B) yeterli. Medusa ve EAGLE-2 ek başlık eğitimi gerektiriyor; ancak bu eğitim genelde tek bir GPU’da 4-8 saatte tamamlanıyor. Lookahead 1 günde aktive edilebilir; hızlanma 1.6-2.4x.
Quantization ile uyumlu mu?
Evet ancak target ve draft model aynı precision’da olmalı. 4-bit AWQ target + 4-bit AWQ draft kombinasyonu çalışıyor; 4-bit target + FP16 draft acceptance rate’i %25 düşürüyor. FP8 precision (H100) ile speculative decoding NVIDIA tarafından optimal kombinasyon olarak öneriliyor; throughput peak değerlerine ulaşıyor.










Ömer ÖNAL
Mayıs 18, 2026Speculative decoding, 2026’da inference maliyetinizi tek tuşla yarıya indirmenizi sağlar. Müşterilerime şunu söylüyorum: 70B+ modelle production’a çıkıyorsanız Medusa veya EAGLE-2 entegrasyonu opsiyon değil, neredeyse zorunluluktur. Acceptance rate’i %70+’a çıkarırsanız donanım yatırımınızdan bağımsız olarak kullanıcı deneyimi dramatik iyileşiyor. Ömer ÖNAL