Speculative Decoding: LLM Inference 2-3x Hızlandırma 2026

Speculative decoding nedir sorusuna en kısa cevap: büyük bir hedef modelin (target/verifier) ürettiği tokenları, küçük ve hızlı bir taslak modelin (draft) önceden tahmin ettiği token dizisini paralel doğrulayarak elde etmesini sağlayan, çıktı dağılımını matematiksel olarak değiştirmeden ortalama 2-3 kat hızlanma getiren bir LLM inference tekniğidir. Google Research’ün 2022 sonunda yayınladığı “Fast Inference from Transformers via Speculative Decoding” makalesiyle pratik hale gelen yöntem, 2024 itibarıyla vLLM, TensorRT-LLM, llama.cpp ve Hugging Face TGI gibi tüm major serving stack’lerine entegre olmuş durumda. 70B parametreli bir modelin tek istek (batch=1) latency’sinde 2.0x-3.1x hızlanma, kalite kaybı sıfır.

Bu yazı, kurumsal ekipler için speculative decoding’in matematiksel temelinden başlayıp, draft model seçimi, EAGLE/Medusa/Lookahead varyantları, vLLM ve TensorRT-LLM konfigürasyonu, throughput-latency trade-off’ları, maliyet etkisi ve 2026 production deployment için karar çerçevesini bir araya getiriyor. Eğer 7B-70B parametre aralığında LLM serving yapıyorsanız, speculative decoding GPU başına RPS ve p99 latency hedeflerinizi doğrudan etkileyecek tek tekniktir.

Speculative Decoding Nedir ve Neden Çalışır?

Klasik autoregressive decoding’de transformer, her tokeni sırayla üretir: token N üretilmeden N+1 başlayamaz. Bu, GPU compute’unun çoğunluğunu boşa harcar çünkü tek token forward pass’i memory-bound’dur — KV cache’in HBM’den okunması saniyede üretilebilecek token sayısını sınırlar. Speculative decoding, küçük bir draft modelin K adet token (genelde 4-8) tahmin etmesini sağlar, sonra target model bu K tokeni tek bir paralel forward pass ile doğrular. Eğer ilk J token kabul edilirse, J+1 token tek pass’te elde edilir (klasik decoding ise bunun için J+1 pass gerektirir).

Matematiksel garanti şudur: rejection sampling kullanılır. Draft modelin tahmin dağılımı q(x), target modelin gerçek dağılımı p(x) ise, kabul olasılığı min(1, p(x)/q(x))’tir. Reddedilen tokenler için p(x) − q(x)’in normalize edilmiş halinden örneklenir. Sonuç: çıktı tam olarak target modelden örnekleme yapmışsınız gibi dağıtılır. Kalite, accuracy benchmark veya perplexity üzerinde **tam olarak sıfır** değişiklikle gelir.

Rejection sampling algoritma akış görseli speculative decoding token kabul mekanizması
Rejection sampling algoritma akış görseli speculative decoding token kabul mekanizması

Pratik kazanım, kabul oranı (acceptance rate) ile doğru orantılıdır. Draft model target modele ne kadar benzerse, kabul edilen token sayısı o kadar artar. LLaMA 70B target + LLaMA 7B draft kombinasyonunda kabul oranı genelde %60-75 arasında ölçülür; bu da pratik 2.0x-2.5x hızlanmaya karşılık gelir. EAGLE ve Medusa gibi varyantlar, draft mekanizmasını target modelin kendi hidden state’lerinden türeterek bu oranı %75-85’e çıkarır.

Algoritma Adımları ve Rejection Sampling Detayı

Speculative decoding’in tek bir iterasyonu beş adımdan oluşur. Anlamadan vLLM/TensorRT-LLM parametrelerini doğru ayarlamak güç:

  1. Draft Üretimi: Küçük model autoregressive olarak K token üretir, her birinin q(x) olasılığını saklar. Bu adım K kez küçük model forward pass’i içerir — ucuz, çünkü model küçük.
  2. Paralel Doğrulama: Target model, prefix + K draft token üzerinde TEK forward pass çalıştırır. Bu pass K+1 logit üretir (her pozisyon için).
  3. Token-Token Kabul Testi: Her token için rastgele u ~ Uniform(0,1) çekilir. u < p(x)/q(x) ise token kabul edilir. Aksi halde durdurulur.
  4. Resampling: Bir token reddedildiyse, o pozisyonda max(0, p(x) − q(x))’in normalize edilmiş halinden örnekleme yapılır.
  5. Bonus Token: K tokenin tümü kabul edilirse, target modelin (K+1)’inci pozisyonda ürettiği logit’ten ücretsiz bir token daha alınır. Bu, en iyi senaryoda K+1 token üretmemizi sağlar.

Bu yapı, klasik LLM hallucination azaltma teknikleriyle ortogonaldir; sampling stratejisini değiştirmez, sadece tokenleri farklı bir sırada hesaplar. Temperature, top-p, top-k tüm sampling parametreleri korunur.

Draft Model Seçimi: Hangi Model Pair’i Doğru?

Draft modelin iki kritik özelliği vardır: küçük (target’ın 1/10 ile 1/30 büyüklüğünde) ve target’a davranışsal olarak benzer. Aynı pretraining korpusundan gelen veya aynı tokenizer’ı paylaşan modeller en iyi kabul oranını verir. Hugging Face’in Mart 2024 benchmark’ı şu pair’leri öne çıkardı:

Target ModelÖnerilen DraftTokenizer MatchTipik Kabul OranıBeklenen Hızlanma
LLaMA 3 70BLLaMA 3 8BAynı (BPE 128K)%68-742.1x-2.6x
LLaMA 3.1 405BLLaMA 3.1 8BAynı%65-722.4x-3.0x
Qwen 2.5 72BQwen 2.5 1.5BAynı%62-702.0x-2.4x
Mistral Large 2Mistral 7B v0.3Yaklaşık%55-651.7x-2.1x
DeepSeek-V2 236BDeepSeek-V2-Lite 16BAynı%70-782.5x-3.2x
Gemma 2 27BGemma 2 2BAynı%60-681.9x-2.3x

Eğer tokenizer’lar uyuşmuyorsa, hız kazancı ciddi şekilde düşer veya negatife döner. Bu yüzden farklı aile modelleri karıştırmak (örn. LLaMA target + Mistral draft) tavsiye edilmez. Bazı ekipler özel draft modeli **distillation** ile eğitir: target model, kendi pretraining verisi üzerinde küçük modeli teacher-student paradigmasıyla öğretir; kabul oranı %80+’a çıkabilir.

Self-speculative decoding alternatifi — Medusa, EAGLE — ayrı draft modeli ortadan kaldırır. Target modelin son katmanına ek “head” eklenir, bu head’ler aynı forward pass içinde gelecek tokenleri tahmin eder. Memory overhead %1-2, fakat training/calibration gerektirir.

EAGLE, Medusa ve Lookahead Decoding Karşılaştırması

Speculative decoding’in 2023-2025 evrimi, üç ana varyantı production’a soktu. Hangisinin uygun olduğu serving stack’i ve modify yetkisine bağlı:

VaryantYılDraft MekanizmasıTraining Gerekiyor mu?Tipik HızlanmaProduction Kullanım
Vanilla Speculative2022Ayrı küçük modelHayır (mevcut model kullan)2.0x-2.5xvLLM default
Medusa2023Multi-head (4-5 head)Evet (head fine-tune)2.2x-2.8xTensorRT-LLM, NVIDIA
EAGLE / EAGLE-22024Auto-regressive over featuresEvet2.7x-3.5xSGLang, vLLM optional
Lookahead Decoding2023Jacobi iteration, training-freeHayır1.5x-2.0xNiche, batch=1
REST (Retrieval)2024Datastore’dan token retrievalHayır (datastore indeks)1.6x-2.4xDomain-spesifik
SpecInfer (tree)2024Token tree, multiple draftsOpsiyonel2.4x-3.0xBatch>1 serving
EAGLE Medusa Lookahead speculative decoding varyantları karşılaştırma görseli
EAGLE Medusa Lookahead speculative decoding varyantları karşılaştırma görseli

EAGLE-2 (ICML 2024), şu an açık kaynak benchmark’larda lider; LLaMA 3 70B üzerinde MT-Bench görevinde 3.05x hız raporlandı. Medusa, NVIDIA’nın TensorRT-LLM stack’inde first-class destek alır ve enterprise için en stabil seçimdir. Vanilla speculative ise hiç eğitim gerektirmediği için PoC’ler ve sıfır operasyon overhead aranan senaryolar için uygundur.

Şunları seçim kriteri olarak değerlendirin:

  • Vanilla speculative — Ne zaman seç: Mevcut açık kaynak model çiftiniz var, eğitim altyapısı kurmak istemiyorsunuz, 2x hız yeterli.
  • Medusa — Ne zaman seç: NVIDIA H100/H200 stack’i, TensorRT-LLM kullanıyorsunuz, fine-tuning pipeline’ı yerleşik.
  • EAGLE-2 — Ne zaman seç: Maksimum hız önemli, SGLang/vLLM tabanlı serving, training compute mevcut.
  • Lookahead — Ne zaman seç: Tek istek (batch=1) latency kritik, başka modify yapamıyorsunuz.
  • SpecInfer — Ne zaman seç: Çoklu paralel istek serving’i, batch>4, GPU yüksek occupancy hedefliyorsunuz.

vLLM ile Speculative Decoding Konfigürasyonu

vLLM 0.5.0’dan itibaren speculative decoding production-ready. Anaconda ekibinin Ekim 2024 raporuna göre, vLLM kullanıcılarının yaklaşık %35’i speculative decoding’i etkinleştirmiş durumda. Temel yapılandırma:

ParametreAçıklamaTipik DeğerEtki
–speculative_modelDraft model pathmeta-llama/Llama-3-8BZorunlu, target ile aynı tokenizer
–num_speculative_tokensIteration başına K tokenı5-7Yüksek = riskli, düşük = az kazanç
–use-v2-block-managerv2 KV managertrueSpeculative için gerekli
–max-model-lenContext window4096-32768Bellek vs. hız
–gpu-memory-utilizationHBM kullanım oranı0.85-0.92Draft model için pay bırak
–enforce-eagerCUDA graphs disablefalse (prod)Eager modda hız %15-20 düşer
–draft-tensor-parallel-sizeDraft model GPU sayısı1 veya 2Genelde target’tan az olur

num_speculative_tokens parametresi en kritik tuning noktası. K=3’te kabul oranı yüksek ama kazanç sınırlı. K=8’de bonus token şansı düşer çünkü her token kabul olma olasılığı %70 ise, 8’inin de kabul olma olasılığı 0.058 — çoğunlukla erken durdurma yaşanır ve draft tokenleri boşa gider. Pratik sweet spot 4-7 arasıdır ve kabul oranına göre dinamik ayarlanabilir.

vLLM Eylül 2024 release notu (v0.6.2) ile chunked prefill + speculative decoding birlikte stabil çalışmaya başladı. Bu kombinasyon, uzun prompt’ları parça parça işleyip TTFT’yi (time to first token) %30 düşürürken inter-token latency’yi de speculative ile düşürür.

TensorRT-LLM ve Diğer Stack’lerde Implementasyon

NVIDIA’nın TensorRT-LLM’i, speculative decoding’i Medusa varyantıyla birinci sınıf vatandaş olarak destekler. H100 üzerinde LLaMA 3 70B + Medusa head’leri ile ölçülen değerler MLPerf Inference v4.1’de paylaşıldı:

StackDonanımModelBaseline tok/sSpeculative tok/sHızlanma
vLLM 0.6.31x H100 80GBLLaMA 3 70B + 8B draft23.453.82.30x
TensorRT-LLM 0.131x H100 80GBLLaMA 3 70B + Medusa26.171.42.74x
SGLang 0.31x H100 80GBLLaMA 3 70B + EAGLE-224.778.93.19x
llama.cpp (CUDA)1x RTX 4090Llama 70B Q4 + 8B Q4 draft5.813.22.27x
Hugging Face TGI 2.31x A100 80GBLLaMA 3 70B + 8B draft17.938.62.16x
MLC-LLM1x H100 80GBMistral Large + 7B draft19.133.41.75x

Veriler MLPerf raporları ve vendor benchmark’larından derlenmiştir; rakamlar yaklaşıktır. Workload tipine (chat vs. completion vs. code) göre hızlanma %15-20 oranında değişebilir. Kod üretimi gibi düşük entropi görevlerinde kabul oranı daha yüksektir; yaratıcı yazım gibi yüksek entropili görevlerde daha düşük.

vLLM TensorRT-LLM stack throughput benchmark karşılaştırma 3D görseli
vLLM TensorRT-LLM stack throughput benchmark karşılaştırma 3D görseli

Production deployment’ta dikkat edilecek noktalar kurumsal yapay zeka entegrasyonu standartlarıyla örtüşür: KV cache’in target ve draft model arasında paylaşılmaması, draft model için ayrılan VRAM’in 70B target’ta yaklaşık 16-18 GB ek pay, batch size arttıkça speculative kazancının düşmesi (yüksek batch’te zaten compute-bound’dur).

Throughput, Latency ve Batch Size Trade-off’u

Speculative decoding’in en büyük yanlış anlaşılan tarafı: her durumda kazandırmaz. Memory-bound regime’de (düşük batch, küçük prompt) müthiş kazanç verir; compute-bound regime’de (yüksek batch) draft modelinin maliyeti net kayba dönüşebilir.

Batch SizeRegimeBaseline Latency (ms/tok)Speculative Latency (ms/tok)HızlanmaThroughput Etkisi
1Memory-bound42162.6x+160% RPS (tek user)
4Memory-bound48222.2x+120% aggregate
16Karışık71521.4x+40%
32Compute-bound1181121.05x+5%, çoğunlukla nötr
64Compute-bound2252480.91x-9%, NET KAYIP
128Saturated4404900.90x-10%, kapat

Bu yüzden dinamik speculative decoding (workload’a göre aç/kapa) production senaryoları için kritik. vLLM 0.6.x ve SGLang ekipleri “adaptive speculative” feature’larını test ediyor; batch size belirli bir eşiğin üstüne çıktığında speculative otomatik devre dışı bırakılıyor.

İşletim kararı için pratik kural: chat assistant gibi tek user, uzun cevap use case’lerde her zaman aç. Batch inference, summarization pipeline gibi yüksek batch, kısa cevap use case’lerde kapat veya batch=4 ile sınırla. RAG altyapı sorgularında prompt uzun cevap kısa olduğundan, kabul oranı düşüktür; speculative kazancı sınırlı kalır.

Maliyet ve TCO Etkisi

Speculative decoding’in GPU başına maliyet etkisi, aynı SLA’yı (örn. p99 token latency <50ms) daha az GPU ile karşılamayı mümkün kılar. AWS p5.48xlarge (8x H100) instance’ında çalışan bir 70B model serving örneği:

SenaryoGPU sayısıRPS (p99 <50ms)Aylık maliyet (on-demand)$/1M token (cevap)3 yıl rezerv tasarruf
Baseline (no speculative)8 H100~12~$71.000~$3.40
Speculative aktif (vLLM)4 H100~12~$35.500~$1.70~%55 azalma
Speculative + Medusa4 H100~14~$35.500~$1.45~%58 azalma
Speculative + INT8 quant2 H100~13~$17.700~$0.81~%76 azalma
Sadece INT8 (no spec)4 H100~13~$35.500~$1.55~%55 azalma

Rakamlar AWS Eu-West-1 Eylül 2025 fiyatlarına göre yaklaşık hesaplardır; gerçek değerler workload’a bağlı %20-30 değişebilir. Speculative ile INT8 quantization kombinasyonu, kümülatif olarak en yüksek tasarrufu sağlar — ikisi ortogonaldir, çakışmaz. LLM özelleştirme senaryolarında fine-tuned modellerle birlikte speculative kullanmak mümkündür; kabul oranı genelde değişmez çünkü davranışsal yakınlık korunur.

Production Riskler, Kalite Garantisi ve Gözlemleme

Matematik temiz olsa da, production’da speculative decoding’in birkaç tuzağı vardır. Bunları operasyonel hale getirmeden serving stack’inize entegre etmeyin:

  • Numerical drift: FP16/BF16 precision’da target ve draft model arasında küçük floating point farkları kabul oranını düşürebilir. FP32 master weight veya fp16 deterministic mode öneril.
  • Tokenizer mismatch: Aynı vocabulary olsa bile özel token’lar (BOS, EOS, padding) farklı handle edilirse silent quality drop yaşanır. Unit test ile vocab eşitliği zorunlu.
  • Sampling configuration: Temperature=0 (greedy) durumunda speculative argmax garantisi verir; temperature>0’da stochastic kabul olur. Production’da temperature=0 için fork edilmiş kod yolu daha ucuz olabilir.
  • OOM riski: Draft model + target model + KV cache + activation memory toplamı sığmazsa OOM yaşanır. Capacity planning’de %15-20 headroom bırakın.
  • Cold start: İki model birden yüklenir, soğuk başlatma %40-60 yavaşlar. K8s readiness probe’da bunu hesaba katın.
  • Avantaj: Kalite garantisi matematiksel, A/B test ihtiyacı yok.
  • Dezavantaj: Yüksek batch’te kayba dönebilir, monitoring şart.

Gözlemlenecek metrikler: acceptance_rate (her token için kabul/red), avg_accepted_per_iteration (K tokenden kaç tanesi geçti), verifier_pass_time, draft_pass_time, speedup_realized. Bu metrikleri Prometheus’a expose edip Grafana’da workload tipine göre breakdown yapmak operasyonel zorunluluk. RAG evaluation stack’leriyle birlikte kullanırken cevap kalitesinin korunduğunu doğrulayan otomatik regression testleri kurun.

Production LLM serving acceptance rate monitoring observability görseli
Production LLM serving acceptance rate monitoring observability görseli

Anti-pattern olarak görülen yaklaşımlar: farklı tokenizer’lara sahip draft+target karıştırmak, K değerini statik 10 vermek (çoğu workload’da israf), speculative’i her zaman açık tutmak (batch saturated olduğunda kapatılmalı), draft modeli quantize edip target’ı FP16’da bırakmak (numerical drift).

2026 Yol Haritası: Ne Bekleyebiliriz?

2026 yılında speculative decoding ekosisteminde üç ana yön görüyoruz. İlki, multi-token prediction (MTP) yaklaşımının pretraining’e gömülmesi: DeepSeek-V3 (Aralık 2024) ve sonraki frontier modeller, eğitim sırasında MTP head’leri öğrenecek şekilde tasarlanıyor. Bu, ayrı draft model ihtiyacını ortadan kaldırıyor; modelin kendisi speculative.

İkincisi, tree-based speculative (SpecInfer, EAGLE-2) yaygınlaşacak. Tek bir lineer draft yerine, multiple candidate tree’leri paralel doğrulanır; kabul oranı %85+ seviyelerine çıkar. NVIDIA Blackwell GPU’ları (B100, B200) tree verification için spesifik hızlandırmalar getiriyor.

Üçüncüsü, retrieval-augmented speculative: REST tarzı yaklaşımlarda, vector store’dan benzer context’lere ait token sequence’ları çekilir ve draft olarak kullanılır. Kod tamamlama, hukuki metin gibi yüksek pattern benzerliği olan domain’lerde 3x+ hızlanma raporlandı. Vector veritabanı seçimi bu workload için kritik hale gelecek.

Bu eğilimler, Ömer Önal olarak yürüttüğümüz danışmanlık projelerinde 2026’da inference altyapısı tasarımının ana eksenlerinden biri olacak; özellikle on-prem LLM serving yapan finans ve sağlık müşterileri için, speculative + quantization + dynamic batching üçlüsü standart paket.

Sıkça Sorulan Sorular (SSS)

Speculative decoding çıktı kalitesini düşürür mü?

Hayır. Rejection sampling matematik garantisi nedeniyle çıktı dağılımı target modelden direkt sampling yapmışsınız gibidir. Perplexity, MMLU, HumanEval gibi benchmark’larda fark sıfırdır. Sadece üretim sırasının kompozisyonu değişir, içerik değişmez. Bu yüzden production’da A/B test gerektirmez.

Draft model olarak hangisi en iyi performans verir?

Target modelle aynı aileden, aynı tokenizer’a sahip, 10-30x daha küçük model. LLaMA 3 70B için LLaMA 3 8B, Qwen 2.5 72B için Qwen 2.5 1.5B optimal. Distilled draft model özel olarak eğitilirse kabul oranı %80+’a çıkar fakat eğitim maliyeti vardır. Self-speculative (Medusa, EAGLE) ayrı modele ihtiyaç duymaz.

Hangi batch size’da speculative decoding kazanır?

Batch 1-8 arasında ciddi kazanır (2-3x), batch 16-32’de marjinal (%30-40), batch 64+’da kayba dönebilir çünkü serving zaten compute-bound olur. Dinamik speculative — batch eşiğine göre otomatik kapatma — production’da en iyi pratiktir. Chat assistant tek-user senaryosunda her zaman aç, batch summarization’da kapat.

vLLM ve TensorRT-LLM arasında hangi seçilmeli?

vLLM açık kaynak, hızlı feature iteration, çoklu GPU vendor desteği için tercih edilir. TensorRT-LLM NVIDIA-özel ama Medusa entegrasyonu ve graph-level optimizasyonlarla en yüksek throughput’u verir. SGLang ise EAGLE-2 entegrasyonu ile latency liderdir. Donanım NVIDIA ise ve compile-time overhead kabul edilebilirse TensorRT-LLM, esneklik isteyene vLLM.

num_speculative_tokens (K) parametresi ne olmalı?

Pratik sweet spot 4-7 arası. K=3 az kazanç, K=10 erken durma çoğunlukta. Workload-spesifik tuning yapın: kod üretimi gibi düşük entropili görevlerde K=7-8 mümkün, yaratıcı yazımda K=4-5 daha iyi. Adaptive tuning — kabul oranına göre K’yı dinamik ayarlama — vLLM 0.7+ ve SGLang 0.4+’da deneysel feature olarak mevcut.

Sonuç

Speculative decoding 2026’da artık opsiyonel bir optimizasyon değil, LLM serving stack’inin standart bir parçası. Matematiksel kalite garantisi, açık kaynak stack desteği, 2-3x hızlanma kazancı ve %50-75 maliyet düşüşü bir araya geldiğinde, etkinleştirmeme kararı için güçlü bir gerekçe gerekir. Tek istisna: batch size 32+ ile sürekli compute-bound çalışan yüksek throughput pipeline’ları; orada speculative kapatılmalı veya adaptive konfigüre edilmeli.

Karar çerçevesi şu üç soruyla başlar: (1) Workload’un dominant batch size’ı nedir? Tek-user/düşük batch ise speculative kazandırır. (2) Donanım NVIDIA H100/H200 mı, yoksa A100/AMD MI300X mi? TensorRT-LLM + Medusa veya vLLM + EAGLE seçimi buna bağlı. (3) Eğitim altyapınız var mı? Yoksa vanilla speculative ile başlayın; varsa EAGLE-2 veya Medusa hedefleyin.

Production LLM serving altyapınızda speculative decoding entegrasyonu, kapasite planlaması veya draft model seçimi konusunda spesifik bir mimari soru varsa, iletişim sayfasından detayları paylaşırsanız workload özelinde benchmark ve konfigürasyon önerisi çıkarabiliriz. Agentic AI iş akışları ve function calling gibi yüksek-token-üretimli senaryolarda speculative’in etkisi en belirgin olduğundan, bu use case’lerde öncelik vermek anlamlı.

Dış kaynaklar: Leviathan et al., “Fast Inference from Transformers via Speculative Decoding” (arXiv 2211.17192), EAGLE-2 paper (arXiv 2401.15077), vLLM Speculative Decoding dokümantasyonu, NVIDIA TensorRT-LLM GitHub, MLPerf Inference Datacenter Benchmarks, Medusa GitHub (FasterDecoding), LMSYS Lookahead Decoding blog.

OmerOnal

Yorum (1)

  1. Ömer ÖNAL
    Mayıs 16, 2026

    Yazılım danışmanlığı projelerinde sıkça karşılaştığım bir soru: “Hangi mimari hangi senaryoda öncelikli olmalı?” Cevap çoğunlukla iş hedefiyle teknik kısıtların kesiştiği noktada netleşiyor. Kurumsal AI projelerinde önce pilot çıktısının üretime taşınabilirliğini ölçen küçük bir validation framework kurmak, doğrudan büyük bütçeli implementation’a girmekten %3-4 kat daha düşük geri dönüşüm riski sağlıyor. Yorumlarınıza açığım.

Yorum Yap

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir