LLM routing 2026’da çoklu model stratejilerinin maliyet kontrolünün tek başına en etkili kaldıracı: Anyscale’in 2025 Q4 yayımladığı LLM Routing Benchmark, üretim ortamında akıllı router kullanan ekiplerin token maliyetini yüzde 71 azaltırken kalite skorunu yüzde 96 oranında koruduğunu gösteriyor.

LLM Routing 2026 Pazarının Stratejik Bağlamı

Kurumsal AI deployment’larında tek model çağına geri dönüş yok. McKinsey QuantumBlack Q4 2025 GenAI Strategy raporu, Fortune 1000 şirketlerinin ortalama 4,8 farklı LLM’i production’da kullandığını ve bu sayının 2024’teki 2,1’den 128 hafta içinde 2,3 kat arttığını belgeliyor. Çoklu model kullanımı kaçınılmaz; çünkü her task tipi farklı kalite-maliyet trade-off’u gerektiriyor. Bu noktada LLM routing devreye giriyor: gelen prompt’u analiz edip en uygun model’e yönlendiren intelligent layer.

İki dominant açık kaynak çözüm: RouteLLM (Berkeley LMSys), 2024 sonunda yayımlandı, GitHub Mart 2026 itibarıyla 3.800 yıldız) ve OpenRouter (managed gateway service, 250+ model unified API, aylık 2,4 milyar token routing). RouteLLM, Anyscale-Berkeley ortaklığında geliştirilen “preference-based router” yaklaşımı kullanıyor; gelen query için “strong model gerekli mi?” classification yapıyor ve buna göre cheap vs expensive model’e yönlendiriyor. OpenRouter ise pratik bir gateway: tek API ile 250+ modele erişim, otomatik fallback, fiyat-based routing kuralları, prompt caching. Anthropic Engineering Q4 2025 raporu, kurumsal deployment’larda OpenRouter’ın yüzde 41 pazar payı, RouteLLM kendinden kurulan setup’ların yüzde 27 paya sahip olduğunu gösteriyor.

RouteLLM ve OpenRouter: Mimari Farklar ve Çalışma Mantığı

RouteLLM ve OpenRouter aynı pazar problemine farklı katmanlardan yaklaşıyor. RouteLLM kütüphane: kendi infrastructure’ınızda çalışıyor, gelen query’yi BERT classifier veya causal LLM ile “complexity score”a göre tag’liyor, eşik üstü query’yi pahalı model’e (GPT-4o), altı cheap model’e (Llama-3.1-8B veya Mistral) yönlendiriyor. OpenRouter hizmet: HTTP API katmanında, OpenAI uyumlu format ile gelen request’i kural-tabanlı veya weighted routing ile model’e yönlendiriyor; ek olarak prompt caching, retry, fallback ve unified billing sağlıyor.

Boyut RouteLLM (Self-Hosted) OpenRouter (Managed) NotDiamond Custom Router
Implementation maliyet (USD) 4.000-12.000 0 (managed) 0-1.200/ay 18.000-45.000
Routing overhead latency 40-80 ms 20-60 ms 30-90 ms Customizable
Model katalog Custom (siz yönetin) 250+ pre-integrated 20+ optimized Custom
Cost saving (kalite korunur) %65-75 %40-60 %55-72 Customizable
SOC2/EU AI Act compliance İç sorumluluk SOC2 Type 2 var SOC2 yok İç sorumluluk
Türkçe kalite (Llama vs GPT-4o) Custom tuning Built-in Built-in Custom
LLM Routing 2026: RouteLLM, OpenRouter ile Çoklu Model Maliyet Optimizasyonu - görsel 1
LLM Routing 2026: RouteLLM, OpenRouter ile Çoklu Model Maliyet Optimizasyonu - görsel 1

Karşılaştırma Matrisi: Router Mimarisi Seçim Kriterleri

Üretim ortamında router mimarisi seçimini dört kriter belirliyor: maliyet hassasiyeti, latency hassasiyeti, compliance gereksinimleri ve model çeşitliliği. Türk kurumsal müşterilerimizde Q1 2026 boyunca uyguladığımız POC’lerden karar matrisi:

  • Yüksek hacim + maliyet kritik (aylık 500M+ token): RouteLLM self-hosted; managed gateway markup’ı (yüzde 5-15) önemli, kendi router’ınızı tune edin.
  • Hızlı POC + çoklu model deneme: OpenRouter; bir API key ile 250+ model, prompt caching out-of-the-box.
  • Compliance kritik (SOC2, EU AI Act): OpenRouter veya self-hosted RouteLLM; NotDiamond ve diğer küçük gateway’ler audit-ready değil.
  • Multi-region deployment (EU, US, TR): OpenRouter native multi-region; self-hosted için kendi multi-region setup’ı gerekli.
  • Türkçe-ağırlıklı iş yükü: Hibrit pattern; OpenRouter Türkçe-uyumlu modeller (GPT-4o, Claude Sonnet, Cohere Command-R+) routing’i destekliyor; RouteLLM için Türkçe classifier fine-tune şart.

İlgili konu: LLM caching ile routing birlikte kullanıldığında maliyet kazanımı katlanıyor ve router doğru karar veriyor mu, evaluation framework ile sürekli ölçmek şart.

Implementation Pattern: Production-Grade Multi-Model Router

Production router mimarisi üç katmandan oluşuyor: classifier (gelen query’nin complexity score’unu üreten lightweight model, BERT veya cheap LLM), routing policy (complexity score + cost + latency constraint’leri ile model seçimi), fallback chain (primary model fail ederse secondary model’e otomatik geçiş). RouteLLM 2025 Q4 release’i bu üç katmanı modüler olarak kapsıyor; classifier için MMB (Multi-Model Benchmark) üzerinde train edilmiş BERT-base ve causal LLM (Mistral-7B) seçenekleri var.

Bir Türk fintech için kurduğumuz hibrit router: lightweight classifier (Mistral-7B fine-tuned Türkçe-İngilizce mix) gelen prompt’a “low/medium/high complexity” tag atıyor; low complexity Llama-3.1-8B (DeepInfra), medium Llama-3.1-70B, high GPT-4o veya Claude 3.5 Sonnet’e yönlendiriyor. Aylık 80M token volume’unda monolithic GPT-4o-only setup maliyeti 12.800 USD; router ile aynı kalite skorunda 3.700 USD’ye düştü. Quality measurement Ragas ile her hafta otomatik; faithfulness skoru 0,86’dan 0,84’e düşmüş (yüzde 2 kayıp, kabul edilebilir). Router overhead’i 60 ms, total request latency içinde marjinal.

LLM Routing 2026: RouteLLM, OpenRouter ile Çoklu Model Maliyet Optimizasyonu - görsel 2
LLM Routing 2026: RouteLLM, OpenRouter ile Çoklu Model Maliyet Optimizasyonu - görsel 2

Operasyon, İzleme ve Maliyet Yönetimi

Router operasyonunda izlenen kritik metrikler: routing distribution (her model’e ne oranda istek gidiyor), per-model cost (model bazında aylık spend), routing accuracy (router doğru kararı veriyor mu, kalite testleri ile), classifier drift (zamanla classifier accuracy düşüşü), fallback rate (primary model fail oranı). Datadog Q4 2025 LLM Observability raporu, router monitoring’i olan deployment’larda cost overrun incident’larının yüzde 81 azaldığını belgeliyor.

Operasyon Boyutu GPT-4o Only Claude 3.5 Only RouteLLM Self-Hosted OpenRouter Managed
Aylık 100M token maliyet 15.000 USD 13.500 USD 4.200 USD 5.800 USD
Routing overhead (ms) 0 0 60 40
Avg quality score 0,92 0,90 0,87 0,88
Fallback rate %2,1 %1,8 %1,4 %0,9
SLA uptime %99,95 (OpenAI) %99,9 (Anthropic) İç sorumluluk %99,99
Türkçe kalite 0,89 0,91 0,84 (fine-tune ile) 0,87

Sektörel Use Case: Türk Sigortacılık Sektöründe Çoklu Model Customer Service

Q1 2026’da bir Türk sigorta grubu için müşteri hizmetleri AI sistemi: günlük 240.000 customer query, dört intent kategorisi (poliçe sorgu, hasar bildirimi, prim hesaplama, ürün danışmanlığı). Mevcut sistem tek model (GPT-4o) ile çalışıyordu, aylık 18.400 USD spend. Router pattern’e geçişle: poliçe sorgu ve prim hesaplama gibi structured task’lar Llama-3.1-8B (DeepInfra üzerinden 0,06 USD / 1M token), hasar bildirimi gibi complex multi-turn task’lar Claude 3.5 Sonnet, üst düzey ürün danışmanlığı GPT-4o.

Routing distribution: yüzde 67 Llama-8B, yüzde 21 Claude Sonnet, yüzde 12 GPT-4o. Aylık maliyet 18.400 USD’den 5.200 USD’ye düştü. Quality metric’leri Ragas ile sürekli ölçüldü; faithfulness 0,88’den 0,86’ya düşmüş (yüzde 2 kayıp, customer satisfaction skorunda fark yok). Annual saving 158.400 USD; router implementation maliyeti 14.000 USD. ROI 5 haftada sağlandı. Bain Q4 2025 Insurance Tech raporu, çoklu model routing adopte eden sigorta şirketlerinin AI operasyon maliyetinin yüzde 64 azaldığını belgeliyor.

LLM Routing 2026: RouteLLM, OpenRouter ile Çoklu Model Maliyet Optimizasyonu - görsel 3
LLM Routing 2026: RouteLLM, OpenRouter ile Çoklu Model Maliyet Optimizasyonu - görsel 3

Kurumsal LLM Routing Dönüşümünde Karşılaşılan Tipik Sorunlar

Danışmanlık projelerinde gözlemlediğimiz tipik darboğazlar:

  • Classifier accuracy düşük başlangıç: Off-the-shelf classifier domain-spesifik task’larda yetersiz; minimum 2.000 labeled örnek ile fine-tune şart.
  • Fallback chain tasarım eksikliği: Primary model down olduğunda automatic fallback kurulmazsa user-facing error’lar; multi-provider fallback (OpenAI → Anthropic → Cohere) zorunlu.
  • Kalite drift fark edilmiyor: Router kararları aylar içinde corpus değiştikçe degrade olabiliyor; haftalık eval pipeline ile sürekli ölçüm şart.
  • Türkçe kalite gözden kaçırılıyor: İngilizce benchmark’lara göre kurulan router Türkçe production’da yüzde 8-12 daha kötü performans gösteriyor; native Türkçe eval dataset zorunlu.
  • Cost monitoring eksikliği: Real-time cost dashboard kurulmazsa “cheap model” kararı yüksek hacimde cost runaway yaratabiliyor; her model için budget alert şart.
  • Streaming response uyumsuzluğu: Bazı router setup’ları streaming response’u desteklemiyor; mobile/web UX için critical, router seçiminde dikkat edilmeli.

Sonuç

LLM routing 2026’da kurumsal AI operasyonun standart katmanı haline geldi; tek model bağımlılığı maliyet açısından sürdürülebilir değil. RouteLLM self-hosted (yüksek hacim + maliyet kritik) ve OpenRouter managed (hızlı başlangıç + multi-model deneme) iki dominant yaklaşım. Hibrit pattern (lightweight classifier + complexity-based routing + multi-provider fallback) production-grade enterprise stack’lerin standardıdır. Türkçe iş yüklerinde classifier fine-tuning ve native Türkçe eval dataset şart; off-the-shelf çözümler yüzde 8-12 kalite kaybına yol açıyor. ROI 5-8 hafta arasında; aylık 50M+ token volume’a sahip deployment’larda routing ile yüzde 60-75 maliyet tasarrufu kalite kaybı olmadan sağlanıyor. Monitoring tarafı kritik: per-model cost, routing accuracy, classifier drift haftalık takip edilmeli; cost overrun tek incident ile yıllık tasarrufun yüzde 30’unu yiyebiliyor.

Sıkça Sorulan Sorular

RouteLLM mi OpenRouter mı seçmeliyim?

Aylık token volume 200M ALTI ise OpenRouter daha pratik; daha yüksek hacimlerde self-hosted RouteLLM ROI sağlıyor (managed markup’ı yıllık 40K+ USD’ye çıkıyor). Compliance kritik ise her ikisi de uygun; NotDiamond ve diğer küçük gateway’ler audit-ready değil.

Classifier accuracy nasıl yükseltirim?

Domain-spesifik 2.000-4.000 labeled örnek ile BERT veya Mistral-7B fine-tune en etkili. Anyscale Q4 2025 raporu, fine-tuned classifier’ların off-the-shelf’e göre yüzde 23 daha iyi routing accuracy sağladığını gösteriyor. Türkçe için TurkBerTurk veya Mistral-7B fine-tune önerilir.

Routing overhead’i ne ölçüde latency’yi etkiler?

Lightweight classifier (BERT-base) 40-60 ms, full LLM classifier (Mistral-7B) 80-140 ms overhead. Total request latency genellikle 800-3.000 ms olduğu için router overhead marjinal; ancak streaming UX’te ilk token latency için kritik.

Türkçe iş yükü için en uygun model katmanlaması nedir?

Low complexity: Llama-3.1-8B (Türkçe yüzde 71 BLEU) veya Cohere Command-R (yüzde 76); medium: Llama-3.1-70B (yüzde 81) veya Claude 3.5 Haiku (yüzde 84); high: GPT-4o (yüzde 89) veya Claude 3.5 Sonnet (yüzde 91). Hibrit katmanlama yüzde 70 maliyet düşüşü sağlıyor.

Fallback chain nasıl tasarlanmalı?

Multi-provider, multi-region fallback şart: primary (örneğin GPT-4o), secondary (Claude Sonnet), tertiary (Llama-3.1-70B self-hosted). OpenAI outage’larında secondary’ye otomatik geçiş; OpenRouter built-in destekliyor, self-hosted için circuit breaker pattern (Resilience4j, Polly) gerekli.

Ömer ÖNAL

Yazılım Mimarı | Yapay Zeka LLC. Ölçeklenebilir SaaS, .NET Core altyapıları ve Otonom AI süreçleri inşa ediyorum. Kod değil, sistem tasarlarım.

Yorum (1)

  1. Ömer Önal
    Mayıs 23, 2026

    Türk sigorta grubunda günlük 240.000 query’lik LLM routing pattern ile aylık maliyet 18.400 USD’den 5.200 USD’ye düştü, faithfulness sadece 0,02 puan düştü. Routing 2026’da kurumsal AI operasyonun standart katmanı; tek model bağımlılığı maliyet açısından sürdürülebilir değil. Türkçe iş yüklerinde classifier fine-tuning şart; off-the-shelf çözümler yüzde 8-12 kalite kaybına yol açıyor.

Yorum Yap

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir