LLM Gözlemlenebilirliği Nedir ve Neden 2026’da Zorunlu Hale Geldi?

LLM gözlemlenebilirliği, üretim ortamındaki büyük dil modeli uygulamalarının her isteğini, prompt’unu, token tüketimini, gecikmesini ve maliyetini uçtan uca izleyen disiplindir. Geleneksel APM araçlarının aksine, prompt içeriğini, model yanıt kalitesini ve token bazlı harcamayı birlikte değerlendirir. 2026 itibarıyla LLM API maliyetleri tipik bir orta ölçekli üretim uygulamasında aylık 15.000 ile 120.000 dolar arasına ulaştığından, bu harcamanın nereye gittiğini görmeden yönetmek imkansız hale gelir. Gartner’a göre üretken yapay zeka projelerinin yaklaşık %30’u maliyet kontrolsüzlüğü ve ölçülemeyen kalite nedeniyle proof-of-concept aşamasını geçemez. Gözlemlenebilirlik, bu başarısızlık oranını düşüren ilk savunma hattını oluşturur.

Klasik mikroservis izlemesinde üç ayak vardır: metrik, log ve trace. LLM dünyasında buna dördüncü bir ayak eklenir: prompt ve yanıt içeriğinin kendisi. Bir HTTP 200 yanıtı teknik olarak başarılı görünse de, modelin halüsinasyon ürettiği veya formatı bozduğu durumlarda iş mantığı açısından tamamen başarısızdır. Bu nedenle LLM gözlemlenebilirliği, sistem sağlığını değil yanıt kalitesini ölçer.

Bir LLM uygulaması üretime alındığında üç boyutta görünmezlik riski oluşur. Birincisi maliyet kör noktasıdır: token tüketimi her istekte değişken olduğundan, aylık fatura tahmin edilemez biçimde dalgalanır. İkincisi kalite kör noktasıdır: modelin yanıt kalitesi sessizce gerilese de standart HTTP metrikleri bunu yakalamaz. Üçüncüsü davranış kör noktasıdır: bir prompt değişikliği veya model güncellemesi tüm sistemin davranışını değiştirebilir ve neden-sonuç ilişkisi izlenemezse hata ayıklamak imkansızlaşır. Gözlemlenebilirlik bu üç kör noktayı eşzamanlı kapatan tek disiplindir ve bu nedenle 2026’da bir lüks değil, üretim ön koşuludur.

Üretim ortamında LLM isteklerinin token ve maliyet metriklerini gösteren gözlemlenebilirlik panosu
Üretim ortamında LLM isteklerinin token ve maliyet metriklerini gösteren gözlemlenebilirlik panosu

İzlenmesi Gereken Temel Metrikler ve Sayısal Hedefler

Üretim ortamında bir LLM uygulamasını sağlıklı tutmak için dört kategoride metrik toplanır: maliyet, gecikme, kalite ve güvenilirlik. Aşağıdaki tablo her metriğin tipik sağlıklı aralığını ve alarm eşiğini gösterir.

Metrik Kategori Sağlıklı Aralık Alarm Eşiği Ölçüm Birimi
İlk token gecikmesi (TTFT) Gecikme 200-800 ms >1500 ms milisaniye
Token başına çıktı süresi Gecikme 15-40 ms/token >80 ms/token milisaniye
İstek başı ortalama maliyet Maliyet 0,002-0,03 USD >0,08 USD dolar
Bağlam penceresi doluluk oranı Maliyet %30-65 >%85 yüzde
Halüsinasyon oranı Kalite %1-5 >%10 yüzde
Hata + zaman aşımı oranı Güvenilirlik %0,1-1 >%3 yüzde

Bu metriklerin tamamını toplamak için her LLM çağrısı bir span olarak kaydedilir. Span’lar şu alanları içerir:

  • Girdi token sayısı ve çıktı token sayısı — maliyet hesabının temeli.
  • Model adı ve sürümü — model değişikliklerinin etkisini izole etmek için.
  • Prompt şablonu kimliği — hangi prompt versiyonunun çalıştığını ayırt etmek için.
  • Kullanıcı veya kiracı kimliği — maliyet dağılımını müşteri bazında çıkarmak için.
  • Önbellek vuruşu (cache hit) bayrağı — prompt önbelleğinin tasarruf etkisini ölçmek için.
Bir LLM çağrısının girdi, çıktı token ve gecikme alanlarını içeren trace span yapısı
Bir LLM çağrısının girdi, çıktı token ve gecikme alanlarını içeren trace span yapısı

Maliyet Takibinin Anatomisi: Token, Önbellek ve Model Seçimi

LLM maliyetinin tamamı token üzerinden hesaplanır ve girdi token’ı genellikle çıktı token’ından 3 ila 5 kat daha ucuzdur. Bu asimetri, maliyet optimizasyonunun büyük kısmının çıktı uzunluğunu disipline etmekten geçtiği anlamına gelir. 2026’da yaygın modellerin yaklaşık fiyat aralıkları şöyledir:

Model Sınıfı Girdi (1M token) Çıktı (1M token) Bağlam Penceresi Tipik Kullanım
Üst seviye reasoning 3-15 USD 15-75 USD 200K+ Karmaşık analiz, ajan
Dengeli orta sınıf 0,5-3 USD 2-12 USD 128K Genel sohbet, RAG
Hafif / hızlı 0,05-0,5 USD 0,2-2 USD 32-128K Sınıflandırma, özet
Açık kaynak (self-host) GPU maliyeti GPU maliyeti 8-128K Yüksek hacim, gizlilik
Embedding modeli 0,01-0,13 USD Vektör arama

Prompt önbelleği (prompt caching) maliyet düşürmenin en etkili tek tekniğidir. Tekrarlanan sistem prompt’ları ve sabit bağlam önbelleğe alındığında, önbellekten okunan token’lar normal girdi fiyatının %10 ila %25’i kadar ücretlendirilir. Yüksek tekrar oranına sahip uygulamalarda bu, toplam faturada %40 ila %70 düşüş sağlar. OpenAI prompt caching dokümantasyonu ve diğer sağlayıcıların resmi rehberleri, önbellek anahtarının prompt’un sabit önekiyle eşleşmesi gerektiğini belirtir; bu nedenle değişken içerik her zaman prompt’un sonuna yerleştirilir.

Maliyet Atfı (Cost Attribution) Nasıl Yapılır?

Çok kiracılı bir SaaS’ta toplam fatura anlamlı değildir; asıl soru hangi müşterinin ne kadar harcadığıdır. Her span’a kiracı kimliği eklemek, maliyeti müşteri, özellik ve uç nokta bazında parçalamayı sağlar. Bu sayede kârsız kullanım desenleri tespit edilir ve fiyatlandırma planları gerçek tüketime göre yeniden tasarlanır.

Model Yönlendirme (Routing) ile Maliyet Düşürme

Her isteği en güçlü modele göndermek maliyeti gereksiz şişirir. Akıllı bir yönlendirme katmanı, isteğin karmaşıklığını sınıflandırır ve basit sorguları hafif modele, karmaşık reasoning gerektiren sorguları üst seviye modele yönlendirir. Bu kademeli yaklaşım, kalite kaybı olmadan toplam maliyette %30 ile %60 arasında düşüş sağlayabilir. Yönlendirme kararının kendisi düşük gecikmeli bir sınıflandırıcıyla yapılır ve her span’a hangi modelin neden seçildiği kaydedilir; böylece yönlendirme kalitesi de izlenebilir hale gelir. Aşağıdaki tablo tipik bir maliyet optimizasyon tekniği setinin etkisini özetler.

Teknik Maliyet Etkisi Kalite Etkisi Uygulama Zorluğu Risk
Prompt önbelleği %40-70 düşüş Yok Düşük Çok düşük
Model yönlendirme %30-60 düşüş Hafif risk Orta Düşük
Çıktı uzunluğu sınırı %10-30 düşüş Orta risk Düşük Orta
Bağlam budama (pruning) %15-40 düşüş Düşük risk Orta Düşük
Toplu işleme (batch API) %50’ye kadar Yok Düşük Gecikme artar

Bu tekniklerin etkisi ancak gözlemlenebilirlik altyapısı varsa kanıtlanabilir; aksi halde optimizasyonun gerçekten işe yarayıp yaramadığı bilinemez. Bu nedenle maliyet optimizasyonu ve gözlemlenebilirlik birbirinden ayrılamaz iki süreçtir.

Token bazlı maliyet dağılımını model sınıfına ve önbellek vuruşuna göre kıran grafik
Token bazlı maliyet dağılımını model sınıfına ve önbellek vuruşuna göre kıran grafik

Araç Ekosistemi: OpenTelemetry, LangSmith, Langfuse ve Helicone

LLM gözlemlenebilirliği için araç seçimi, açık standartlara bağlılık ile hazır özellik zenginliği arasındaki dengeye dayanır. OpenTelemetry’nin GenAI semantik konvansiyonları 2025-2026’da olgunlaşarak vendor-bağımsız bir temel oluşturdu. Aşağıdaki tablo öne çıkan araçları karşılaştırır.

Araç Model OTel Uyumu Self-host Güçlü Yanı
Langfuse Açık kaynak Tam Evet Trace + değerlendirme + prompt yönetimi
LangSmith Ticari Kısmi Hayır (bulut) LangChain entegrasyonu, dataset
Helicone Açık kaynak Kısmi Evet Proxy bazlı, hızlı kurulum
Arize Phoenix Açık kaynak Tam Evet Embedding drift, değerlendirme
Datadog LLM Obs Ticari Tam Hayır Mevcut APM ile birleşik

Proxy bazlı araçlar (Helicone gibi) uygulama koduna dokunmadan tüm LLM trafiğini bir ara katmandan geçirir; kurulumu dakikalar alır ancak gecikmeye birkaç milisaniye ekler. SDK bazlı araçlar (Langfuse, LangSmith) daha zengin span verisi toplar ama kod enstrümantasyonu gerektirir. Üretim mimarisinde önerilen yaklaşım, OpenTelemetry tabanlı bir SDK ile enstrümante edip verileri tercih edilen arka uca yönlendirmektir; böylece araç değişiminde kod değişmez.

Araç seçiminde belirleyici olan üç soru vardır. Birincisi: verinin nerede saklanacağı. Hassas kurumsal veriyle çalışan ekipler için self-host edilebilen açık kaynak araçlar (Langfuse, Phoenix, Qdrant tabanlı çözümler) veri egemenliği açısından tek kabul edilebilir seçenektir. İkincisi: mevcut gözlemlenebilirlik yığınıyla bütünleşme. Halihazırda Datadog veya Grafana kullanan bir ekip için, LLM verisini aynı panoda gören bir entegrasyon, ayrı bir araç öğrenmekten daha değerlidir. Üçüncüsü: değerlendirme (evaluation) yeteneğinin derinliği. Sadece izleme değil, kalite ölçümü ve A/B testi gereken ekipler için yerleşik değerlendirme motoru olan araçlar öne çıkar. Bu üç soruyu yanıtlamak, araç ekosistemindeki seçenekleri hızla daraltır.

  1. Uygulamaya OpenTelemetry GenAI enstrümantasyonu ekle.
  2. Her LLM çağrısını otomatik span’a dönüştür (model, token, gecikme, prompt kimliği).
  3. Span’ları bir collector üzerinden gözlemlenebilirlik arka ucuna gönder.
  4. Maliyet ve kalite dashboard’ları kur, alarm eşiklerini tabloya göre ayarla.

Prompt İzleme ve Kalite Değerlendirme (Evaluation)

Maliyeti bilmek yeterli değildir; o maliyetin kaliteli yanıt ürettiğini de doğrulamak gerekir. Üretim ortamında kalite üç katmanda ölçülür. İlk katman deterministik kontroller: JSON şema doğrulaması, regex eşleşmesi, zorunlu alan varlığı. İkinci katman LLM-as-a-judge: ayrı bir modelin yanıtı doğruluk, alaka ve tonalite açısından puanlaması. Üçüncü katman insan geri bildirimi: kullanıcı beğeni/şikayet sinyallerinin span’a bağlanması.

LLM-as-a-judge yöntemi tipik olarak insan değerlendirmesiyle %80 ile %90 arasında uyum gösterir ve ölçeklenebilirlik açısından tek pratik seçenektir. Ancak yargıç modelin kendi önyargısını dengelemek için, örnek bazlı (few-shot) puanlama rubriği ve düzenli insan kalibrasyonu gerektirir. Açık kaynak değerlendirme çerçeveleri için Langfuse GitHub deposu ve enstrümantasyon için OpenTelemetry Python SDK’sı yaygın başlangıç noktalarıdır. Kalite skorları zaman serisi olarak izlendiğinde, bir model güncellemesi veya prompt değişikliğinin yol açtığı kalite gerilemesi (regression) saatler içinde tespit edilir.

Prompt Versiyonlama

Her prompt şablonu sürümlenir ve span’a şablon kimliği eklenir. Bu, A/B testlerinde hangi prompt versiyonunun daha düşük maliyetle daha yüksek kalite ürettiğini istatistiksel olarak karşılaştırmayı sağlar. Prompt’lar kod gibi sürümlendiğinde, geri alma (rollback) saniyeler sürer.

Prompt versiyonlarının kalite skorlarını zaman serisi olarak karşılaştıran değerlendirme paneli
Prompt versiyonlarının kalite skorlarını zaman serisi olarak karşılaştıran değerlendirme paneli

Gizlilik, PII Maskeleme ve Uyumluluk

Prompt içeriğini loglamak güçlü bir teşhis aracıdır ancak ciddi bir gizlilik riski taşır. Kullanıcı prompt’ları kredi kartı numarası, sağlık verisi veya kimlik bilgisi içerebilir. KVKK ve GDPR kapsamında, kişisel veri içeren prompt’lar maskelenmeden saklanırsa ihlal oluşur. Bu nedenle gözlemlenebilirlik katmanı, span kaydedilmeden önce PII tespit ve maskeleme adımı içermelidir. Pratikte e-posta, telefon, TC kimlik no ve kart numarası desenleri otomatik olarak yıldızlanır veya hash’lenir. Verilerin saklama süresi (retention) genellikle 30 ila 90 günle sınırlanır ve hassas alanlar şifrelenir.

Daha detaylı veri yönetimi pratikleri için vektör veritabanlarında veri saklama yaklaşımlarına ve AI ajan bellek mimarilerine göz atmak faydalıdır. RAG ile fine-tuning arasındaki maliyet dengesi ayrıca fine-tuning vs RAG karşılaştırmasında ele alınır.

Tipik Sorunlar ve Çözümleri

LLM gözlemlenebilirliği kurarken ekipler tekrar eden bir dizi sorunla karşılaşır. Aşağıdaki maddeler en sık görülen tuzakları ve doğrudan çözümlerini özetler.

  • Span’ların maliyeti yanlış hesaplaması: Token sayısı sağlayıcının döndürdüğü usage alanından alınmalı, tahminle hesaplanmamalıdır. Streaming yanıtlarda token sayısı yanıt sonunda toplanır.
  • Bağlam penceresi sessizce dolması: Bağlam doluluk oranı %85’i geçince alarm kurulur; aksi halde model girdiyi kırpar ve kalite düşer.
  • Önbellek vuruşunun düşük olması: Değişken içerik prompt’un başına yerleştirilirse önbellek hiç çalışmaz; sabit önek başa, değişken kısım sona alınır.
  • PII’nin loglara sızması: Maskeleme span yazımından önce yapılmalı; sonradan temizlik gecikmeli ve eksik kalır.
  • Trace’lerin örnekleme (sampling) ile kaybolması: Hatalı ve yüksek maliyetli istekler her zaman tam kaydedilmeli, örnekleme yalnızca başarılı düşük maliyetli isteklere uygulanmalıdır.
  • Gecikme metriğinin yanıltıcı olması: Ortalama yerine p95 ve p99 yüzdelikleri izlenir; ortalama, uzun kuyruk gecikmelerini gizler.

Sonuç

LLM gözlemlenebilirliği, üretken yapay zeka uygulamalarını deneysel prototipten güvenilir üretim sistemine dönüştüren temel disiplindir. Token bazlı maliyet takibi, prompt versiyonlama, kalite değerlendirmesi ve PII maskelemesi birlikte uygulandığında hem fatura kontrol altına alınır hem de yanıt kalitesi ölçülebilir hale gelir. OpenTelemetry’nin GenAI semantik konvansiyonlarını temel almak, araç bağımlılığını ortadan kaldırarak uzun vadeli esneklik sağlar. 2026’da ölçülmeyen LLM harcaması artık kabul edilebilir bir risk değildir; gözlemlenebilirlik, üretken yapay zeka yatırımının geri dönüşünü garanti altına alan kontrol mekanizmasıdır.

Sıkça Sorulan Sorular

LLM gözlemlenebilirliği ile geleneksel APM arasındaki fark nedir?

Geleneksel APM sistem sağlığını (CPU, gecikme, hata oranı) ölçer; LLM gözlemlenebilirliği bunlara ek olarak prompt içeriğini, token tüketimini, maliyeti ve yanıt kalitesini izler. Bir LLM çağrısı HTTP 200 dönse de halüsinasyon üretebilir; bu nedenle başarı sistem değil içerik düzeyinde değerlendirilir.

Prompt önbelleği maliyeti ne kadar düşürür?

Önbellekten okunan token’lar normal girdi fiyatının %10 ile %25’i kadar ücretlendirilir. Yüksek tekrar oranına sahip uygulamalarda toplam faturada %40 ile %70 arasında düşüş sağlar. Sabit sistem prompt’ları ve değişmeyen bağlam önbelleğe alınmalıdır.

LLM-as-a-judge yöntemi güvenilir midir?

LLM-as-a-judge insan değerlendirmesiyle tipik olarak %80 ile %90 uyum gösterir ve ölçeklenebilir tek değerlendirme yöntemidir. Güvenilirliği artırmak için örnek bazlı puanlama rubriği ve düzenli insan kalibrasyonu gerektirir.

Prompt içeriğini loglamak gizlilik açısından güvenli mi?

Maskelenmeden loglanan prompt’lar KVKK ve GDPR ihlali oluşturur. Span yazılmadan önce e-posta, telefon, kimlik ve kart numarası gibi PII desenleri otomatik maskelenmeli, saklama süresi 30-90 günle sınırlanmalı ve hassas alanlar şifrelenmelidir.

Hangi metrikler ortalama yerine yüzdelik olarak izlenmeli?

Gecikme metrikleri her zaman p95 ve p99 yüzdelikleri olarak izlenir. Ortalama gecikme, az sayıda çok yavaş isteğin (uzun kuyruk) yarattığı kullanıcı deneyimi sorununu gizler. Maliyet için ise hem ortalama hem de istek başı maksimum takip edilir.

Ömer ÖNAL

Yazılım Mimarı | Yapay Zeka LLC. Ölçeklenebilir SaaS, .NET Core altyapıları ve Otonom AI süreçleri inşa ediyorum. Kod değil, sistem tasarlarım.

Yorum (1)

  1. Ömer ÖNAL
    Haziran 5, 2026

    Sahada gördüğüm en pahalı hata, LLM faturasını tek kalem olarak izlemek. Her çağrıya kiracı ve prompt kimliği eklemeden hangi müşterinin ya da hangi özelliğin parayı yaktığını asla göremezsiniz. İlk haftada sadece prompt önbelleğini doğru kurarak faturanın yarısını kestiğim projeler oldu. Önce ölçün, sonra optimize edin; tersi her zaman para ve güven kaybettirir.

Yorum Yap

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir