LLM Gözlemlenebilirliği Nedir ve Neden 2026’da Zorunlu Hale Geldi?
LLM gözlemlenebilirliği, üretim ortamındaki büyük dil modeli uygulamalarının her isteğini, prompt’unu, token tüketimini, gecikmesini ve maliyetini uçtan uca izleyen disiplindir. Geleneksel APM araçlarının aksine, prompt içeriğini, model yanıt kalitesini ve token bazlı harcamayı birlikte değerlendirir. 2026 itibarıyla LLM API maliyetleri tipik bir orta ölçekli üretim uygulamasında aylık 15.000 ile 120.000 dolar arasına ulaştığından, bu harcamanın nereye gittiğini görmeden yönetmek imkansız hale gelir. Gartner’a göre üretken yapay zeka projelerinin yaklaşık %30’u maliyet kontrolsüzlüğü ve ölçülemeyen kalite nedeniyle proof-of-concept aşamasını geçemez. Gözlemlenebilirlik, bu başarısızlık oranını düşüren ilk savunma hattını oluşturur.
Klasik mikroservis izlemesinde üç ayak vardır: metrik, log ve trace. LLM dünyasında buna dördüncü bir ayak eklenir: prompt ve yanıt içeriğinin kendisi. Bir HTTP 200 yanıtı teknik olarak başarılı görünse de, modelin halüsinasyon ürettiği veya formatı bozduğu durumlarda iş mantığı açısından tamamen başarısızdır. Bu nedenle LLM gözlemlenebilirliği, sistem sağlığını değil yanıt kalitesini ölçer.
Bir LLM uygulaması üretime alındığında üç boyutta görünmezlik riski oluşur. Birincisi maliyet kör noktasıdır: token tüketimi her istekte değişken olduğundan, aylık fatura tahmin edilemez biçimde dalgalanır. İkincisi kalite kör noktasıdır: modelin yanıt kalitesi sessizce gerilese de standart HTTP metrikleri bunu yakalamaz. Üçüncüsü davranış kör noktasıdır: bir prompt değişikliği veya model güncellemesi tüm sistemin davranışını değiştirebilir ve neden-sonuç ilişkisi izlenemezse hata ayıklamak imkansızlaşır. Gözlemlenebilirlik bu üç kör noktayı eşzamanlı kapatan tek disiplindir ve bu nedenle 2026’da bir lüks değil, üretim ön koşuludur.

İzlenmesi Gereken Temel Metrikler ve Sayısal Hedefler
Üretim ortamında bir LLM uygulamasını sağlıklı tutmak için dört kategoride metrik toplanır: maliyet, gecikme, kalite ve güvenilirlik. Aşağıdaki tablo her metriğin tipik sağlıklı aralığını ve alarm eşiğini gösterir.
| Metrik | Kategori | Sağlıklı Aralık | Alarm Eşiği | Ölçüm Birimi |
|---|---|---|---|---|
| İlk token gecikmesi (TTFT) | Gecikme | 200-800 ms | >1500 ms | milisaniye |
| Token başına çıktı süresi | Gecikme | 15-40 ms/token | >80 ms/token | milisaniye |
| İstek başı ortalama maliyet | Maliyet | 0,002-0,03 USD | >0,08 USD | dolar |
| Bağlam penceresi doluluk oranı | Maliyet | %30-65 | >%85 | yüzde |
| Halüsinasyon oranı | Kalite | %1-5 | >%10 | yüzde |
| Hata + zaman aşımı oranı | Güvenilirlik | %0,1-1 | >%3 | yüzde |
Bu metriklerin tamamını toplamak için her LLM çağrısı bir span olarak kaydedilir. Span’lar şu alanları içerir:
- Girdi token sayısı ve çıktı token sayısı — maliyet hesabının temeli.
- Model adı ve sürümü — model değişikliklerinin etkisini izole etmek için.
- Prompt şablonu kimliği — hangi prompt versiyonunun çalıştığını ayırt etmek için.
- Kullanıcı veya kiracı kimliği — maliyet dağılımını müşteri bazında çıkarmak için.
- Önbellek vuruşu (cache hit) bayrağı — prompt önbelleğinin tasarruf etkisini ölçmek için.

Maliyet Takibinin Anatomisi: Token, Önbellek ve Model Seçimi
LLM maliyetinin tamamı token üzerinden hesaplanır ve girdi token’ı genellikle çıktı token’ından 3 ila 5 kat daha ucuzdur. Bu asimetri, maliyet optimizasyonunun büyük kısmının çıktı uzunluğunu disipline etmekten geçtiği anlamına gelir. 2026’da yaygın modellerin yaklaşık fiyat aralıkları şöyledir:
| Model Sınıfı | Girdi (1M token) | Çıktı (1M token) | Bağlam Penceresi | Tipik Kullanım |
|---|---|---|---|---|
| Üst seviye reasoning | 3-15 USD | 15-75 USD | 200K+ | Karmaşık analiz, ajan |
| Dengeli orta sınıf | 0,5-3 USD | 2-12 USD | 128K | Genel sohbet, RAG |
| Hafif / hızlı | 0,05-0,5 USD | 0,2-2 USD | 32-128K | Sınıflandırma, özet |
| Açık kaynak (self-host) | GPU maliyeti | GPU maliyeti | 8-128K | Yüksek hacim, gizlilik |
| Embedding modeli | 0,01-0,13 USD | — | — | Vektör arama |
Prompt önbelleği (prompt caching) maliyet düşürmenin en etkili tek tekniğidir. Tekrarlanan sistem prompt’ları ve sabit bağlam önbelleğe alındığında, önbellekten okunan token’lar normal girdi fiyatının %10 ila %25’i kadar ücretlendirilir. Yüksek tekrar oranına sahip uygulamalarda bu, toplam faturada %40 ila %70 düşüş sağlar. OpenAI prompt caching dokümantasyonu ve diğer sağlayıcıların resmi rehberleri, önbellek anahtarının prompt’un sabit önekiyle eşleşmesi gerektiğini belirtir; bu nedenle değişken içerik her zaman prompt’un sonuna yerleştirilir.
Maliyet Atfı (Cost Attribution) Nasıl Yapılır?
Çok kiracılı bir SaaS’ta toplam fatura anlamlı değildir; asıl soru hangi müşterinin ne kadar harcadığıdır. Her span’a kiracı kimliği eklemek, maliyeti müşteri, özellik ve uç nokta bazında parçalamayı sağlar. Bu sayede kârsız kullanım desenleri tespit edilir ve fiyatlandırma planları gerçek tüketime göre yeniden tasarlanır.
Model Yönlendirme (Routing) ile Maliyet Düşürme
Her isteği en güçlü modele göndermek maliyeti gereksiz şişirir. Akıllı bir yönlendirme katmanı, isteğin karmaşıklığını sınıflandırır ve basit sorguları hafif modele, karmaşık reasoning gerektiren sorguları üst seviye modele yönlendirir. Bu kademeli yaklaşım, kalite kaybı olmadan toplam maliyette %30 ile %60 arasında düşüş sağlayabilir. Yönlendirme kararının kendisi düşük gecikmeli bir sınıflandırıcıyla yapılır ve her span’a hangi modelin neden seçildiği kaydedilir; böylece yönlendirme kalitesi de izlenebilir hale gelir. Aşağıdaki tablo tipik bir maliyet optimizasyon tekniği setinin etkisini özetler.
| Teknik | Maliyet Etkisi | Kalite Etkisi | Uygulama Zorluğu | Risk |
|---|---|---|---|---|
| Prompt önbelleği | %40-70 düşüş | Yok | Düşük | Çok düşük |
| Model yönlendirme | %30-60 düşüş | Hafif risk | Orta | Düşük |
| Çıktı uzunluğu sınırı | %10-30 düşüş | Orta risk | Düşük | Orta |
| Bağlam budama (pruning) | %15-40 düşüş | Düşük risk | Orta | Düşük |
| Toplu işleme (batch API) | %50’ye kadar | Yok | Düşük | Gecikme artar |
Bu tekniklerin etkisi ancak gözlemlenebilirlik altyapısı varsa kanıtlanabilir; aksi halde optimizasyonun gerçekten işe yarayıp yaramadığı bilinemez. Bu nedenle maliyet optimizasyonu ve gözlemlenebilirlik birbirinden ayrılamaz iki süreçtir.

Araç Ekosistemi: OpenTelemetry, LangSmith, Langfuse ve Helicone
LLM gözlemlenebilirliği için araç seçimi, açık standartlara bağlılık ile hazır özellik zenginliği arasındaki dengeye dayanır. OpenTelemetry’nin GenAI semantik konvansiyonları 2025-2026’da olgunlaşarak vendor-bağımsız bir temel oluşturdu. Aşağıdaki tablo öne çıkan araçları karşılaştırır.
| Araç | Model | OTel Uyumu | Self-host | Güçlü Yanı |
|---|---|---|---|---|
| Langfuse | Açık kaynak | Tam | Evet | Trace + değerlendirme + prompt yönetimi |
| LangSmith | Ticari | Kısmi | Hayır (bulut) | LangChain entegrasyonu, dataset |
| Helicone | Açık kaynak | Kısmi | Evet | Proxy bazlı, hızlı kurulum |
| Arize Phoenix | Açık kaynak | Tam | Evet | Embedding drift, değerlendirme |
| Datadog LLM Obs | Ticari | Tam | Hayır | Mevcut APM ile birleşik |
Proxy bazlı araçlar (Helicone gibi) uygulama koduna dokunmadan tüm LLM trafiğini bir ara katmandan geçirir; kurulumu dakikalar alır ancak gecikmeye birkaç milisaniye ekler. SDK bazlı araçlar (Langfuse, LangSmith) daha zengin span verisi toplar ama kod enstrümantasyonu gerektirir. Üretim mimarisinde önerilen yaklaşım, OpenTelemetry tabanlı bir SDK ile enstrümante edip verileri tercih edilen arka uca yönlendirmektir; böylece araç değişiminde kod değişmez.
Araç seçiminde belirleyici olan üç soru vardır. Birincisi: verinin nerede saklanacağı. Hassas kurumsal veriyle çalışan ekipler için self-host edilebilen açık kaynak araçlar (Langfuse, Phoenix, Qdrant tabanlı çözümler) veri egemenliği açısından tek kabul edilebilir seçenektir. İkincisi: mevcut gözlemlenebilirlik yığınıyla bütünleşme. Halihazırda Datadog veya Grafana kullanan bir ekip için, LLM verisini aynı panoda gören bir entegrasyon, ayrı bir araç öğrenmekten daha değerlidir. Üçüncüsü: değerlendirme (evaluation) yeteneğinin derinliği. Sadece izleme değil, kalite ölçümü ve A/B testi gereken ekipler için yerleşik değerlendirme motoru olan araçlar öne çıkar. Bu üç soruyu yanıtlamak, araç ekosistemindeki seçenekleri hızla daraltır.
- Uygulamaya OpenTelemetry GenAI enstrümantasyonu ekle.
- Her LLM çağrısını otomatik span’a dönüştür (model, token, gecikme, prompt kimliği).
- Span’ları bir collector üzerinden gözlemlenebilirlik arka ucuna gönder.
- Maliyet ve kalite dashboard’ları kur, alarm eşiklerini tabloya göre ayarla.
Prompt İzleme ve Kalite Değerlendirme (Evaluation)
Maliyeti bilmek yeterli değildir; o maliyetin kaliteli yanıt ürettiğini de doğrulamak gerekir. Üretim ortamında kalite üç katmanda ölçülür. İlk katman deterministik kontroller: JSON şema doğrulaması, regex eşleşmesi, zorunlu alan varlığı. İkinci katman LLM-as-a-judge: ayrı bir modelin yanıtı doğruluk, alaka ve tonalite açısından puanlaması. Üçüncü katman insan geri bildirimi: kullanıcı beğeni/şikayet sinyallerinin span’a bağlanması.
LLM-as-a-judge yöntemi tipik olarak insan değerlendirmesiyle %80 ile %90 arasında uyum gösterir ve ölçeklenebilirlik açısından tek pratik seçenektir. Ancak yargıç modelin kendi önyargısını dengelemek için, örnek bazlı (few-shot) puanlama rubriği ve düzenli insan kalibrasyonu gerektirir. Açık kaynak değerlendirme çerçeveleri için Langfuse GitHub deposu ve enstrümantasyon için OpenTelemetry Python SDK’sı yaygın başlangıç noktalarıdır. Kalite skorları zaman serisi olarak izlendiğinde, bir model güncellemesi veya prompt değişikliğinin yol açtığı kalite gerilemesi (regression) saatler içinde tespit edilir.
Prompt Versiyonlama
Her prompt şablonu sürümlenir ve span’a şablon kimliği eklenir. Bu, A/B testlerinde hangi prompt versiyonunun daha düşük maliyetle daha yüksek kalite ürettiğini istatistiksel olarak karşılaştırmayı sağlar. Prompt’lar kod gibi sürümlendiğinde, geri alma (rollback) saniyeler sürer.

Gizlilik, PII Maskeleme ve Uyumluluk
Prompt içeriğini loglamak güçlü bir teşhis aracıdır ancak ciddi bir gizlilik riski taşır. Kullanıcı prompt’ları kredi kartı numarası, sağlık verisi veya kimlik bilgisi içerebilir. KVKK ve GDPR kapsamında, kişisel veri içeren prompt’lar maskelenmeden saklanırsa ihlal oluşur. Bu nedenle gözlemlenebilirlik katmanı, span kaydedilmeden önce PII tespit ve maskeleme adımı içermelidir. Pratikte e-posta, telefon, TC kimlik no ve kart numarası desenleri otomatik olarak yıldızlanır veya hash’lenir. Verilerin saklama süresi (retention) genellikle 30 ila 90 günle sınırlanır ve hassas alanlar şifrelenir.
Daha detaylı veri yönetimi pratikleri için vektör veritabanlarında veri saklama yaklaşımlarına ve AI ajan bellek mimarilerine göz atmak faydalıdır. RAG ile fine-tuning arasındaki maliyet dengesi ayrıca fine-tuning vs RAG karşılaştırmasında ele alınır.
Tipik Sorunlar ve Çözümleri
LLM gözlemlenebilirliği kurarken ekipler tekrar eden bir dizi sorunla karşılaşır. Aşağıdaki maddeler en sık görülen tuzakları ve doğrudan çözümlerini özetler.
- Span’ların maliyeti yanlış hesaplaması: Token sayısı sağlayıcının döndürdüğü
usagealanından alınmalı, tahminle hesaplanmamalıdır. Streaming yanıtlarda token sayısı yanıt sonunda toplanır. - Bağlam penceresi sessizce dolması: Bağlam doluluk oranı %85’i geçince alarm kurulur; aksi halde model girdiyi kırpar ve kalite düşer.
- Önbellek vuruşunun düşük olması: Değişken içerik prompt’un başına yerleştirilirse önbellek hiç çalışmaz; sabit önek başa, değişken kısım sona alınır.
- PII’nin loglara sızması: Maskeleme span yazımından önce yapılmalı; sonradan temizlik gecikmeli ve eksik kalır.
- Trace’lerin örnekleme (sampling) ile kaybolması: Hatalı ve yüksek maliyetli istekler her zaman tam kaydedilmeli, örnekleme yalnızca başarılı düşük maliyetli isteklere uygulanmalıdır.
- Gecikme metriğinin yanıltıcı olması: Ortalama yerine p95 ve p99 yüzdelikleri izlenir; ortalama, uzun kuyruk gecikmelerini gizler.
Sonuç
LLM gözlemlenebilirliği, üretken yapay zeka uygulamalarını deneysel prototipten güvenilir üretim sistemine dönüştüren temel disiplindir. Token bazlı maliyet takibi, prompt versiyonlama, kalite değerlendirmesi ve PII maskelemesi birlikte uygulandığında hem fatura kontrol altına alınır hem de yanıt kalitesi ölçülebilir hale gelir. OpenTelemetry’nin GenAI semantik konvansiyonlarını temel almak, araç bağımlılığını ortadan kaldırarak uzun vadeli esneklik sağlar. 2026’da ölçülmeyen LLM harcaması artık kabul edilebilir bir risk değildir; gözlemlenebilirlik, üretken yapay zeka yatırımının geri dönüşünü garanti altına alan kontrol mekanizmasıdır.
Sıkça Sorulan Sorular
LLM gözlemlenebilirliği ile geleneksel APM arasındaki fark nedir?
Geleneksel APM sistem sağlığını (CPU, gecikme, hata oranı) ölçer; LLM gözlemlenebilirliği bunlara ek olarak prompt içeriğini, token tüketimini, maliyeti ve yanıt kalitesini izler. Bir LLM çağrısı HTTP 200 dönse de halüsinasyon üretebilir; bu nedenle başarı sistem değil içerik düzeyinde değerlendirilir.
Prompt önbelleği maliyeti ne kadar düşürür?
Önbellekten okunan token’lar normal girdi fiyatının %10 ile %25’i kadar ücretlendirilir. Yüksek tekrar oranına sahip uygulamalarda toplam faturada %40 ile %70 arasında düşüş sağlar. Sabit sistem prompt’ları ve değişmeyen bağlam önbelleğe alınmalıdır.
LLM-as-a-judge yöntemi güvenilir midir?
LLM-as-a-judge insan değerlendirmesiyle tipik olarak %80 ile %90 uyum gösterir ve ölçeklenebilir tek değerlendirme yöntemidir. Güvenilirliği artırmak için örnek bazlı puanlama rubriği ve düzenli insan kalibrasyonu gerektirir.
Prompt içeriğini loglamak gizlilik açısından güvenli mi?
Maskelenmeden loglanan prompt’lar KVKK ve GDPR ihlali oluşturur. Span yazılmadan önce e-posta, telefon, kimlik ve kart numarası gibi PII desenleri otomatik maskelenmeli, saklama süresi 30-90 günle sınırlanmalı ve hassas alanlar şifrelenmelidir.
Hangi metrikler ortalama yerine yüzdelik olarak izlenmeli?
Gecikme metrikleri her zaman p95 ve p99 yüzdelikleri olarak izlenir. Ortalama gecikme, az sayıda çok yavaş isteğin (uzun kuyruk) yarattığı kullanıcı deneyimi sorununu gizler. Maliyet için ise hem ortalama hem de istek başı maksimum takip edilir.










Ömer ÖNAL
Haziran 5, 2026Sahada gördüğüm en pahalı hata, LLM faturasını tek kalem olarak izlemek. Her çağrıya kiracı ve prompt kimliği eklemeden hangi müşterinin ya da hangi özelliğin parayı yaktığını asla göremezsiniz. İlk haftada sadece prompt önbelleğini doğru kurarak faturanın yarısını kestiğim projeler oldu. Önce ölçün, sonra optimize edin; tersi her zaman para ve güven kaybettirir.