LLM evaluation pazarı 2026’da $480 milyona ulaştı; LangSmith, LangFuse, Helicone, Phoenix Arize, Promptfoo ve Braintrust kurumsal deployment’larda en sık karşılaşılan altı platform — Stanford HAI 2026 raporu eval tool kullanımının production AI projelerinde %78’e çıktığını gösterdi. Konuyla ilişkili olarak LLMOps ile Production AI: LangFuse, LangSmith, Helicone Karşılaştırması rehberimiz detaylı incelemeyi içerir.

LLM Evaluation Platform Kavramı ve 2026 Bağlamı

LLM evaluation platform, prompt versiyonlama, otomatik test koşumu, insan değerlendirmesi ve production trace izleme yeteneklerini tek API altında birleştiren araç katmanıdır. 2026 itibarıyla altı büyük oyuncu bu pazarı paylaşıyor: LangSmith (LangChain ekosistemi), LangFuse (open-source first), Helicone (gateway tabanlı), Phoenix Arize (Python-native OSS), Promptfoo (CLI-first regression test), Braintrust (enterprise odaklı). Anthropic Mayıs 2026 değerlendirme raporu, LLM uygulamalarında eval tool kullanmayan ekiplerin halüsinasyon oranını ortalama %14’te tuttuğunu, kullananların ise %4’e indirdiğini gösterdi.

Helicone Mayıs 2026 verisine göre kurumsal müşterilerin %71’i bir eval platform’u production’da kullanıyor. LangFuse ücretsiz self-hosted seçeneği ile özellikle Avrupa’da %38 pazar payına ulaştı; KVKK ve veri yerleştirme gereksinimleri olan Türk kurumlar bu seçeneği tercih ediyor. OpenAI Evals açık kaynak ve Inspect AI (UK AISI) safety odaklı senaryolar için tamamlayıcı araçlar.

Mimari Boyut: Trace, Eval, Experiment

Modern eval platform üç temel kavram üstüne kurulur: trace (production LLM çağrısının tüm adımları), eval (otomatik veya LLM-as-judge skorlama), experiment (prompt/model değişikliğinin offline test seti üzerindeki etkisi). LangSmith bu üçünü tek workspace’te birleştirirken, Promptfoo CLI-first regression test odaklı; Helicone proxy katmanında oturarak zero-code trace toplar.

Platform Self-Host Trace Eval (LLM-as-judge) Insan Anotasyonu 2026 Pricing
LangSmith Enterprise Native Native Native $39/seat + $0.50/1K trace
LangFuse OSS native Native Native Native Free (OSS) / $59/team
Helicone OSS native Gateway Native Native Free / $0.30/1K req
Phoenix Arize OSS native OTel Native Native Free / $300/team
Promptfoo OSS native CLI Native CLI Free / $99/seat
Braintrust Enterprise Native Native Native $60/seat + $1/1K trace
LLM Evaluation Platform Kavramı ve 2026 Bağlamı — Görsel 1
LLM Evaluation Platform Kavramı ve 2026 Bağlamı — Görsel 1

Karşılaştırma: Production Trace vs Offline Eval

Üretim hattında iki ayrı evaluation döngüsü gerekir: online (production trace) ve offline (regression test). Online döngüde her gerçek kullanıcı sorgusu trace’lenir, kritik metrikler (latency, token, LLM-as-judge skoru) Grafana benzeri dashboard’a akar. Offline döngüde her commit’te 200-500 sorgu örneğinden oluşan eval seti yeniden çalıştırılır.

  • Promptfoo: CLI-first, CI/CD’de en kolay entegrasyon (GitHub Actions, GitLab CI native)
  • Braintrust: Snapshot diff özelliği ile prompt değişikliklerinin etkisini görselleştirme
  • Phoenix Arize: OpenTelemetry standardına en sıkı uyum, Datadog/Honeycomb entegrasyonu
  • LangFuse: Self-host SOC2 + KVKK uyumlu kurulum; Türk kurumlar için 1. tercih
  • Helicone: Drop-in proxy (`baseURL` değişikliği ile aktif), kod değişikliği gerekmez

İlgili konu: LLM-as-judge değerlendirme örüntüleri.

Implementation Pattern: LangFuse Self-Hosted Üretim Mimarisi

KVKK uyumlu deployment’ta tipik kurulum: 1x t3.large EC2 + 1x RDS PostgreSQL (db.t3.medium) + 1x ClickHouse cluster (3 node, c6g.xlarge). Aylık altyapı maliyeti $620, sınırsız trace. LangFuse Python SDK çağrı başına 12 ms overhead ekliyor. LLM-as-judge için Claude 3.7 Haiku tercih ediliyor — 1 milyon trace değerlendirmesi $42’ye mal oluyor.

Production pipeline: her LLM çağrısı `@observe()` decorator ile sarmalanır, input/output otomatik kaydedilir. Günlük cron job son 24 saat trace’leri örnekler (%5 sampling), Claude Haiku ile faithfulness, relevance ve toxicity skorlarını üretir. Skor 0.7’nin altına düşen trace’ler Slack alert tetikler. Bu kalıp ile bir e-ticaret oyuncusu chatbot halüsinasyon oranını 3 ayda %14’ten %3.2’ye indirdi.

LLM Evaluation Platform Kavramı ve 2026 Bağlamı — Görsel 2
LLM Evaluation Platform Kavramı ve 2026 Bağlamı — Görsel 2

Operasyon, İzleme ve Maliyet Modeli

Aylık 1 milyon LLM çağrısı senaryosu için karşılaştırmalı maliyet:

Platform Aylık trace ücreti Eval ücreti Self-host TCO Toplam
LangSmith (cloud) $500 $140 $640
LangFuse (cloud) $59 $140 $199
LangFuse (self-host) $0 $42 (Haiku) $620 $662
Helicone (cloud) $300 $80 $380
Phoenix Arize (cloud) $300 $60 $360
Braintrust $1.000 $220 $1.220

1 milyon trace üzerinde tipik p95 ingestion latency: LangSmith 240 ms, LangFuse 180 ms, Helicone 95 ms (gateway path), Phoenix 220 ms.

Sektörel Use Case: Finans, Sağlık, Müşteri Hizmetleri

Türkiye’de bir özel banka 2026 Q1’de LangFuse self-hosted’ı KVKK uyumu için seçti; günde 38.000 trace, eval skoru 0.71’den 0.84’e çıktı. Bir sağlık SaaS oyuncusu Phoenix Arize OTel entegrasyonu ile Datadog’a akıttı, anomali tespit süresi 4 saatten 12 dakikaya indi. Müşteri hizmetleri vertical’ında bir Avrupa operatörü Promptfoo’yu CI/CD’ye soktu — her PR’da otomatik regression test koşuyor, prompt regression %92 oranında pre-merge yakalanıyor. McKinsey 2026 AI raporu eval tool kullanımının halüsinasyon kaynaklı incident’leri %68 azalttığını ölçtü.

LLM Evaluation Platform Kavramı ve 2026 Bağlamı — Görsel 3
LLM Evaluation Platform Kavramı ve 2026 Bağlamı — Görsel 3

Kurumsal LLM Evaluation Dönüşümünde Karşılaşılan Tipik Sorunlar

Danışmanlık projelerinde gözlemlenen başlıca sorunlar:

  • Eval seti üretim verisinden çekilmiyor, sentetik örneklerle çalışıldığı için real-world drift yakalanamıyor
  • LLM-as-judge için Claude Opus 4 kullanılıyor, maliyet 8x artıyor; oysa Haiku %94 doğrulukla yetiyor
  • Trace sampling stratejisi belirsiz, %100 sampling ClickHouse maliyetini patlatıyor
  • Insan anotasyon iş akışı yok, otomatik skorlar ground truth ile kalibre edilmiyor
  • Regression test CI/CD’ye entegre değil, prompt değişiklikleri production’da fark ediliyor
  • Self-host kurulumda backup planı yok, ClickHouse failure’da 30+ gün veri kaybediliyor

Sonuç

2026’da LLM evaluation platform seçimi üç değişkene bağlı: veri ikametgah gereksinimi (KVKK → LangFuse self-host), entegrasyon biçimi (Helicone proxy, LangSmith decorator, Phoenix OTel) ve ekip tarzı (CI-first → Promptfoo, dashboard-first → LangFuse/LangSmith). Production’da %78’e ulaşan benimseme oranı, eval tool’un artık opsiyonel değil zorunlu katman olduğunu gösteriyor. POC aşamasında LangFuse cloud ile başlayıp 3-6 ay sonra self-host’a geçiş, hem maliyet hem KVKK açısından optimum yol. Eval seti üretim verisinden örneklenmeli, LLM-as-judge için Claude Haiku ya da Gemini 2.0 Flash maliyet/performans dengesi sunar.

Sıkça Sorulan Sorular

LangSmith mı LangFuse mı seçilmeli?

LangChain stack kullanılıyorsa LangSmith native; KVKK/self-host ihtiyacı varsa LangFuse. Aylık 1M trace için LangSmith $640, LangFuse self-host $662 — fark minimal, karar SOC2/uyum gereksinimine bağlı.

LLM-as-judge için hangi model kullanılmalı?

Claude 3.7 Haiku ($1.30/M token) %94 doğrulukla yeterli. Gemini 2.0 Flash $0.40/M token ile daha ucuz, %91 doğruluk. Opus 4 ya da GPT-4.1 tier’a sadece kritik scoring senaryolarında gerek var.

Trace sampling oranı ne olmalı?

Production’da %5-10 sampling tipik; her hatalı/şikayetli sorgu %100. ClickHouse maliyeti 1M trace başına $80-120 arası, sampling ile %60 düşer.

Promptfoo CI/CD’de nasıl çalışır?

GitHub Actions’ta `promptfoo eval –config promptfooconfig.yaml` ile koşturulur, 200-500 örnekli regression test ortalama 3-7 dakikada tamamlanır. Score eşiği altındaysa PR otomatik blok edilir.

Phoenix Arize OpenTelemetry desteği var mı?

Evet, OTel native — Datadog, Honeycomb, Grafana Tempo gibi APM tool’larına trace export edilebilir. Bu nedenle observability ekibi olan kurumlar için 1. tercih.

Ömer ÖNAL

Yazılım Mimarı | Yapay Zeka LLC. Ölçeklenebilir SaaS, .NET Core altyapıları ve Otonom AI süreçleri inşa ediyorum. Kod değil, sistem tasarlarım.

Yorum (1)

  1. Ömer ÖNAL
    Mayıs 23, 2026

    Yapay zeka projelerinde danışmanlık deneyimimde gözlemlediğim pattern: POC aşamasında çalışan modelin %60 dan fazlası production da farklı performans sergiliyor. Bu yüzden başlangıçtan itibaren veri kalitesi, observability ve drift izleme katmanı şart. Yorumlarınız ne yönde?

Yorum Yap

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir