LLM evaluation pazarı 2026’da $480 milyona ulaştı; LangSmith, LangFuse, Helicone, Phoenix Arize, Promptfoo ve Braintrust kurumsal deployment’larda en sık karşılaşılan altı platform — Stanford HAI 2026 raporu eval tool kullanımının production AI projelerinde %78’e çıktığını gösterdi. Konuyla ilişkili olarak LLMOps ile Production AI: LangFuse, LangSmith, Helicone Karşılaştırması rehberimiz detaylı incelemeyi içerir.
LLM Evaluation Platform Kavramı ve 2026 Bağlamı
LLM evaluation platform, prompt versiyonlama, otomatik test koşumu, insan değerlendirmesi ve production trace izleme yeteneklerini tek API altında birleştiren araç katmanıdır. 2026 itibarıyla altı büyük oyuncu bu pazarı paylaşıyor: LangSmith (LangChain ekosistemi), LangFuse (open-source first), Helicone (gateway tabanlı), Phoenix Arize (Python-native OSS), Promptfoo (CLI-first regression test), Braintrust (enterprise odaklı). Anthropic Mayıs 2026 değerlendirme raporu, LLM uygulamalarında eval tool kullanmayan ekiplerin halüsinasyon oranını ortalama %14’te tuttuğunu, kullananların ise %4’e indirdiğini gösterdi.
Helicone Mayıs 2026 verisine göre kurumsal müşterilerin %71’i bir eval platform’u production’da kullanıyor. LangFuse ücretsiz self-hosted seçeneği ile özellikle Avrupa’da %38 pazar payına ulaştı; KVKK ve veri yerleştirme gereksinimleri olan Türk kurumlar bu seçeneği tercih ediyor. OpenAI Evals açık kaynak ve Inspect AI (UK AISI) safety odaklı senaryolar için tamamlayıcı araçlar.
Mimari Boyut: Trace, Eval, Experiment
Modern eval platform üç temel kavram üstüne kurulur: trace (production LLM çağrısının tüm adımları), eval (otomatik veya LLM-as-judge skorlama), experiment (prompt/model değişikliğinin offline test seti üzerindeki etkisi). LangSmith bu üçünü tek workspace’te birleştirirken, Promptfoo CLI-first regression test odaklı; Helicone proxy katmanında oturarak zero-code trace toplar.
| Platform | Self-Host | Trace | Eval (LLM-as-judge) | Insan Anotasyonu | 2026 Pricing |
|---|---|---|---|---|---|
| LangSmith | Enterprise | Native | Native | Native | $39/seat + $0.50/1K trace |
| LangFuse | OSS native | Native | Native | Native | Free (OSS) / $59/team |
| Helicone | OSS native | Gateway | Native | Native | Free / $0.30/1K req |
| Phoenix Arize | OSS native | OTel | Native | Native | Free / $300/team |
| Promptfoo | OSS native | CLI | Native | CLI | Free / $99/seat |
| Braintrust | Enterprise | Native | Native | Native | $60/seat + $1/1K trace |

Karşılaştırma: Production Trace vs Offline Eval
Üretim hattında iki ayrı evaluation döngüsü gerekir: online (production trace) ve offline (regression test). Online döngüde her gerçek kullanıcı sorgusu trace’lenir, kritik metrikler (latency, token, LLM-as-judge skoru) Grafana benzeri dashboard’a akar. Offline döngüde her commit’te 200-500 sorgu örneğinden oluşan eval seti yeniden çalıştırılır.
- Promptfoo: CLI-first, CI/CD’de en kolay entegrasyon (GitHub Actions, GitLab CI native)
- Braintrust: Snapshot diff özelliği ile prompt değişikliklerinin etkisini görselleştirme
- Phoenix Arize: OpenTelemetry standardına en sıkı uyum, Datadog/Honeycomb entegrasyonu
- LangFuse: Self-host SOC2 + KVKK uyumlu kurulum; Türk kurumlar için 1. tercih
- Helicone: Drop-in proxy (`baseURL` değişikliği ile aktif), kod değişikliği gerekmez
İlgili konu: LLM-as-judge değerlendirme örüntüleri.
Implementation Pattern: LangFuse Self-Hosted Üretim Mimarisi
KVKK uyumlu deployment’ta tipik kurulum: 1x t3.large EC2 + 1x RDS PostgreSQL (db.t3.medium) + 1x ClickHouse cluster (3 node, c6g.xlarge). Aylık altyapı maliyeti $620, sınırsız trace. LangFuse Python SDK çağrı başına 12 ms overhead ekliyor. LLM-as-judge için Claude 3.7 Haiku tercih ediliyor — 1 milyon trace değerlendirmesi $42’ye mal oluyor.
Production pipeline: her LLM çağrısı `@observe()` decorator ile sarmalanır, input/output otomatik kaydedilir. Günlük cron job son 24 saat trace’leri örnekler (%5 sampling), Claude Haiku ile faithfulness, relevance ve toxicity skorlarını üretir. Skor 0.7’nin altına düşen trace’ler Slack alert tetikler. Bu kalıp ile bir e-ticaret oyuncusu chatbot halüsinasyon oranını 3 ayda %14’ten %3.2’ye indirdi.

Operasyon, İzleme ve Maliyet Modeli
Aylık 1 milyon LLM çağrısı senaryosu için karşılaştırmalı maliyet:
| Platform | Aylık trace ücreti | Eval ücreti | Self-host TCO | Toplam |
|---|---|---|---|---|
| LangSmith (cloud) | $500 | $140 | — | $640 |
| LangFuse (cloud) | $59 | $140 | — | $199 |
| LangFuse (self-host) | $0 | $42 (Haiku) | $620 | $662 |
| Helicone (cloud) | $300 | $80 | — | $380 |
| Phoenix Arize (cloud) | $300 | $60 | — | $360 |
| Braintrust | $1.000 | $220 | — | $1.220 |
1 milyon trace üzerinde tipik p95 ingestion latency: LangSmith 240 ms, LangFuse 180 ms, Helicone 95 ms (gateway path), Phoenix 220 ms.
Sektörel Use Case: Finans, Sağlık, Müşteri Hizmetleri
Türkiye’de bir özel banka 2026 Q1’de LangFuse self-hosted’ı KVKK uyumu için seçti; günde 38.000 trace, eval skoru 0.71’den 0.84’e çıktı. Bir sağlık SaaS oyuncusu Phoenix Arize OTel entegrasyonu ile Datadog’a akıttı, anomali tespit süresi 4 saatten 12 dakikaya indi. Müşteri hizmetleri vertical’ında bir Avrupa operatörü Promptfoo’yu CI/CD’ye soktu — her PR’da otomatik regression test koşuyor, prompt regression %92 oranında pre-merge yakalanıyor. McKinsey 2026 AI raporu eval tool kullanımının halüsinasyon kaynaklı incident’leri %68 azalttığını ölçtü.

Kurumsal LLM Evaluation Dönüşümünde Karşılaşılan Tipik Sorunlar
Danışmanlık projelerinde gözlemlenen başlıca sorunlar:
- Eval seti üretim verisinden çekilmiyor, sentetik örneklerle çalışıldığı için real-world drift yakalanamıyor
- LLM-as-judge için Claude Opus 4 kullanılıyor, maliyet 8x artıyor; oysa Haiku %94 doğrulukla yetiyor
- Trace sampling stratejisi belirsiz, %100 sampling ClickHouse maliyetini patlatıyor
- Insan anotasyon iş akışı yok, otomatik skorlar ground truth ile kalibre edilmiyor
- Regression test CI/CD’ye entegre değil, prompt değişiklikleri production’da fark ediliyor
- Self-host kurulumda backup planı yok, ClickHouse failure’da 30+ gün veri kaybediliyor
Sonuç
2026’da LLM evaluation platform seçimi üç değişkene bağlı: veri ikametgah gereksinimi (KVKK → LangFuse self-host), entegrasyon biçimi (Helicone proxy, LangSmith decorator, Phoenix OTel) ve ekip tarzı (CI-first → Promptfoo, dashboard-first → LangFuse/LangSmith). Production’da %78’e ulaşan benimseme oranı, eval tool’un artık opsiyonel değil zorunlu katman olduğunu gösteriyor. POC aşamasında LangFuse cloud ile başlayıp 3-6 ay sonra self-host’a geçiş, hem maliyet hem KVKK açısından optimum yol. Eval seti üretim verisinden örneklenmeli, LLM-as-judge için Claude Haiku ya da Gemini 2.0 Flash maliyet/performans dengesi sunar.
Sıkça Sorulan Sorular
LangSmith mı LangFuse mı seçilmeli?
LangChain stack kullanılıyorsa LangSmith native; KVKK/self-host ihtiyacı varsa LangFuse. Aylık 1M trace için LangSmith $640, LangFuse self-host $662 — fark minimal, karar SOC2/uyum gereksinimine bağlı.
LLM-as-judge için hangi model kullanılmalı?
Claude 3.7 Haiku ($1.30/M token) %94 doğrulukla yeterli. Gemini 2.0 Flash $0.40/M token ile daha ucuz, %91 doğruluk. Opus 4 ya da GPT-4.1 tier’a sadece kritik scoring senaryolarında gerek var.
Trace sampling oranı ne olmalı?
Production’da %5-10 sampling tipik; her hatalı/şikayetli sorgu %100. ClickHouse maliyeti 1M trace başına $80-120 arası, sampling ile %60 düşer.
Promptfoo CI/CD’de nasıl çalışır?
GitHub Actions’ta `promptfoo eval –config promptfooconfig.yaml` ile koşturulur, 200-500 örnekli regression test ortalama 3-7 dakikada tamamlanır. Score eşiği altındaysa PR otomatik blok edilir.
Phoenix Arize OpenTelemetry desteği var mı?
Evet, OTel native — Datadog, Honeycomb, Grafana Tempo gibi APM tool’larına trace export edilebilir. Bu nedenle observability ekibi olan kurumlar için 1. tercih.










Ömer ÖNAL
Mayıs 23, 2026Yapay zeka projelerinde danışmanlık deneyimimde gözlemlediğim pattern: POC aşamasında çalışan modelin %60 dan fazlası production da farklı performans sergiliyor. Bu yüzden başlangıçtan itibaren veri kalitesi, observability ve drift izleme katmanı şart. Yorumlarınız ne yönde?