LLM Evaluation Platform Kavramı ve 2026 Bağlamı Rehberi

Q: Promptfoo CI/CD'de nasıl çalışır?

GitHub Actions'ta promptfoo eval --config promptfooconfig.yaml ile koşturulur, 200-500 örnekli regression test ortalama 3-7 dakikada tamamlanır. Score eşiği altındaysa PR otomatik blok edilir.

Yapay Zeka & LLM

Haziran 13, 2026Ömer ÖNAL1 Yorum

LLM evaluation pazarı 2026’da $480 milyona ulaştı; LangSmith, LangFuse, Helicone, Phoenix Arize, Promptfoo ve Braintrust kurumsal deployment’larda en sık karşılaşılan altı platform — Stanford HAI 2026 raporu eval tool kullanımının production AI projelerinde %78’e çıktığını gösterdi. Konuyla ilişkili olarak LLMOps ile Production AI: LangFuse, LangSmith, Helicone Karşılaştırması rehberimiz detaylı incelemeyi içerir.

📖 6 dakikalık okuma

İçindekiler

LLM Evaluation Platform Kavramı ve 2026 Bağlamı
Mimari Boyut: Trace, Eval, Experiment
Karşılaştırma: Production Trace vs Offline Eval
Implementation Pattern: LangFuse Self-Hosted Üretim Mimarisi
Operasyon, İzleme ve Maliyet Modeli
Sektörel Use Case: Finans, Sağlık, Müşteri Hizmetleri
Kurumsal LLM Evaluation Dönüşümünde Karşılaşılan Tipik Sorunlar
Sonuç
Sıkça Sorulan Sorular

LLM Evaluation Platform Kavramı ve 2026 Bağlamı

LLM evaluation platform, prompt versiyonlama, otomatik test koşumu, insan değerlendirmesi ve production trace izleme yeteneklerini tek API altında birleştiren araç katmanıdır. 2026 itibarıyla altı büyük oyuncu bu pazarı paylaşıyor: LangSmith (LangChain ekosistemi), LangFuse (open-source first), Helicone (gateway tabanlı), Phoenix Arize (Python-native OSS), Promptfoo (CLI-first regression test), Braintrust (enterprise odaklı). Anthropic Mayıs 2026 değerlendirme raporu, LLM uygulamalarında eval tool kullanmayan ekiplerin halüsinasyon oranını ortalama %14’te tuttuğunu, kullananların ise %4’e indirdiğini gösterdi.

Helicone Mayıs 2026 verisine göre kurumsal müşterilerin %71’i bir eval platform’u production’da kullanıyor. LangFuse ücretsiz self-hosted seçeneği ile özellikle Avrupa’da %38 pazar payına ulaştı; KVKK ve veri yerleştirme gereksinimleri olan Türk kurumlar bu seçeneği tercih ediyor. OpenAI Evals açık kaynak ve Inspect AI (UK AISI) safety odaklı senaryolar için tamamlayıcı araçlar.

Mimari Boyut: Trace, Eval, Experiment

Modern eval platform üç temel kavram üstüne kurulur: trace (production LLM çağrısının tüm adımları), eval (otomatik veya LLM-as-judge skorlama), experiment (prompt/model değişikliğinin offline test seti üzerindeki etkisi). LangSmith bu üçünü tek workspace’te birleştirirken, Promptfoo CLI-first regression test odaklı; Helicone proxy katmanında oturarak zero-code trace toplar.

Platform	Self-Host	Trace	Eval (LLM-as-judge)	Insan Anotasyonu	2026 Pricing
LangSmith	Enterprise	Native	Native	Native	$39/seat + $0.50/1K trace
LangFuse	OSS native	Native	Native	Native	Free (OSS) / $59/team
Helicone	OSS native	Gateway	Native	Native	Free / $0.30/1K req
Phoenix Arize	OSS native	OTel	Native	Native	Free / $300/team
Promptfoo	OSS native	CLI	Native	CLI	Free / $99/seat
Braintrust	Enterprise	Native	Native	Native	$60/seat + $1/1K trace

LLM Evaluation Platform Kavramı ve 2026 Bağlamı — Görsel 1

Karşılaştırma: Production Trace vs Offline Eval

Üretim hattında iki ayrı evaluation döngüsü gerekir: online (production trace) ve offline (regression test). Online döngüde her gerçek kullanıcı sorgusu trace’lenir, kritik metrikler (latency, token, LLM-as-judge skoru) Grafana benzeri dashboard’a akar. Offline döngüde her commit’te 200-500 sorgu örneğinden oluşan eval seti yeniden çalıştırılır.

Promptfoo: CLI-first, CI/CD’de en kolay entegrasyon (GitHub Actions, GitLab CI native)
Braintrust: Snapshot diff özelliği ile prompt değişikliklerinin etkisini görselleştirme
Phoenix Arize: OpenTelemetry standardına en sıkı uyum, Datadog/Honeycomb entegrasyonu
LangFuse: Self-host SOC2 + KVKK uyumlu kurulum; Türk kurumlar için 1. tercih
Helicone: Drop-in proxy (`baseURL` değişikliği ile aktif), kod değişikliği gerekmez

İlgili konu: LLM-as-judge değerlendirme örüntüleri.

Implementation Pattern: LangFuse Self-Hosted Üretim Mimarisi

KVKK uyumlu deployment’ta tipik kurulum: 1x t3.large EC2 + 1x RDS PostgreSQL (db.t3.medium) + 1x ClickHouse cluster (3 node, c6g.xlarge). Aylık altyapı maliyeti $620, sınırsız trace. LangFuse Python SDK çağrı başına 12 ms overhead ekliyor. LLM-as-judge için Claude 3.7 Haiku tercih ediliyor — 1 milyon trace değerlendirmesi $42’ye mal oluyor.

Production pipeline: her LLM çağrısı `@observe()` decorator ile sarmalanır, input/output otomatik kaydedilir. Günlük cron job son 24 saat trace’leri örnekler (%5 sampling), Claude Haiku ile faithfulness, relevance ve toxicity skorlarını üretir. Skor 0.7’nin altına düşen trace’ler Slack alert tetikler. Bu kalıp ile bir e-ticaret oyuncusu chatbot halüsinasyon oranını 3 ayda %14’ten %3.2’ye indirdi.

LLM Evaluation Platform Kavramı ve 2026 Bağlamı — Görsel 2

Operasyon, İzleme ve Maliyet Modeli

Aylık 1 milyon LLM çağrısı senaryosu için karşılaştırmalı maliyet:

Platform	Aylık trace ücreti	Eval ücreti	Self-host TCO	Toplam
LangSmith (cloud)	$500	$140	—	$640
LangFuse (cloud)	$59	$140	—	$199
LangFuse (self-host)	$0	$42 (Haiku)	$620	$662
Helicone (cloud)	$300	$80	—	$380
Phoenix Arize (cloud)	$300	$60	—	$360
Braintrust	$1.000	$220	—	$1.220

1 milyon trace üzerinde tipik p95 ingestion latency: LangSmith 240 ms, LangFuse 180 ms, Helicone 95 ms (gateway path), Phoenix 220 ms.

Sektörel Use Case: Finans, Sağlık, Müşteri Hizmetleri

Türkiye’de bir özel banka 2026 Q1’de LangFuse self-hosted’ı KVKK uyumu için seçti; günde 38.000 trace, eval skoru 0.71’den 0.84’e çıktı. Bir sağlık SaaS oyuncusu Phoenix Arize OTel entegrasyonu ile Datadog’a akıttı, anomali tespit süresi 4 saatten 12 dakikaya indi. Müşteri hizmetleri vertical’ında bir Avrupa operatörü Promptfoo’yu CI/CD’ye soktu — her PR’da otomatik regression test koşuyor, prompt regression %92 oranında pre-merge yakalanıyor. McKinsey 2026 AI raporu eval tool kullanımının halüsinasyon kaynaklı incident’leri %68 azalttığını ölçtü.

LLM Evaluation Platform Kavramı ve 2026 Bağlamı — Görsel 3

Kurumsal LLM Evaluation Dönüşümünde Karşılaşılan Tipik Sorunlar

Danışmanlık projelerinde gözlemlenen başlıca sorunlar:

Eval seti üretim verisinden çekilmiyor, sentetik örneklerle çalışıldığı için real-world drift yakalanamıyor
LLM-as-judge için Claude Opus 4 kullanılıyor, maliyet 8x artıyor; oysa Haiku %94 doğrulukla yetiyor
Trace sampling stratejisi belirsiz, %100 sampling ClickHouse maliyetini patlatıyor
Insan anotasyon iş akışı yok, otomatik skorlar ground truth ile kalibre edilmiyor
Regression test CI/CD’ye entegre değil, prompt değişiklikleri production’da fark ediliyor
Self-host kurulumda backup planı yok, ClickHouse failure’da 30+ gün veri kaybediliyor

Sonuç

2026’da LLM evaluation platform seçimi üç değişkene bağlı: veri ikametgah gereksinimi (KVKK → LangFuse self-host), entegrasyon biçimi (Helicone proxy, LangSmith decorator, Phoenix OTel) ve ekip tarzı (CI-first → Promptfoo, dashboard-first → LangFuse/LangSmith). Production’da %78’e ulaşan benimseme oranı, eval tool’un artık opsiyonel değil zorunlu katman olduğunu gösteriyor. POC aşamasında LangFuse cloud ile başlayıp 3-6 ay sonra self-host’a geçiş, hem maliyet hem KVKK açısından optimum yol. Eval seti üretim verisinden örneklenmeli, LLM-as-judge için Claude Haiku ya da Gemini 2.0 Flash maliyet/performans dengesi sunar.

Sıkça Sorulan Sorular

LangSmith mı LangFuse mı seçilmeli?

LangChain stack kullanılıyorsa LangSmith native; KVKK/self-host ihtiyacı varsa LangFuse. Aylık 1M trace için LangSmith $640, LangFuse self-host $662 — fark minimal, karar SOC2/uyum gereksinimine bağlı.

LLM-as-judge için hangi model kullanılmalı?

Claude 3.7 Haiku ($1.30/M token) %94 doğrulukla yeterli. Gemini 2.0 Flash $0.40/M token ile daha ucuz, %91 doğruluk. Opus 4 ya da GPT-4.1 tier’a sadece kritik scoring senaryolarında gerek var.

Trace sampling oranı ne olmalı?

Production’da %5-10 sampling tipik; her hatalı/şikayetli sorgu %100. ClickHouse maliyeti 1M trace başına $80-120 arası, sampling ile %60 düşer.

Promptfoo CI/CD’de nasıl çalışır?

GitHub Actions’ta `promptfoo eval –config promptfooconfig.yaml` ile koşturulur, 200-500 örnekli regression test ortalama 3-7 dakikada tamamlanır. Score eşiği altındaysa PR otomatik blok edilir.

Phoenix Arize OpenTelemetry desteği var mı?

Evet, OTel native — Datadog, Honeycomb, Grafana Tempo gibi APM tool’larına trace export edilebilir. Bu nedenle observability ekibi olan kurumlar için 1. tercih.

Ömer ÖNAL

Yazılım Mimarı | Yapay Zeka LLC. Ölçeklenebilir SaaS, .NET Core altyapıları ve Otonom AI süreçleri inşa ediyorum. Kod değil, sistem tasarlarım.

Yorum (1)

Ömer ÖNAL
Mayıs 23, 2026
Yanıtla

Yapay zeka projelerinde danışmanlık deneyimimde gözlemlediğim pattern: POC aşamasında çalışan modelin %60 dan fazlası production da farklı performans sergiliyor. Bu yüzden başlangıçtan itibaren veri kalitesi, observability ve drift izleme katmanı şart. Yorumlarınız ne yönde?

Our Gallery

Contact Info

LLM Evaluation Platform Kavramı ve 2026 Bağlamı

LLM Evaluation Platform Kavramı ve 2026 Bağlamı

Mimari Boyut: Trace, Eval, Experiment

Karşılaştırma: Production Trace vs Offline Eval

Implementation Pattern: LangFuse Self-Hosted Üretim Mimarisi

Operasyon, İzleme ve Maliyet Modeli

Sektörel Use Case: Finans, Sağlık, Müşteri Hizmetleri

Kurumsal LLM Evaluation Dönüşümünde Karşılaşılan Tipik Sorunlar

Sonuç