Ragas TruLens DeepEval Phoenix arasında nasıl seçim yapılır?

Hibrit yaklaşım önerilir: PR gating için Ragas, regression için DeepEval, online shadow eval için TruLens veya Phoenix, KVKK uyumu için Langfuse self-host. Üretim ekiplerinin %47'si en az iki eval aracı kullanır.

CI'da RAG eval ne kadar sürmeli ve maliyeti nedir?

300 soruluk set için 4-7 dakika ideal. Async batch, embedding cache ve hızlı judge modelleriyle 80 saniye altına inebilir. Maliyet: GPT-4o-mini 0.4-0.7 USD, Sonnet 4-7 USD, GPT-4o 5-8 USD. PR'da 50 örnek mini + nightly full Sonnet yaygın stratejidir.

RAG Evaluation Pipeline 2026: Ragas, TruLens ve Metrikler

Q: Golden test seti kaç örnek içermeli ve nasıl dağıtılmalı?

Üretim güvenli karar için 200-300 ideal aralıktır. Lookup %45-55, multi-hop %25-35, out-of-scope %15-20 dağılımı önerilir. SME çapraz validasyonunda Cohen's kappa > 0.75 zorunludur; çeşitlilik p95 metriklerinin gerçek üretim dağılımını yansıtmasını sağlar.

Q: Retrieval mi generation mi önce optimize edilmeli?

Retrieval önce. Hataların %57'si retrieval katmanında, %32'si generation'da. context_recall'ı %85 üstüne çıkarın (chunk strategy, embedding model, rerank, hybrid search), sonra faithfulness'ı iyileştirin.

Yapay Zeka & LLM

Haziran 18, 2026Ömer ÖNAL1 Yorum

Arize AI’nin 2025 LLM Production Survey raporuna göre üretimdeki RAG sistemlerinin %62’sinde sistematik bir evaluation pipeline’ı yok ve bu ekiplerde hallucination şikayetleri ölçümlü değerlendirme yapanlara göre 4.3 kat daha yüksek seyrediyor. 2026’da Retrieval-Augmented Generation artık olgun ekipler için “kuruldu, çalışıyor” değil “ölçülüyor, sürekli iyileştiriliyor” disiplini hâline geldi. Doğru kurulmuş bir eval pipeline’ı retrieval kalitesini ortalama %38, answer faithfulness’ı ise %29 oranında artırıyor; CI/CD’ye entegre eşik kapıları regresyonun üretime sızmasını %91 oranında engelliyor. Konuyla ilişkili olarak LLMOps ile Production AI: LangFuse, LangSmith, Helicone Karşılaştırması rehberimiz detaylı incelemeyi içerir.

Bu rehberde Ragas, TruLens, DeepEval ve Phoenix Arize gibi açık kaynak araçlarla RAG evaluation pipeline’ı kurmayı, faithfulness/context precision/context recall/answer relevancy metriklerinin nasıl seçileceğini, LLM-as-judge stratejisini, golden dataset’in nasıl üretileceğini, human-in-the-loop kalibrasyonu, A/B test çerçevesi ve Langfuse/Helicone gibi observability platformlarının entegrasyonunu uçtan uca işliyoruz. Hem MVP aşamasındaki ekipler hem de üretimde milyonlarca sorgu işleyen platformlar için kanıtlanmış kararları tek bir karar çerçevesinde topluyoruz. Konuyla ilişkili olarak LangWatch vs LangSmith 2026: LLM Observability Karşılaştırma rehberimiz detaylı incelemeyi içerir.

RAG evaluation pipeline harness, faithfulness ve relevancy metric gauge'lari, deep teal ve magenta tonlarinda izometrik dashboard

📖 18 dakikalık okuma

İçindekiler

RAG Evaluation Neden Klasik LLM Eval'dan Farklı?
RAG Eval Araçları Karşılaştırması: Ragas, TruLens, DeepEval, Phoenix Arize
Beş Temel RAG Eval Metriği: Faithfulness, Precision, Recall, Relevancy
Golden Dataset Nasıl Hazırlanır?
LLM-as-Judge: Yargıç Model Seçimi ve Kalibrasyon
Human-in-the-Loop ve Kalibrasyon Stratejisi
A/B Test Framework ve Eşik Kapıları
Observability Platformları: Langfuse, Helicone, Phoenix, Arize
Pipeline Kurulum Sırası: 8 Haftalık Yol Haritası
Maliyet, ROI ve Yaygın Tuzaklar
Sürekli İyileştirme ve Drift Yönetimi
Sık Sorulan Sorular
Sonuç: Üretim RAG'ın Olgunluk Göstergesi

RAG Evaluation Neden Klasik LLM Eval’dan Farklı?

Klasik LLM eval üretilen cevabın doğruluğunu ve akıcılığını ölçer; RAG eval ise iki katmanı ayrı değerlendirmek zorundadır: retrieval (doğru parçalar getirildi mi?) ve generation (getirilen parçaya sadık cevap verildi mi?). Anthropic 2025 “Evaluating LLMs” raporuna göre RAG sistemlerindeki hataların %57’si retrieval katmanında, %32’si generation’da, %11’i ise prompt orchestration’da kaynaklanıyor. İki katmanı tek metrikle karıştırmak kök neden teşhisini imkânsız kılıyor; ekibiniz aylar boyunca yanlış katmanı optimize etmeye çalışabilir. Kurumsal yapay zeka entegrasyonu rehberimiz bu pipeline’ı stratejik bağlamda ele alır.

Klasik LLM eval’da BLEU veya perplexity gibi referans-tabanlı metrikler yeterli olabilir; RAG’da ise her sorgunun “ideal cevabı” dokümana özgüdür ve referans-bağımsız metrikler şarttır. Bu nedenle Ragas, TruLens ve DeepEval LLM-as-judge yaklaşımını merkeze koyar: bir yargıç model hem retrieval kontekstini hem üretilen cevabı puanlar. Bu yaklaşım insan etiketleyicilerle %78-85 uyum gösteriyor ve aylar süren manuel eval döngülerini saatlere indiriyor. LLM hallucination azaltma rehberimiz bu metriklerin nasıl müdahale noktasına çevrildiğini ele alır.

Context Precision: Getirilen parçaların ne kadarı gerçekten ilgili; gürültüyü ölçer.
Context Recall: İlgili tüm parçalardan ne kadarı getirildi; kapsama açığını ölçer.
Faithfulness: Cevap getirilen kontekste ne ölçüde sadık; hallucination’ı ölçer.
Answer Relevancy: Cevap sorulan soruya ne kadar uygun; konu dışına çıkmayı ölçer.
Answer Correctness: Cevap referans cevapla ne kadar örtüşüyor; mutlak doğruluğu ölçer.

RAG Eval Araçları Karşılaştırması: Ragas, TruLens, DeepEval, Phoenix Arize

2026 itibarıyla açık kaynak RAG eval ekosisteminde dört araç dominant: Ragas (Explodinggradients, GitHub 8.7K yıldız), TruLens (TruEra, 2.6K yıldız, Snowflake satın alımı sonrası kurumsallaştı), DeepEval (Confident AI, 5.2K yıldız ve en hızlı büyüyen test framework’ü) ve Phoenix Arize (Arize AI, OpenInference standardına dayanan ticari destekli açık çekirdek). LangSmith yönetilen platform tarafında, OpenAI Evals ise resmi referans implementasyonu olarak konumlanıyor. Her birinin felsefesi farklı: Ragas metrik odaklı, TruLens “feedback function” framework olarak özelleştirme odaklı, DeepEval pytest-native test deneyimi sunarken Phoenix observability + eval’i birleştiriyor.

Araç	Lisans	Kuruluma süresi	Hazır metrikler	CI entegrasyonu	Üretim izleme	Tipik kullanım
Ragas	Apache 2.0	1 saat	4 ana + 8 ek	pytest plugin	Sınırlı	Batch eval, PR gating
TruLens	MIT	2 saat	Feedback funcs (özel)	Manuel	Var (TruLens dashboard)	Online eval, A/B test
DeepEval	Apache 2.0	1 saat	14 metrik	pytest native	Confident AI cloud	Regression testing
Phoenix Arize	Açık çekirdek	1 saat	OpenInference	OTLP/OpenTelemetry	Çok güçlü	Observability + eval
LangSmith	Ticari (yönetilen)	30 dk	Built-in + custom	Native	Var	LangChain stack
OpenAI Evals	MIT	3 saat	Spec-based	Manuel	Yok	Custom benchmark

Pratikte ekiplerin çoğu hibrit yaklaşım benimsiyor: Ragas batch eval ve PR gating için, TruLens veya Phoenix üretim shadow eval için, DeepEval pytest regression suite olarak. Snowflake 2025 “AI Engineering Stack” raporuna göre üretime giden RAG sistemlerinin %47’si en az iki eval aracı kullanıyor. Tek araca bağlı kalmak metriklerin sağlamasını tek judge biasına bırakır; ikinci araç koruma kalkanı işlevi görür.

RAG eval 4 metric quadrant: context precision, context recall, answer relevancy ve answer correctness gostergeleri

Beş Temel RAG Eval Metriği: Faithfulness, Precision, Recall, Relevancy

RAG eval pipeline’ının iskeleti beş metrikten oluşur. Hangi metriği hangi eşikle takip edeceğiniz ürünün risk profiline bağlıdır: hukuki/medikal domain’lerde faithfulness asla 0.92’nin altına inmemeli; e-ticaret arama gibi düşük riskli alanlarda 0.80 yeterli olabilir. Aşağıdaki tablo Ragas, TruLens ve DeepEval’da bu metriklerin nasıl tanımlandığını ve önerilen üretim eşiklerini özetliyor. Embedding modelleri karşılaştırması yazımız retrieval metriklerinin embedding seçimine duyarlılığını derinleştirir.

Metrik	Ne ölçer?	Hesaplama yöntemi	Düşük risk eşiği	Yüksek risk eşiği	Katman
Context Precision	İlgili chunk oranı	LLM-judge + rerank score	≥ 0.70	≥ 0.85	Retrieval
Context Recall	Kapsanan kanıt oranı	Ground truth karşılaştırma	≥ 0.75	≥ 0.90	Retrieval
Faithfulness	Kontekste sadakat	Claim verification LLM	≥ 0.85	≥ 0.95	Generation
Answer Relevancy	Soru-cevap uyumu	Embedding similarity + LLM	≥ 0.80	≥ 0.92	Generation
Answer Correctness	Referansla örtüşme	F1 + LLM-judge	≥ 0.65	≥ 0.85	Uçtan uca

Ekiplerin sıkça eklediği özel metrikler arasında “context utilization” (cevap içinde kullanılan chunk oranı), “answer conciseness” ve “refusal correctness” (cevabı bilmediğini doğru söyleme oranı) bulunur. Anthropic 2025 Constitutional AI raporu refusal metriğinin medikal ve finansal asistanlarda kritik olduğunu gösteriyor; “bilmiyorum” diyemeyen sistem yüksek faithfulness skoruna rağmen ürün başarısızlığına gider.

Golden Dataset Nasıl Hazırlanır?

Eval pipeline’ının kalitesi golden dataset’in kalitesine eşittir; kötü kurgulanmış 200 soru, mükemmel kurulmuş Ragas + TruLens kombinasyonunu çöpe çevirir. Üretim güvenli karar için 200-300 soru ideal aralık, sektör derinliği yüksek olan ekipler için 500-800 önerilir. Soruları üç temel kategoriye dağıtın: tek dokümandan cevaplanan (lookup), birden fazla dokümanın sentezini gerektiren (multi-hop) ve cevabı belgede olmayan (out-of-scope, “don’t know” kontrolü). Out-of-scope soruları en az %15-20 oranında dahil edilmeli; aksi takdirde hallucination’ı tetikleyen senaryolar metriklerden kaçar.

Adım	Faaliyet	Süre	Sahip	Çıktı
1. Sorgu havuzu	Üretim log + uzman beyin fırtınası	3-5 gün	Ürün ekibi	500-1000 ham soru
2. Kategori dağılımı	Lookup / Multi-hop / OOS bölme	1-2 gün	RAG mühendisi	Etiketli soru havuzu
3. İdeal cevap yazımı	Domain uzmanı yazımı + peer review	5-8 gün	SME + editör	Reference answers
4. Ground truth chunk eşleme	Hangi parça hangi soruya kanıt	2-4 gün	RAG mühendisi	Chunk-soru mapping
5. Validasyon	İkinci uzman çapraz kontrol	2-3 gün	SME #2	Cohen kappa > 0.75
6. Sentetik genişletme	GPT-4 paraphrase + insan QA	1-2 gün	RAG mühendisi	%30-50 ek soru

Sentetik veri genişletmesi kritik bir hızlandırıcıdır ama tek başına tehlikelidir. Anthropic 2025 “Synthetic Eval” çalışması salt sentetik golden dataset’in insan etiketliye göre %23 daha düşük diskriminatif güç ürettiğini gösteriyor. Sağlıklı oran: %60-70 insan-etiketli core + %30-40 paraphrase sentetik. Sentetik sorular mutlaka QA loop’undan geçmeli, “ölçek değil çeşitlilik” prensibiyle üretilmelidir.

LLM-as-judge degerlendirme akisi: cevap, score ve insan kalibrasyon dongusu

LLM-as-Judge: Yargıç Model Seçimi ve Kalibrasyon

LLM-as-judge yaklaşımı RAG eval’in motorudur; bir yargıç model verilen soru, kontekst ve cevabı puanlar. Yargıç seçimi maliyet, hız ve güvenilirliğin üçlü dengesidir. GPT-4o ve Claude 3.5 Sonnet altın standart olmayı sürdürüyor; GPT-4o-mini, Claude Haiku 3.5 ve Gemini 1.5 Flash ise CI eval için ekonomik alternatifler. Aşağıdaki tabloda 2026 itibarıyla yargıç model seçenekleri ve performans/maliyet profili özetlenmektedir.

Yargıç model	İnsan uyumu	Maliyet (300 soru)	Süre	Bias riski	Önerilen senaryo
GPT-4o	%84	5-8 USD	4-6 dk	Self-preference	Nightly full eval
Claude 3.5 Sonnet	%85	4-7 USD	3-5 dk	Length bias	Cross-judge validation
GPT-4o-mini	%76	0.4-0.7 USD	1-2 dk	Position bias	PR-gating CI
Claude Haiku 3.5	%77	0.3-0.6 USD	1-2 dk	Verbosity	Yüksek frekans batch
Gemini 1.5 Flash	%72	0.2-0.4 USD	1 dk	Long context drop	Geniş sentetik tarama
Llama 3.3 70B (self-host)	%70	GPU saatlik	3-5 dk	Domain bias	On-prem zorunluluk

Tek judge bias riskini büyütür. Cross-judge ensemble: iki farklı yargıç (Claude Sonnet + GPT-4o) bir soruyu puanlar, skor farkı 0.2’den büyükse insan etiketleyiciye yönlendirilir. Anthropic 2025 Constitutional AI çalışması bu yaklaşımın insan uyumunu %85’ten %92’ye çıkardığını gösteriyor. CI maliyet kısıtı varsa hibrit strateji: %80 sorgu hızlı judge, %20 yüksek belirsizlik için Sonnet/GPT-4o. Claude API rehberimiz Sonnet judge’ın programatik kullanımını anlatır.

Human-in-the-Loop ve Kalibrasyon Stratejisi

LLM-as-judge tek başına ürün kararı için yeterli değildir; üretim öncesi insan kalibrasyonu zorunludur. Standart: golden dataset’in %20’si üzerinde yargıç model + 2 insan etiketleyici puanlama yapar, ardından Cohen’s kappa hesaplanır. Sağlıklı aralıklar: kappa > 0.65 yeterli, > 0.75 iyi, > 0.85 mükemmel. Altındaki judge üretim kararına temel olamaz; prompt iyileştirilir veya daha güçlü model seçilir.

HITL adımı	Frekans	Örneklem	Sahip	Aksiyon
İlk kalibrasyon	Tek seferlik	60-100 örnek	2 SME + judge	Kappa eşik kontrolü
Sürekli spot check	Haftalık	20-30 örnek	SME #1	Drift tespiti
Düşük confidence yönlendirme	Sürekli	Skor < 0.6 olanlar	Active queue	Active learning
Anlaşmazlık çözümü	Sürekli	Cross-judge fark > 0.2	SME panel	Final label + retrain
Çeyreklik audit	3 ayda 1	200 örnek	3 SME	Pipeline güvenilirlik raporu

Argo Workflow / Prefect: HITL queue’ya soru gönderme ve etiketleri toplama orchestration’ı.
Argilla, Label Studio, Prodigy: Açık kaynak etiketleme arayüzleri; çoklu etiketleyici desteği.
Surge AI / Scale AI: Outsourced uzman etiketleme; medikal/hukuki domain’lerde tercih edilir.
Confident AI / Humanloop: RAG eval’a özel uçtan uca HITL platformları.

A/B Test Framework ve Eşik Kapıları

Eval pipeline yalnızca metrik üretmek için değil, hangi sürümün üretime gideceğini belirlemek için kurulur. A/B test çerçevesi iki seviyede çalışır: offline A/B (aynı golden dataset’te iki sürümü kıyaslama) ve online A/B (üretim trafiğinin bir bölümünde iki sürümün performansını ölçme). Offline tarafta paired bootstrap testi veya McNemar testi istatistiksel anlamlılığı doğrular; online tarafta sequential testing (Optimizely, GrowthBook) varyans azaltma sağlar.

Eşik kapıları: faithfulness < 0.85 ise CI fail, context_recall < 0.70 ise warning, answer_relevancy < 0.80 ise blocker.
Champion-challenger: Mevcut üretim “champion”, yeni sürüm “challenger”; eval skorlarında en az %3 mutlak iyileşme ve p < 0.05 anlamlılık gerekir.
Canary release: Yeni embedding modeli veya yeni prompt template önce trafiğin %5’ine, sonra %25’ine, ardından %100’üne aşamalı yayılır.
Rollback kriterleri: Üretim metrikleri 4 saat içinde önceki sürüme göre %5’ten fazla düşerse otomatik rollback tetiklenir.
Multi-armed bandit: Üç+ varyant test edilirken Thompson sampling ile maliyet/zaman optimize edilir.

Eşik kapılarının yazılı politikaya bağlanması iç ve outsource ekiplere ortak dil sağlar. LLMOps üretim yönetimi yazımız bu eşiklerin değişiklik yönetimine nasıl bağlandığını gösterir. Karar matrisi yoksa her sürüm tek tek tartışılır, süreç haftalara yayılır; eşik kapıları kararı otomatikleştirir.

Golden dataset olusturma: sorgular, ideal cevaplar ve ground truth chunk eslemesi

Observability Platformları: Langfuse, Helicone, Phoenix, Arize

RAG observability eval’in canlı uzantısıdır: üretimde gerçek kullanıcı sorguları üzerinde retrieval ve generation katmanlarının metriklerini sürekli izler. 2026 itibarıyla bu alanda dört platform öne çıkıyor: Langfuse (açık kaynak, MIT, self-host odaklı), Helicone (open-core, cost tracking güçlü), Phoenix Arize (OpenInference standardı) ve LangSmith (LangChain ekosistemi). Aşağıdaki karşılaştırma seçimi pratikleştirir. Observability logs/metrics/traces yazımız bu sinyallerin genel mimariye nasıl entegre olduğunu derinleştirir.

Platform	Lisans	Trace standardı	Online eval	Cost tracking	Self-host	Tipik tercih
Langfuse	MIT (cloud + OSS)	OpenTelemetry	Var (LLM-judge)	Var	Docker compose	EU/KVKK uyumu
Helicone	Apache 2.0	Proxy + OpenLLM	Sınırlı	Çok güçlü	Helm chart	Cost optimization
Phoenix Arize	Açık çekirdek	OpenInference	Native	Var	Container	OTel uyumu
LangSmith	Ticari (yönetilen)	LangChain native	Built-in	Var	Enterprise sürüm	LangChain stack
Datadog LLM Obs	Ticari	OpenTelemetry	Var	Var	SaaS	Tek pane of glass

Observability platformlarının ortak özelliği “shadow eval” yapabilmeleridir: üretim trafiğinin örneklenmiş bir kısmında LLM-judge skoru üretip dashboard’a düşürürler. Bu, golden dataset metrikleri ile üretim dağılımı arasındaki uçurumu kapatır. Örnekleme oranı %1-5 arası tutulur; üstü maliyetli, altı gürültülüdür. Langfuse ve Phoenix bu örneklemeyi otomatize ederken Datadog LLM Observability tek pane görünüm sunar.

Observability dashboard topology: Langfuse ve Helicone entegrasyon mimarisi, trace ve metric akisi

Pipeline Kurulum Sırası: 8 Haftalık Yol Haritası

RAG eval pipeline’ı tek günde kurulan bir sistem değildir; olgun kurulum 6-8 hafta sürer, sonrasında haftalık operasyonel yük 4-6 saattir. Aşağıdaki adımlar Snowflake 2025 raporundaki 47 başarılı ekibin ortak şablonudur. RAG altyapı rehberimiz mimari kararları detaylandırır; embedding boyut optimizasyonu yazımız retrieval katmanını tamamlar.

Hafta 1-2 — Golden dataset: 200-300 soru, ideal cevap, ground truth chunk mapping; SME çapraz validasyonu (kappa > 0.75).
Hafta 2-3 — Ragas entegrasyonu: Context precision/recall, faithfulness, answer relevancy hesaplamaları; pytest plugin’i CI’ya bağlanır.
Hafta 3-4 — Eşik kapıları: Faithfulness < 0.85 fail, context_recall < 0.70 warning; PR template’ine eval raporu zorunlu hâle gelir.
Hafta 4-5 — Judge kalibrasyonu: Cross-judge ensemble (Sonnet + GPT-4o); kappa > 0.75 sağlanana kadar prompt iterasyonu.
Hafta 5-6 — Observability: Langfuse veya Phoenix kurulur; üretim trafiğinin %2’sinde shadow eval başlar.
Hafta 6-7 — A/B framework: Champion-challenger şeması; canary release ve otomatik rollback eşikleri runbook’a yazılır.
Hafta 7-8 — HITL ve drift: Düşük confidence sorgular Argilla queue’sa düşer; haftalık spot check ve aylık full eval planlanır.

Maliyet, ROI ve Yaygın Tuzaklar

RAG eval pipeline’ının doğrudan maliyeti yargıç model token’ları, observability platform aboneliği ve mühendislik saatleridir. 300 soruluk golden set’te GPT-4o ile nightly eval aylık yaklaşık 150-240 USD, GPT-4o-mini ile 12-20 USD tutar. Langfuse self-host yıllık 800-1500 USD GPU/CPU maliyetiyle bedavadır, cloud sürümü aylık 50-300 USD bandında. LangSmith ve Phoenix Cloud aylık 100-600 USD aralığında konumlanır. Mühendislik saati ise ilk kurulumda 2-4 hafta tam zamanlı, sonrasında haftada 4-6 saat seviyesindedir. LLM cost optimization yazımız judge token maliyetinin caching ve batching ile %40-60 düşürülmesini ele alır.

ROI tarafında Arize AI 2025 verisi konuşuyor: eval pipeline yatırımının üç ayda amortisman oranı %71, altı ayda %94. Geri dönüş “hangi optimizasyonun gerçekten işe yaradığını” ölçebilmenin müşteri kaybı, destek bilet sayısı ve hukuki risk üzerindeki etkilerinden gelir. Yaygın tuzaklar: tek judge biasına güvenmek, multilingual/Türkçe için İngilizce kalibrasyonunu sürdürmek (Türkçe’de %12-18 daha düşük güvenilirlik), out-of-scope sorularını dataset’ten dışlamak ve eval’i tek seferlik proje olarak görmek. AI Safety yazımız bu disiplinin kurumsal risk yönetimine nasıl bağlandığını gösterir.

Sürekli İyileştirme ve Drift Yönetimi

RAG sistemleri canlıda statik değildir; kullanıcı soru dağılımı değişir, doküman tabanı büyür, embedding modeli güncellenir, LLM provider yeni sürüm yayınlar. Eval pipeline tek seferlik proje değil sürekli işleyen döngüdür. Üretim logları haftalık örneklenir, golden set’e yeni örnekler eklenir, aylık full eval koşulur. Datadog ve Phoenix canary release entegrasyonu, yeni retrieval modelini veya prompt template’i trafiğin %5’ine yönlendirip metrik karşılaştırmasını otomatize eder. AI agent patternleri yazımız döngünün agentic sistemlerde evrimini ele alır.

Drift tespiti: Kullanıcı sorgu embedding’lerinin merkezinden uzaklaşma trendini Wasserstein veya KL divergence ile ölçer.
Active learning: Düşük confidence ile yanıtlanmış sorgular HITL queue’ya yönlendirilir, etiketlenir ve golden set’e eklenir.
Versiyon karşılaştırması: Her embedding ve LLM model güncellemesi A/B testle doğrulanır; regresyon tespiti otomatik.
Quarterly audit: SME panel 200 örnek üzerinde judge model doğruluğunu yeniden ölçer; kappa < 0.65 ise kalibrasyon tekrarı.
Doküman güncelleme döngüsü: Yeni doküman eklendiğinde golden set’in en az %10’u tazelenir.

Sık Sorulan Sorular

Golden test seti kaç örnek içermeli ve nasıl dağıtılmalı?

Ragas resmi rehberi minimum 50 önerirken, üretim güvenli karar için 200-300 ideal aralıktır. Soruları üç kategoride dağıtın: tek dokümana cevap (lookup, %45-55), çoklu doküman sentezi (multi-hop, %25-35) ve cevabı belgede olmayan (“don’t know” kontrolü, %15-20). Sektör derinliği yüksek ekipler için 500-800 örnek hedefleyin. Cohen’s kappa > 0.75 SME çapraz validasyonu zorunludur; çeşitlilik p95 metriklerinin gerçek üretim dağılımını yansıtmasını sağlar.

LLM-as-judge ne kadar güvenilir ve nasıl kalibre edilir?

Anthropic 2025 araştırmasına göre GPT-4o ve Claude 3.5 Sonnet judge’ları insan değerlendirmesiyle %78-85 uyum gösteriyor. Tek model judge bias riskini taşır; cross-judge ensemble (iki farklı yargıç) ile bu rakam %92’ye çıkıyor. Üretim öncesi mutlaka 60-100 örnek üzerinde insan kalibrasyonu yapılmalı, Cohen’s kappa > 0.75 sağlanmalı. Çeyreklik audit ile bu rakam yeniden doğrulanır; düşüş durumunda prompt iterasyonu veya daha güçlü model seçilir.

Ragas, TruLens, DeepEval ve Phoenix arasında nasıl seçim yaparım?

Tek araç önerisi yerine hibrit yaklaşım önerilir. Batch eval ve PR gating için Ragas (pytest plugin’i ve hazır 4 metrik), regression test suite için DeepEval (pytest-native, 14 metrik), online shadow eval için TruLens veya Phoenix (üretim izleme), KVKK/EU uyumu için Langfuse self-host. LangSmith yalnızca tüm stack LangChain ise hızlı çözümdür. Snowflake 2025 raporuna göre üretim ekiplerinin %47’si en az iki eval aracı kullanır.

Retrieval mı, generation mı önce optimize edilmeli?

Retrieval önce. Anthropic 2025’e göre RAG hatalarının %57’si retrieval katmanından, %32’si generation’dan geliyor. Kötü retrieval, iyi generation’a rağmen kaçınılmaz hatalar üretir; LLM olmayan bir kanıta dayanarak halüsinasyon kurar. Önce context_recall’ı %85 üstüne çıkarın (chunk strategy, embedding model, rerank, hybrid search), ardından faithfulness’ı iyileştirin. Sıralama tersse generation iyileştirmesi metrik gürültüsünde kaybolur.

CI’da RAG eval ne kadar sürmeli ve maliyeti ne olur?

Pratik öneri 300 soruluk set için 4-7 dakika; daha uzun süreler PR feedback döngüsünü kırar. Async batch çağrıları, embedding cache ve GPT-4o-mini/Claude Haiku 3.5 gibi hızlı judge modelleri kullanmak süreyi 80 saniyenin altına indirebilir. Maliyet: 300 sorgu için GPT-4o-mini ile 0.4-0.7 USD, Sonnet ile 4-7 USD, GPT-4o ile 5-8 USD. Yaygın strateji: her PR’da rastgele 50 örnek (mini judge) + gece nightly full set (Sonnet/GPT-4o judge).

Sonuç: Üretim RAG’ın Olgunluk Göstergesi

2026’da RAG evaluation pipeline’ı üretim RAG sistemlerinin olgunluk göstergesi hâline geldi. Retrieval ve generation katmanlarının ayrı ölçümü, LLM-as-judge ile insan kalibrasyonunun birleşimi ve CI’da eşik kapıları, hallucination’ı 4.3 kat azaltan kanıtlanmış bir mimaridir. Tek araç kararı yerine hibrit stratejik karar verin: Ragas PR gating için, DeepEval regression suite için, Phoenix veya Langfuse üretim shadow eval ve observability için, TruLens özel feedback function’lar için. Yargıç tarafında cross-judge ensemble (Claude 3.5 Sonnet + GPT-4o) altın standart, CI’da ekonomik koşum için Haiku 3.5 veya GPT-4o-mini yeterli. Yatırımın üç ayda %71 amortisman oranıyla geri dönmesi, eval pipeline’ı opsiyonel değil zorunlu bir kapasite hâline getiriyor.

Karar mimarisi tek bir cümleye sığar: “Ölçemediğiniz şeyi iyileştiremezsiniz; iyileştirdiğinizi sandığınız ama ölçmediğiniz şey de regresyona dönüşür.” Pipeline’ı kurarken sırayla golden dataset → metrik seçimi → judge kalibrasyonu → CI eşik kapıları → observability → A/B framework → HITL döngüsünü çalıştırın. 6-8 haftalık disiplinli kurulum, sonraki yıllarda haftalık 4-6 saatlik operasyonel yükle kalır ve RAG sisteminizin her sürümünde güvenilir kararlar almanızı sağlar. Daha derin kaynaklar için Ragas resmi dokümantasyonu, TruLens dokümantasyonu, DeepEval GitHub deposu, Phoenix Arize rehberi, Langfuse dokümantasyonu, OpenAI Evals framework ve Anthropic eval araştırma yayınları referans olarak takip edilebilir.

Ömer ÖNAL

Yazılım Mimarı | Yapay Zeka LLC. Ölçeklenebilir SaaS, .NET Core altyapıları ve Otonom AI süreçleri inşa ediyorum. Kod değil, sistem tasarlarım.

Yorum (1)

Ömer ÖNAL
Mayıs 16, 2026
Yanıtla

Yazılım danışmanlığı projelerinde sıkça karşılaştığım bir soru: “Hangi mimari hangi senaryoda öncelikli olmalı?” Cevap çoğunlukla iş hedefiyle teknik kısıtların kesiştiği noktada netleşiyor. Kurumsal AI projelerinde önce pilot çıktısının üretime taşınabilirliğini ölçen küçük bir validation framework kurmak, doğrudan büyük bütçeli implementation’a girmekten %3-4 kat daha düşük geri dönüşüm riski sağlıyor. Yorumlarınıza açığım.

Our Gallery

Contact Info

RAG Evaluation Pipeline: Ragas, TruLens ve Custom Metrics

RAG Evaluation Neden Klasik LLM Eval’dan Farklı?

RAG Eval Araçları Karşılaştırması: Ragas, TruLens, DeepEval, Phoenix Arize

Beş Temel RAG Eval Metriği: Faithfulness, Precision, Recall, Relevancy

Golden Dataset Nasıl Hazırlanır?

LLM-as-Judge: Yargıç Model Seçimi ve Kalibrasyon

Human-in-the-Loop ve Kalibrasyon Stratejisi

A/B Test Framework ve Eşik Kapıları

Observability Platformları: Langfuse, Helicone, Phoenix, Arize

Pipeline Kurulum Sırası: 8 Haftalık Yol Haritası

Maliyet, ROI ve Yaygın Tuzaklar

Sürekli İyileştirme ve Drift Yönetimi

Sık Sorulan Sorular

Golden test seti kaç örnek içermeli ve nasıl dağıtılmalı?

LLM-as-judge ne kadar güvenilir ve nasıl kalibre edilir?

Ragas, TruLens, DeepEval ve Phoenix arasında nasıl seçim yaparım?

Retrieval mı, generation mı önce optimize edilmeli?

CI’da RAG eval ne kadar sürmeli ve maliyeti ne olur?

Sonuç: Üretim RAG’ın Olgunluk Göstergesi

Ömer ÖNAL

Federated Learning 2026: Veri Gizliliği Korunan ML Mimarisi (Flower, NVIDIA FLARE, PySyft)

Long Context LLM: 1M+ Token Modellerle Kurumsal Doküman Analizi

Yorum (1)

Ömer ÖNAL

Yorum Yap Yanıtı iptal et

İletişim

Kurumsal

Hizmetlerimiz

Our Gallery

Contact Info

RAG Evaluation Pipeline: Ragas, TruLens ve Custom Metrics

RAG Evaluation Neden Klasik LLM Eval’dan Farklı?

RAG Eval Araçları Karşılaştırması: Ragas, TruLens, DeepEval, Phoenix Arize

Beş Temel RAG Eval Metriği: Faithfulness, Precision, Recall, Relevancy

Golden Dataset Nasıl Hazırlanır?

LLM-as-Judge: Yargıç Model Seçimi ve Kalibrasyon

Human-in-the-Loop ve Kalibrasyon Stratejisi

A/B Test Framework ve Eşik Kapıları

Observability Platformları: Langfuse, Helicone, Phoenix, Arize

Pipeline Kurulum Sırası: 8 Haftalık Yol Haritası

Maliyet, ROI ve Yaygın Tuzaklar

Sürekli İyileştirme ve Drift Yönetimi

Sık Sorulan Sorular

Golden test seti kaç örnek içermeli ve nasıl dağıtılmalı?

LLM-as-judge ne kadar güvenilir ve nasıl kalibre edilir?

Ragas, TruLens, DeepEval ve Phoenix arasında nasıl seçim yaparım?

Retrieval mı, generation mı önce optimize edilmeli?

CI’da RAG eval ne kadar sürmeli ve maliyeti ne olur?

Sonuç: Üretim RAG’ın Olgunluk Göstergesi

Ömer ÖNAL

AI Model Sıkıştırma 2026: GPTQ, AWQ ve BitsAndBytes 8-bit 4-bit Kuantizasyon Rehberi

B2B SaaS Pricing 2026: Per-Seat, Usage-Based, Tiered ve Hibrit Modeller Karsilastirma

İlgili Yazılar

Federated Learning 2026: Veri Gizliliği Korunan ML Mimarisi (Flower, NVIDIA FLARE, PySyft)

Long Context LLM: 1M+ Token Modellerle Kurumsal Doküman Analizi

Yorum (1)

Ömer ÖNAL

Yorum Yap Yanıtı iptal et