Arize AI’nin 2025 LLM Production Survey raporuna göre üretimdeki RAG sistemlerinin %62’sinde sistematik bir evaluation pipeline’ı yok ve bu ekiplerde hallucination şikayetleri ölçümlü değerlendirme yapanlara göre 4.3 kat daha yüksek seyrediyor. 2026’da Retrieval-Augmented Generation artık olgun ekipler için “kuruldu, çalışıyor” değil “ölçülüyor, sürekli iyileştiriliyor” disiplini hâline geldi. Doğru kurulmuş bir eval pipeline’ı retrieval kalitesini ortalama %38, answer faithfulness’ı ise %29 oranında artırıyor; CI/CD’ye entegre eşik kapıları regresyonun üretime sızmasını %91 oranında engelliyor.
Bu rehberde Ragas, TruLens, DeepEval ve Phoenix Arize gibi açık kaynak araçlarla RAG evaluation pipeline’ı kurmayı, faithfulness/context precision/context recall/answer relevancy metriklerinin nasıl seçileceğini, LLM-as-judge stratejisini, golden dataset’in nasıl üretileceğini, human-in-the-loop kalibrasyonu, A/B test çerçevesi ve Langfuse/Helicone gibi observability platformlarının entegrasyonunu uçtan uca işliyoruz. Hem MVP aşamasındaki ekipler hem de üretimde milyonlarca sorgu işleyen platformlar için kanıtlanmış kararları tek bir karar çerçevesinde topluyoruz.
RAG Evaluation Neden Klasik LLM Eval’dan Farklı?
Klasik LLM eval üretilen cevabın doğruluğunu ve akıcılığını ölçer; RAG eval ise iki katmanı ayrı değerlendirmek zorundadır: retrieval (doğru parçalar getirildi mi?) ve generation (getirilen parçaya sadık cevap verildi mi?). Anthropic 2025 “Evaluating LLMs” raporuna göre RAG sistemlerindeki hataların %57’si retrieval katmanında, %32’si generation’da, %11’i ise prompt orchestration’da kaynaklanıyor. İki katmanı tek metrikle karıştırmak kök neden teşhisini imkânsız kılıyor; ekibiniz aylar boyunca yanlış katmanı optimize etmeye çalışabilir. Kurumsal yapay zeka entegrasyonu rehberimiz bu pipeline’ı stratejik bağlamda ele alır.
Klasik LLM eval’da BLEU veya perplexity gibi referans-tabanlı metrikler yeterli olabilir; RAG’da ise her sorgunun “ideal cevabı” dokümana özgüdür ve referans-bağımsız metrikler şarttır. Bu nedenle Ragas, TruLens ve DeepEval LLM-as-judge yaklaşımını merkeze koyar: bir yargıç model hem retrieval kontekstini hem üretilen cevabı puanlar. Bu yaklaşım insan etiketleyicilerle %78-85 uyum gösteriyor ve aylar süren manuel eval döngülerini saatlere indiriyor. LLM hallucination azaltma rehberimiz bu metriklerin nasıl müdahale noktasına çevrildiğini ele alır.
- Context Precision: Getirilen parçaların ne kadarı gerçekten ilgili; gürültüyü ölçer.
- Context Recall: İlgili tüm parçalardan ne kadarı getirildi; kapsama açığını ölçer.
- Faithfulness: Cevap getirilen kontekste ne ölçüde sadık; hallucination’ı ölçer.
- Answer Relevancy: Cevap sorulan soruya ne kadar uygun; konu dışına çıkmayı ölçer.
- Answer Correctness: Cevap referans cevapla ne kadar örtüşüyor; mutlak doğruluğu ölçer.
RAG Eval Araçları Karşılaştırması: Ragas, TruLens, DeepEval, Phoenix Arize
2026 itibarıyla açık kaynak RAG eval ekosisteminde dört araç dominant: Ragas (Explodinggradients, GitHub 8.7K yıldız), TruLens (TruEra, 2.6K yıldız, Snowflake satın alımı sonrası kurumsallaştı), DeepEval (Confident AI, 5.2K yıldız ve en hızlı büyüyen test framework’ü) ve Phoenix Arize (Arize AI, OpenInference standardına dayanan ticari destekli açık çekirdek). LangSmith yönetilen platform tarafında, OpenAI Evals ise resmi referans implementasyonu olarak konumlanıyor. Her birinin felsefesi farklı: Ragas metrik odaklı, TruLens “feedback function” framework olarak özelleştirme odaklı, DeepEval pytest-native test deneyimi sunarken Phoenix observability + eval’i birleştiriyor.
| Araç | Lisans | Kuruluma süresi | Hazır metrikler | CI entegrasyonu | Üretim izleme | Tipik kullanım |
|---|---|---|---|---|---|---|
| Ragas | Apache 2.0 | 1 saat | 4 ana + 8 ek | pytest plugin | Sınırlı | Batch eval, PR gating |
| TruLens | MIT | 2 saat | Feedback funcs (özel) | Manuel | Var (TruLens dashboard) | Online eval, A/B test |
| DeepEval | Apache 2.0 | 1 saat | 14 metrik | pytest native | Confident AI cloud | Regression testing |
| Phoenix Arize | Açık çekirdek | 1 saat | OpenInference | OTLP/OpenTelemetry | Çok güçlü | Observability + eval |
| LangSmith | Ticari (yönetilen) | 30 dk | Built-in + custom | Native | Var | LangChain stack |
| OpenAI Evals | MIT | 3 saat | Spec-based | Manuel | Yok | Custom benchmark |
Pratikte ekiplerin çoğu hibrit yaklaşım benimsiyor: Ragas batch eval ve PR gating için, TruLens veya Phoenix üretim shadow eval için, DeepEval pytest regression suite olarak. Snowflake 2025 “AI Engineering Stack” raporuna göre üretime giden RAG sistemlerinin %47’si en az iki eval aracı kullanıyor. Tek araca bağlı kalmak metriklerin sağlamasını tek judge biasına bırakır; ikinci araç koruma kalkanı işlevi görür.

Beş Temel RAG Eval Metriği: Faithfulness, Precision, Recall, Relevancy
RAG eval pipeline’ının iskeleti beş metrikten oluşur. Hangi metriği hangi eşikle takip edeceğiniz ürünün risk profiline bağlıdır: hukuki/medikal domain’lerde faithfulness asla 0.92’nin altına inmemeli; e-ticaret arama gibi düşük riskli alanlarda 0.80 yeterli olabilir. Aşağıdaki tablo Ragas, TruLens ve DeepEval’da bu metriklerin nasıl tanımlandığını ve önerilen üretim eşiklerini özetliyor. Embedding modelleri karşılaştırması yazımız retrieval metriklerinin embedding seçimine duyarlılığını derinleştirir.
| Metrik | Ne ölçer? | Hesaplama yöntemi | Düşük risk eşiği | Yüksek risk eşiği | Katman |
|---|---|---|---|---|---|
| Context Precision | İlgili chunk oranı | LLM-judge + rerank score | ≥ 0.70 | ≥ 0.85 | Retrieval |
| Context Recall | Kapsanan kanıt oranı | Ground truth karşılaştırma | ≥ 0.75 | ≥ 0.90 | Retrieval |
| Faithfulness | Kontekste sadakat | Claim verification LLM | ≥ 0.85 | ≥ 0.95 | Generation |
| Answer Relevancy | Soru-cevap uyumu | Embedding similarity + LLM | ≥ 0.80 | ≥ 0.92 | Generation |
| Answer Correctness | Referansla örtüşme | F1 + LLM-judge | ≥ 0.65 | ≥ 0.85 | Uçtan uca |
Ekiplerin sıkça eklediği özel metrikler arasında “context utilization” (cevap içinde kullanılan chunk oranı), “answer conciseness” ve “refusal correctness” (cevabı bilmediğini doğru söyleme oranı) bulunur. Anthropic 2025 Constitutional AI raporu refusal metriğinin medikal ve finansal asistanlarda kritik olduğunu gösteriyor; “bilmiyorum” diyemeyen sistem yüksek faithfulness skoruna rağmen ürün başarısızlığına gider.
Golden Dataset Nasıl Hazırlanır?
Eval pipeline’ının kalitesi golden dataset’in kalitesine eşittir; kötü kurgulanmış 200 soru, mükemmel kurulmuş Ragas + TruLens kombinasyonunu çöpe çevirir. Üretim güvenli karar için 200-300 soru ideal aralık, sektör derinliği yüksek olan ekipler için 500-800 önerilir. Soruları üç temel kategoriye dağıtın: tek dokümandan cevaplanan (lookup), birden fazla dokümanın sentezini gerektiren (multi-hop) ve cevabı belgede olmayan (out-of-scope, “don’t know” kontrolü). Out-of-scope soruları en az %15-20 oranında dahil edilmeli; aksi takdirde hallucination’ı tetikleyen senaryolar metriklerden kaçar.
| Adım | Faaliyet | Süre | Sahip | Çıktı |
|---|---|---|---|---|
| 1. Sorgu havuzu | Üretim log + uzman beyin fırtınası | 3-5 gün | Ürün ekibi | 500-1000 ham soru |
| 2. Kategori dağılımı | Lookup / Multi-hop / OOS bölme | 1-2 gün | RAG mühendisi | Etiketli soru havuzu |
| 3. İdeal cevap yazımı | Domain uzmanı yazımı + peer review | 5-8 gün | SME + editör | Reference answers |
| 4. Ground truth chunk eşleme | Hangi parça hangi soruya kanıt | 2-4 gün | RAG mühendisi | Chunk-soru mapping |
| 5. Validasyon | İkinci uzman çapraz kontrol | 2-3 gün | SME #2 | Cohen kappa > 0.75 |
| 6. Sentetik genişletme | GPT-4 paraphrase + insan QA | 1-2 gün | RAG mühendisi | %30-50 ek soru |
Sentetik veri genişletmesi kritik bir hızlandırıcıdır ama tek başına tehlikelidir. Anthropic 2025 “Synthetic Eval” çalışması salt sentetik golden dataset’in insan etiketliye göre %23 daha düşük diskriminatif güç ürettiğini gösteriyor. Sağlıklı oran: %60-70 insan-etiketli core + %30-40 paraphrase sentetik. Sentetik sorular mutlaka QA loop’undan geçmeli, “ölçek değil çeşitlilik” prensibiyle üretilmelidir.

LLM-as-Judge: Yargıç Model Seçimi ve Kalibrasyon
LLM-as-judge yaklaşımı RAG eval’in motorudur; bir yargıç model verilen soru, kontekst ve cevabı puanlar. Yargıç seçimi maliyet, hız ve güvenilirliğin üçlü dengesidir. GPT-4o ve Claude 3.5 Sonnet altın standart olmayı sürdürüyor; GPT-4o-mini, Claude Haiku 3.5 ve Gemini 1.5 Flash ise CI eval için ekonomik alternatifler. Aşağıdaki tabloda 2026 itibarıyla yargıç model seçenekleri ve performans/maliyet profili özetlenmektedir.
| Yargıç model | İnsan uyumu | Maliyet (300 soru) | Süre | Bias riski | Önerilen senaryo |
|---|---|---|---|---|---|
| GPT-4o | %84 | 5-8 USD | 4-6 dk | Self-preference | Nightly full eval |
| Claude 3.5 Sonnet | %85 | 4-7 USD | 3-5 dk | Length bias | Cross-judge validation |
| GPT-4o-mini | %76 | 0.4-0.7 USD | 1-2 dk | Position bias | PR-gating CI |
| Claude Haiku 3.5 | %77 | 0.3-0.6 USD | 1-2 dk | Verbosity | Yüksek frekans batch |
| Gemini 1.5 Flash | %72 | 0.2-0.4 USD | 1 dk | Long context drop | Geniş sentetik tarama |
| Llama 3.3 70B (self-host) | %70 | GPU saatlik | 3-5 dk | Domain bias | On-prem zorunluluk |
Tek judge bias riskini büyütür. Cross-judge ensemble: iki farklı yargıç (Claude Sonnet + GPT-4o) bir soruyu puanlar, skor farkı 0.2’den büyükse insan etiketleyiciye yönlendirilir. Anthropic 2025 Constitutional AI çalışması bu yaklaşımın insan uyumunu %85’ten %92’ye çıkardığını gösteriyor. CI maliyet kısıtı varsa hibrit strateji: %80 sorgu hızlı judge, %20 yüksek belirsizlik için Sonnet/GPT-4o. Claude API rehberimiz Sonnet judge’ın programatik kullanımını anlatır.
Human-in-the-Loop ve Kalibrasyon Stratejisi
LLM-as-judge tek başına ürün kararı için yeterli değildir; üretim öncesi insan kalibrasyonu zorunludur. Standart: golden dataset’in %20’si üzerinde yargıç model + 2 insan etiketleyici puanlama yapar, ardından Cohen’s kappa hesaplanır. Sağlıklı aralıklar: kappa > 0.65 yeterli, > 0.75 iyi, > 0.85 mükemmel. Altındaki judge üretim kararına temel olamaz; prompt iyileştirilir veya daha güçlü model seçilir.
| HITL adımı | Frekans | Örneklem | Sahip | Aksiyon |
|---|---|---|---|---|
| İlk kalibrasyon | Tek seferlik | 60-100 örnek | 2 SME + judge | Kappa eşik kontrolü |
| Sürekli spot check | Haftalık | 20-30 örnek | SME #1 | Drift tespiti |
| Düşük confidence yönlendirme | Sürekli | Skor < 0.6 olanlar | Active queue | Active learning |
| Anlaşmazlık çözümü | Sürekli | Cross-judge fark > 0.2 | SME panel | Final label + retrain |
| Çeyreklik audit | 3 ayda 1 | 200 örnek | 3 SME | Pipeline güvenilirlik raporu |
- Argo Workflow / Prefect: HITL queue’ya soru gönderme ve etiketleri toplama orchestration’ı.
- Argilla, Label Studio, Prodigy: Açık kaynak etiketleme arayüzleri; çoklu etiketleyici desteği.
- Surge AI / Scale AI: Outsourced uzman etiketleme; medikal/hukuki domain’lerde tercih edilir.
- Confident AI / Humanloop: RAG eval’a özel uçtan uca HITL platformları.
A/B Test Framework ve Eşik Kapıları
Eval pipeline yalnızca metrik üretmek için değil, hangi sürümün üretime gideceğini belirlemek için kurulur. A/B test çerçevesi iki seviyede çalışır: offline A/B (aynı golden dataset’te iki sürümü kıyaslama) ve online A/B (üretim trafiğinin bir bölümünde iki sürümün performansını ölçme). Offline tarafta paired bootstrap testi veya McNemar testi istatistiksel anlamlılığı doğrular; online tarafta sequential testing (Optimizely, GrowthBook) varyans azaltma sağlar.
- Eşik kapıları: faithfulness < 0.85 ise CI fail, context_recall < 0.70 ise warning, answer_relevancy < 0.80 ise blocker.
- Champion-challenger: Mevcut üretim “champion”, yeni sürüm “challenger”; eval skorlarında en az %3 mutlak iyileşme ve p < 0.05 anlamlılık gerekir.
- Canary release: Yeni embedding modeli veya yeni prompt template önce trafiğin %5’ine, sonra %25’ine, ardından %100’üne aşamalı yayılır.
- Rollback kriterleri: Üretim metrikleri 4 saat içinde önceki sürüme göre %5’ten fazla düşerse otomatik rollback tetiklenir.
- Multi-armed bandit: Üç+ varyant test edilirken Thompson sampling ile maliyet/zaman optimize edilir.
Eşik kapılarının yazılı politikaya bağlanması iç ve outsource ekiplere ortak dil sağlar. LLMOps üretim yönetimi yazımız bu eşiklerin değişiklik yönetimine nasıl bağlandığını gösterir. Karar matrisi yoksa her sürüm tek tek tartışılır, süreç haftalara yayılır; eşik kapıları kararı otomatikleştirir.

Observability Platformları: Langfuse, Helicone, Phoenix, Arize
RAG observability eval’in canlı uzantısıdır: üretimde gerçek kullanıcı sorguları üzerinde retrieval ve generation katmanlarının metriklerini sürekli izler. 2026 itibarıyla bu alanda dört platform öne çıkıyor: Langfuse (açık kaynak, MIT, self-host odaklı), Helicone (open-core, cost tracking güçlü), Phoenix Arize (OpenInference standardı) ve LangSmith (LangChain ekosistemi). Aşağıdaki karşılaştırma seçimi pratikleştirir. Observability logs/metrics/traces yazımız bu sinyallerin genel mimariye nasıl entegre olduğunu derinleştirir.
| Platform | Lisans | Trace standardı | Online eval | Cost tracking | Self-host | Tipik tercih |
|---|---|---|---|---|---|---|
| Langfuse | MIT (cloud + OSS) | OpenTelemetry | Var (LLM-judge) | Var | Docker compose | EU/KVKK uyumu |
| Helicone | Apache 2.0 | Proxy + OpenLLM | Sınırlı | Çok güçlü | Helm chart | Cost optimization |
| Phoenix Arize | Açık çekirdek | OpenInference | Native | Var | Container | OTel uyumu |
| LangSmith | Ticari (yönetilen) | LangChain native | Built-in | Var | Enterprise sürüm | LangChain stack |
| Datadog LLM Obs | Ticari | OpenTelemetry | Var | Var | SaaS | Tek pane of glass |
Observability platformlarının ortak özelliği “shadow eval” yapabilmeleridir: üretim trafiğinin örneklenmiş bir kısmında LLM-judge skoru üretip dashboard’a düşürürler. Bu, golden dataset metrikleri ile üretim dağılımı arasındaki uçurumu kapatır. Örnekleme oranı %1-5 arası tutulur; üstü maliyetli, altı gürültülüdür. Langfuse ve Phoenix bu örneklemeyi otomatize ederken Datadog LLM Observability tek pane görünüm sunar.

Pipeline Kurulum Sırası: 8 Haftalık Yol Haritası
RAG eval pipeline’ı tek günde kurulan bir sistem değildir; olgun kurulum 6-8 hafta sürer, sonrasında haftalık operasyonel yük 4-6 saattir. Aşağıdaki adımlar Snowflake 2025 raporundaki 47 başarılı ekibin ortak şablonudur. RAG altyapı rehberimiz mimari kararları detaylandırır; embedding boyut optimizasyonu yazımız retrieval katmanını tamamlar.
- Hafta 1-2 — Golden dataset: 200-300 soru, ideal cevap, ground truth chunk mapping; SME çapraz validasyonu (kappa > 0.75).
- Hafta 2-3 — Ragas entegrasyonu: Context precision/recall, faithfulness, answer relevancy hesaplamaları; pytest plugin’i CI’ya bağlanır.
- Hafta 3-4 — Eşik kapıları: Faithfulness < 0.85 fail, context_recall < 0.70 warning; PR template’ine eval raporu zorunlu hâle gelir.
- Hafta 4-5 — Judge kalibrasyonu: Cross-judge ensemble (Sonnet + GPT-4o); kappa > 0.75 sağlanana kadar prompt iterasyonu.
- Hafta 5-6 — Observability: Langfuse veya Phoenix kurulur; üretim trafiğinin %2’sinde shadow eval başlar.
- Hafta 6-7 — A/B framework: Champion-challenger şeması; canary release ve otomatik rollback eşikleri runbook’a yazılır.
- Hafta 7-8 — HITL ve drift: Düşük confidence sorgular Argilla queue’sa düşer; haftalık spot check ve aylık full eval planlanır.
Maliyet, ROI ve Yaygın Tuzaklar
RAG eval pipeline’ının doğrudan maliyeti yargıç model token’ları, observability platform aboneliği ve mühendislik saatleridir. 300 soruluk golden set’te GPT-4o ile nightly eval aylık yaklaşık 150-240 USD, GPT-4o-mini ile 12-20 USD tutar. Langfuse self-host yıllık 800-1500 USD GPU/CPU maliyetiyle bedavadır, cloud sürümü aylık 50-300 USD bandında. LangSmith ve Phoenix Cloud aylık 100-600 USD aralığında konumlanır. Mühendislik saati ise ilk kurulumda 2-4 hafta tam zamanlı, sonrasında haftada 4-6 saat seviyesindedir. LLM cost optimization yazımız judge token maliyetinin caching ve batching ile %40-60 düşürülmesini ele alır.
ROI tarafında Arize AI 2025 verisi konuşuyor: eval pipeline yatırımının üç ayda amortisman oranı %71, altı ayda %94. Geri dönüş “hangi optimizasyonun gerçekten işe yaradığını” ölçebilmenin müşteri kaybı, destek bilet sayısı ve hukuki risk üzerindeki etkilerinden gelir. Yaygın tuzaklar: tek judge biasına güvenmek, multilingual/Türkçe için İngilizce kalibrasyonunu sürdürmek (Türkçe’de %12-18 daha düşük güvenilirlik), out-of-scope sorularını dataset’ten dışlamak ve eval’i tek seferlik proje olarak görmek. AI Safety yazımız bu disiplinin kurumsal risk yönetimine nasıl bağlandığını gösterir.
Sürekli İyileştirme ve Drift Yönetimi
RAG sistemleri canlıda statik değildir; kullanıcı soru dağılımı değişir, doküman tabanı büyür, embedding modeli güncellenir, LLM provider yeni sürüm yayınlar. Eval pipeline tek seferlik proje değil sürekli işleyen döngüdür. Üretim logları haftalık örneklenir, golden set’e yeni örnekler eklenir, aylık full eval koşulur. Datadog ve Phoenix canary release entegrasyonu, yeni retrieval modelini veya prompt template’i trafiğin %5’ine yönlendirip metrik karşılaştırmasını otomatize eder. AI agent patternleri yazımız döngünün agentic sistemlerde evrimini ele alır.
- Drift tespiti: Kullanıcı sorgu embedding’lerinin merkezinden uzaklaşma trendini Wasserstein veya KL divergence ile ölçer.
- Active learning: Düşük confidence ile yanıtlanmış sorgular HITL queue’ya yönlendirilir, etiketlenir ve golden set’e eklenir.
- Versiyon karşılaştırması: Her embedding ve LLM model güncellemesi A/B testle doğrulanır; regresyon tespiti otomatik.
- Quarterly audit: SME panel 200 örnek üzerinde judge model doğruluğunu yeniden ölçer; kappa < 0.65 ise kalibrasyon tekrarı.
- Doküman güncelleme döngüsü: Yeni doküman eklendiğinde golden set’in en az %10’u tazelenir.
Sık Sorulan Sorular
Golden test seti kaç örnek içermeli ve nasıl dağıtılmalı?
Ragas resmi rehberi minimum 50 önerirken, üretim güvenli karar için 200-300 ideal aralıktır. Soruları üç kategoride dağıtın: tek dokümana cevap (lookup, %45-55), çoklu doküman sentezi (multi-hop, %25-35) ve cevabı belgede olmayan (“don’t know” kontrolü, %15-20). Sektör derinliği yüksek ekipler için 500-800 örnek hedefleyin. Cohen’s kappa > 0.75 SME çapraz validasyonu zorunludur; çeşitlilik p95 metriklerinin gerçek üretim dağılımını yansıtmasını sağlar.
LLM-as-judge ne kadar güvenilir ve nasıl kalibre edilir?
Anthropic 2025 araştırmasına göre GPT-4o ve Claude 3.5 Sonnet judge’ları insan değerlendirmesiyle %78-85 uyum gösteriyor. Tek model judge bias riskini taşır; cross-judge ensemble (iki farklı yargıç) ile bu rakam %92’ye çıkıyor. Üretim öncesi mutlaka 60-100 örnek üzerinde insan kalibrasyonu yapılmalı, Cohen’s kappa > 0.75 sağlanmalı. Çeyreklik audit ile bu rakam yeniden doğrulanır; düşüş durumunda prompt iterasyonu veya daha güçlü model seçilir.
Ragas, TruLens, DeepEval ve Phoenix arasında nasıl seçim yaparım?
Tek araç önerisi yerine hibrit yaklaşım önerilir. Batch eval ve PR gating için Ragas (pytest plugin’i ve hazır 4 metrik), regression test suite için DeepEval (pytest-native, 14 metrik), online shadow eval için TruLens veya Phoenix (üretim izleme), KVKK/EU uyumu için Langfuse self-host. LangSmith yalnızca tüm stack LangChain ise hızlı çözümdür. Snowflake 2025 raporuna göre üretim ekiplerinin %47’si en az iki eval aracı kullanır.
Retrieval mı, generation mı önce optimize edilmeli?
Retrieval önce. Anthropic 2025’e göre RAG hatalarının %57’si retrieval katmanından, %32’si generation’dan geliyor. Kötü retrieval, iyi generation’a rağmen kaçınılmaz hatalar üretir; LLM olmayan bir kanıta dayanarak halüsinasyon kurar. Önce context_recall’ı %85 üstüne çıkarın (chunk strategy, embedding model, rerank, hybrid search), ardından faithfulness’ı iyileştirin. Sıralama tersse generation iyileştirmesi metrik gürültüsünde kaybolur.
CI’da RAG eval ne kadar sürmeli ve maliyeti ne olur?
Pratik öneri 300 soruluk set için 4-7 dakika; daha uzun süreler PR feedback döngüsünü kırar. Async batch çağrıları, embedding cache ve GPT-4o-mini/Claude Haiku 3.5 gibi hızlı judge modelleri kullanmak süreyi 80 saniyenin altına indirebilir. Maliyet: 300 sorgu için GPT-4o-mini ile 0.4-0.7 USD, Sonnet ile 4-7 USD, GPT-4o ile 5-8 USD. Yaygın strateji: her PR’da rastgele 50 örnek (mini judge) + gece nightly full set (Sonnet/GPT-4o judge).
Sonuç: Üretim RAG’ın Olgunluk Göstergesi
2026’da RAG evaluation pipeline’ı üretim RAG sistemlerinin olgunluk göstergesi hâline geldi. Retrieval ve generation katmanlarının ayrı ölçümü, LLM-as-judge ile insan kalibrasyonunun birleşimi ve CI’da eşik kapıları, hallucination’ı 4.3 kat azaltan kanıtlanmış bir mimaridir. Tek araç kararı yerine hibrit stratejik karar verin: Ragas PR gating için, DeepEval regression suite için, Phoenix veya Langfuse üretim shadow eval ve observability için, TruLens özel feedback function’lar için. Yargıç tarafında cross-judge ensemble (Claude 3.5 Sonnet + GPT-4o) altın standart, CI’da ekonomik koşum için Haiku 3.5 veya GPT-4o-mini yeterli. Yatırımın üç ayda %71 amortisman oranıyla geri dönmesi, eval pipeline’ı opsiyonel değil zorunlu bir kapasite hâline getiriyor.
Karar mimarisi tek bir cümleye sığar: “Ölçemediğiniz şeyi iyileştiremezsiniz; iyileştirdiğinizi sandığınız ama ölçmediğiniz şey de regresyona dönüşür.” Pipeline’ı kurarken sırayla golden dataset → metrik seçimi → judge kalibrasyonu → CI eşik kapıları → observability → A/B framework → HITL döngüsünü çalıştırın. 6-8 haftalık disiplinli kurulum, sonraki yıllarda haftalık 4-6 saatlik operasyonel yükle kalır ve RAG sisteminizin her sürümünde güvenilir kararlar almanızı sağlar. Daha derin kaynaklar için Ragas resmi dokümantasyonu, TruLens dokümantasyonu, DeepEval GitHub deposu, Phoenix Arize rehberi, Langfuse dokümantasyonu, OpenAI Evals framework ve Anthropic eval araştırma yayınları referans olarak takip edilebilir.










Ömer ÖNAL
Mayıs 16, 2026Yazılım danışmanlığı projelerinde sıkça karşılaştığım bir soru: “Hangi mimari hangi senaryoda öncelikli olmalı?” Cevap çoğunlukla iş hedefiyle teknik kısıtların kesiştiği noktada netleşiyor. Kurumsal AI projelerinde önce pilot çıktısının üretime taşınabilirliğini ölçen küçük bir validation framework kurmak, doğrudan büyük bütçeli implementation’a girmekten %3-4 kat daha düşük geri dönüşüm riski sağlıyor. Yorumlarınıza açığım.