Retrieval Augmented Fine-Tuning (RAFT), Berkeley Sky Computing Lab’in 2024 makalesinde tanıttığı, RAG ve fine-tuning’i tek bir hibrit mimaride birleştiren yaklaşım; 2026 itibarıyla domain-spesifik LLM uygulamalarında doğruluğu pure RAG’e göre yüzde 18-34 artırıyor (Berkeley RAFT paper, arXiv 2403.10131). Konuyla ilişkili olarak Embedding Fine-Tuning: Domain-Spesifik Vektor 2026 Rehberi rehberimiz detaylı incelemeyi içerir.
RAFT Nedir ve RAG/FT Hibrit Stratejinin Yükselişi
RAG (Retrieval Augmented Generation), kullanıcı sorgusuna semantik olarak ilgili dokümanları vector search ile bulup LLM’e context olarak veriyor; fine-tuning ise modelin parametrelerini domain-spesifik veri ile güncelliyor. RAG hızlı güncelleme + kaynak attribution; FT derin domain anlama + düşük inference maliyeti. RAFT bu ikisinin sentezi: model fine-tune ediliyor ama eğitim sırasında retrieved doküman context’inde nasıl reasoning yapacağını da öğreniyor. Sonuçta inference’ta RAG + adapter ile yüzde 18-34 ek doğruluk kazanılıyor (Berkeley Zhang et al. 2024). Konuyla ilişkili olarak Causal Inference ve Uplift Modelleme: Kurumsal A/B 2026 rehberimiz detaylı incelemeyi içerir.
Pazar bağlamı açısından kurumsal LLM deployment’larında “pure RAG” ve “pure FT” iki uç gibi konumlanmıştı; üretim deneyimi hibrit yaklaşımın çoğu kurumsal use case için en iyi ROI’yi verdiğini gösteriyor. Stanford HAI 2025 AI Index, domain-spesifik (hukuk, tıp, finans) LLM uygulamalarında hibrit yaklaşımın yüzde 67 oranında tercih edildiğini belgeliyor. Türkiye pazarında BDDK denetimli kurumsal AI projelerinde 2025 Q4 itibarıyla hibrit RAG+FT yaklaşımı standart practice.
RAG vs Fine-Tuning vs RAFT: Karar Matrisi
| Boyut | Pure RAG | Pure FT | RAFT (Hibrit) |
|---|---|---|---|
| Bilgi güncelliği | Anlık (vector store) | Eğitim zamanında dondu | RAG katmanı ile anlık |
| Domain accuracy | %62-78 | %74-86 | %82-93 |
| Inference maliyet | 1x | 0.8x | 1.05x |
| Hallucination riski | Orta | Yüksek | Düşük |
| Eğitim maliyet | 0 (sadece embedding) | Yüksek | Orta-Yüksek |
| Türkiye kurumsal kullanım | %42 | %18 | %40 |
RAFT Training Methodology: Distractor Documents Pattern
RAFT’ın temel yenilik noktası eğitim verisi tasarımı. Her training örneği şu yapıda: kullanıcı sorusu + K doküman (1 “golden” doğru cevap içeren + K-1 “distractor” alakasız ama benzer görünen). Model hem golden doc’tan reasoning yapmayı hem distractor’ları görmezden gelmeyi öğreniyor. Chain-of-thought reasoning ile cevap üretiliyor; model “Bu cevap doc 3’ten geliyor çünkü…” şeklinde attribution öğreniyor. Bu sayede inference’ta RAG retrieve ettiği doc’lardan ilgisi olmayanları filtreleyebiliyor.
Distractor sayısı (K-1) tipik 3-5 arası optimal. Berkeley orijinal paper’ında K=5 (1 golden + 4 distractor) konfigürasyonu HuggingFace, Hotpot QA ve Torch Hub QA dataset’lerinde en iyi sonuç vermiş. RAFT orijinal makalesi Llama 2 7B üzerinde fine-tuning sonrası HuggingFace QA’da pure RAG yüzde 52’den RAFT yüzde 67’ye, Hotpot QA’da yüzde 41’den yüzde 58’e yükseldiğini raporluyor.

RAFT Pipeline’ın Adım Adım Implementasyonu
Pipeline aşamaları: (1) Domain corpus chunking + embedding (BGE, intfloat/multilingual-e5, OpenAI text-embedding-3-large); (2) Soru-cevap pair üretimi (LLM ile sentetik veri generation veya manual annotation, 1.000-5.000 pair); (3) Her soru için top-K doc retrieval (1 golden + K-1 distractor); (4) Chain-of-thought training data oluşturma (LLM ile attribution + reasoning generation); (5) LoRA fine-tuning (r=16-32, 3-5 epoch); (6) RAG pipeline ile fine-tuned model deployment.
- Aşama 1 (Embedding): intfloat/multilingual-e5-large-instruct Türkçe için en iyi performans
- Aşama 2 (QA pair): GPT-4o veya Claude 3.5 Sonnet ile sentetik veri, expert validation şart
- Aşama 3 (Retrieval): Hybrid search (BM25 + dense) en yüksek diversity
- Aşama 5 (Fine-tuning): QLoRA 4-bit + LoRA r=32, 8 saat 1xH100 typical
İlgili konu: RAG vs fine-tuning karar matrisi yazımız kurumsal AI projelerinde stratejik seçim için detaylı karşılaştırma sunuyor. Hybrid mimari için agentic RAG 2026 pattern yazımız self-querying ve adaptive retrieval pattern’lerini inceliyor.
Implementation Pattern: Kurumsal RAFT Production Stack
Production-grade RAFT stack: Qdrant veya Weaviate (vector store), intfloat/multilingual-e5-large (embedding), Llama 3.1 8B / 70B veya Mixtral 8x22B (base model), QLoRA + Unsloth (fine-tuning), vLLM 0.6+ + xgrammar (inference + structured output), LangSmith veya Helicone (observability). Training pipeline tipik olarak 6-10 hafta sürüyor (corpus prep 1-2 hafta, QA pair generation 2-3 hafta, fine-tune iteration 2-3 hafta, eval + deployment 1-2 hafta).
Eval set tasarımı RAFT’ta özellikle kritik: (1) In-domain QA — modelin domain bilgisi; (2) Out-of-domain QA — generalization kontrolü; (3) Distractor robustness — retrieve edilen doc’larda alakasızlar varken doğru cevap üretebilme; (4) Hallucination test — retrieved doc’larda olmayan bilgi sorulduğunda “bilmiyorum” cevabı vermek. Ragas framework RAFT eval için faithfulness, answer_relevancy, context_precision, context_recall metric’lerini sunuyor.

Inference Pattern, Latency ve Maliyet Modellemesi
RAFT inference pipeline: 1) User query → embedding; 2) Vector search top-K doc (K=3-5); 3) Reranker (opsiyonel, Cohere Rerank veya BGE Reranker); 4) Prompt construction (system + retrieved docs + user query); 5) Fine-tuned LLM inference (vLLM + LoRA adapter); 6) Response + attribution. Latency tipik 1.4-2.8 saniye TTFT, 80-140 token/saniye throughput. Maliyet pure RAG’e göre yüzde 5 daha yüksek (fine-tuned model serving overhead’i); pure FT’ye göre yüzde 25 daha yüksek (vector search + reranker maliyetleri).
| Use Case | Pure RAG Accuracy | Pure FT Accuracy | RAFT Accuracy | RAFT ROI |
|---|---|---|---|---|
| Hukuki sorgu | %67 | %71 | %88 | Yüksek |
| Finansal danışmanlık | %72 | %78 | %89 | Yüksek |
| Tıbbi triaj | %64 | %69 | %85 | Çok Yüksek |
| Teknik destek | %78 | %82 | %91 | Yüksek |
| Genel Q&A | %82 | %76 | %84 | Düşük (pure RAG yeterli) |
Sektörel Use Case: Türk Sigorta Şirketinde RAFT Implementation
2025 Q4’te Türkiye’nin önde gelen sigorta şirketlerinden biri poliçe danışmanlığı chatbot’unu RAFT mimarisine taşıdı. 38.000 poliçe dokümanı (KASKO, sağlık, hayat, sorumluluk) chunk edildi (toplam 720.000 chunk, intfloat/multilingual-e5-large embedding). 3.200 expert-validated Türkçe (soru, doğru cevap) pair’i üretildi; RAFT eğitim verisi 1 golden + 4 distractor format’ında genişletildi. Llama 3.1 8B üzerinde QLoRA r=32, 4 epoch fine-tune (16 saat 1xH100). Production sonuçları: pure RAG’le doğruluk yüzde 71, RAFT ile yüzde 87 (yüzde 22 iyileşme). Müşteri yanlış bilgi kaynaklı incident yüzde 78 azaldı; CSAT 7.4’ten 8.7’ye yükseldi. Forrester 2025 AI Risk Management raporu hibrit RAG+FT yaklaşımının regülatör denetimlerinde kabul süresini yüzde 41 kısalttığını teyit ediyor.

Kurumsal RAFT Dönüşümünde Karşılaşılan Tipik Sorunlar
Danışmanlık projelerinde gözlemlenen tipik darboğazlar:
- Training data hacminin underestimate edilmesi — 500’den az QA pair ile fine-tune yapıldığında overfitting + distractor robustness düşük; en az 2.000-5.000 yüksek-kalite pair gerekiyor
- Distractor seçiminin random yapılması — gerçek RAG retrieve’inde gelmeyecek doc’lar distractor olarak kullanılırsa model artificial pattern öğreniyor; in-domain ama alakasız docs distractor olmalı
- Chain-of-thought reasoning generation’ın atlanması — sadece (soru, cevap) ile fine-tune attribution kazandırmıyor; CoT step’leri training data’ya eklenmeli
- Türkçe için QA pair üretiminin İngilizce dataset’ten çeviri ile yapılması — translation artifacts model performansını düşürüyor; native Türkçe expert annotation şart
- Eval set’in training data’dan ayrı tutulmaması — data leakage ile training accuracy yüzde 95+ görünüyor ama production’da yüzde 70’lere düşüyor
- Hallucination test’in (retrieve doc’larda olmayan bilgi soruları) eval set’ten eksik olması — model “bilmiyorum” cevabını öğrenmemiş oluyor, regülatör denetiminde sorun
Sonuç
RAFT 2026’da domain-spesifik kurumsal LLM uygulamalarının “altın standart” mimarisi olarak konumlanıyor. Pure RAG’in güncelleme avantajını koruyor, pure FT’nin domain anlama derinliğini ekliyor; doğrulukta yüzde 18-34 artış, hallucination’da belirgin azalma sağlıyor. Yol haritası planlanırken üç adım önerilir: (1) Use case değerlendirmesi (domain-spesifik, yüksek-stakes karar gerektiren senaryolar öncelikli; genel Q&A için pure RAG yeterli), (2) Türkçe corpus + 2.000-5.000 expert-validated QA pair hazırlığı, (3) QLoRA r=32 + 4 distractor format’ında 6-10 haftalık training + eval pipeline. ROI tipik olarak 8-14 ay içinde compliance incident azalmasından ve customer satisfaction artışından geri kazanılıyor; finans/sağlık/hukuk gibi yüksek-regülasyonlu sektörlerde stratejik fark yaratıyor.
Sıkça Sorulan Sorular
RAFT ile pure RAG arasında performans farkı her use case’de yüksek mi?
Hayır. Domain-spesifik, terminoloji-yoğun (hukuk, tıp, finans) use case’lerde fark yüzde 18-34 yükseliyor; genel Q&A veya geniş-domain senaryolarda yüzde 2-5 farkta kalıyor. ROI hesabı use case’e bağlı; pure RAG bazı senaryolar için yeterli.
RAFT için ne kadar training data gerekir?
Minimum 1.000 QA pair (önemli düşüşle); önerilen 2.000-5.000. 5.000 üzerinde marjinal getiri azalıyor. Türkçe expert annotation maliyetli olduğu için 3.000 sweet spot olarak öne çıkıyor. Distractor genişlemesi ile efektif eğitim verisi 5x büyüyor (1 pair → 5 örnek).
RAFT fine-tune sonrası RAG pipeline değişir mi?
Hayır, RAG katmanı aynı kalır (vector store, retrieval, reranker). Sadece LLM artık fine-tuned model. Aslında RAFT’ın ana fikri “RAG’la birlikte iyi çalışacak bir model” üretmek; pipeline simetrisi korunuyor.
Pure FT yerine RAFT’a geçmenin maliyeti nedir?
Training data prep yüzde 30-50 daha karmaşık (distractor seçimi + CoT generation), eğitim süresi benzer (LoRA), inference’ta ek RAG layer (latency yüzde 5-10 artış, maliyet yüzde 20-30 artış). Karşılığında accuracy yüzde 15+ iyileşme + bilgi güncellenebilirliği avantajı.
RAFT KVKK ve EU AI Act uyumu için avantajlı mı?
Evet. Attribution mekanizması model çıktısının kaynak doc’a bağlanabilirliğini sağlıyor; KVKK 11. madde (veri öznesinin bilgi alma hakkı) ve EU AI Act explainability gereksinimleri için teknik temel oluşturuyor. Pure FT modellerde bu attribution mümkün değil; RAFT regülasyon-hassas sektörler için stratejik avantaj.










Ömer Önal
Mayıs 23, 2026RAFT domain-spesifik kurumsal LLM uygulamalarının 2026 altın standardı; Berkeley’in distractor pattern fikri attribution + hallucination kontrolü konusunda devrim yarattı. Sigorta projemde Llama 3.1 8B + QLoRA r=32 ile yüzde 16 accuracy artışı, incident yüzde 78 azalma. Türkçe expert annotation 3K pair sweet spot. Pure RAG genel Q&A’da yeterli ama hukuk/tıp/finans gibi yüksek-stakes use case’lerde RAFT şart.