RAG Altyapı Kurulum 2026: Vector DB, Embedding, LangChain

Q: RAG için fine-tuning gerekli mi?

Çoğu zaman hayır. RAG dış bilgiyi context window'a getirir, fine-tuning ise modelin tarzını ya da çok özel format çıktısını öğretir. Önce RAG ile başlayıp gerekiyorsa fine-tuning eklemek doğru sıra. Anthropic'in 2025 raporuna göre kurumsal LLM projelerinin %78'i sadece RAG ile yeterli sonuç alıyor; fine-tuning'e ihtiyaç duyanlar genelde özel jargon, sıkı format şartı veya stil kopyalama senaryolarında bulunuyor.

Q: Embedding ve LLM aynı sağlayıcıdan olmak zorunda mı?

Hayır, sağlayıcı bağımsızlığı stratejik bir avantaj. Embedding modelini Cohere'den, LLM'i Anthropic veya OpenAI'den seçmek yaygın bir kombinasyon. Önemli olan tüm dokümanların tek bir embedding modeliyle vektörlenmesi ve sorgunun da aynı modelle embed edilmesidir; embedding modeli değiştirildiğinde tüm corpus yeniden vektörlenmek zorunda.

Q: Chunk boyutu nasıl seçilir?

Doküman yapısına bağlı. Kısa SSS için 256-512 token, uzun teknik raporlar için 1024-2048 token önerilir. A/B test ile optimize edilmesi şart; aynı corpus için chunk_size 256, 512, 1024 ve overlap %10, %20, %30 kombinasyonlarını golden dataset üzerinde Ragas ile ölçüp en iyi context precision ve faithfulness skorunu seçmek pratik yaklaşım.

Q: RAG yerine uzun context modeli kullanılamaz mı?

Kullanılabilir ama maliyet ve latency katlanır. 200K token bağlamı her sorguda göndermek 2K token'lık RAG'e göre yaklaşık 100 kat daha pahalı, hız da düşer ve 'lost in the middle' etkisiyle hassasiyet azalır. Stanford HAI 2025 raporu long-context modellerin RAG'e alternatif değil tamamlayıcı olduğunu, hibrit kullanımın tek başına her ikisinden de iyi sonuç verdiğini gösteriyor.

Q: Vector DB hangi durumda pgvector yerine dedike vector DB tercih edilmeli?

Üç ana eşik: vektör sayısı 50 milyonu aşıyorsa, p95 latency hedefi 50 ms altıysa, multi-tenant izolasyon veya hibrit retrieval yerleşik olarak gerekiyorsa. Bu üçünden hiçbiri yoksa pgvector çoğu kurumsal RAG için yeterli; mevcut PostgreSQL operasyonel bilgisi ve ACID transaction garantisi gibi avantajları korunuyor. Databricks State of Data + AI 2025 raporu kurumsal RAG projelerinin %58'inin pgvector ile başladığını gösteriyor.

Yapay Zeka & LLM

Mayıs 13, 2026Ömer ÖNAL1 Yorum

Üretken yapay zeka modelleri büyüleyici çıktılar üretiyor, ancak kurumsal kullanımda halüsinasyon hâlâ en kritik üretim engelidir. OpenAI’nin 2025 araştırmasına göre alan-bilgisi olmadan deploy edilen LLM sistemlerinde halüsinasyon oranı %27 seviyesinde seyrediyor; doğru kurgulanmış bir RAG (Retrieval-Augmented Generation) altyapısı bu oranı %3’ün altına indiriyor. Stanford HAI AI Index 2025 raporu da kurumsal LLM uygulamalarının %71’inin RAG omurgasına yaslandığını gösteriyor. Bu rehber RAG mimarisinin tüm katmanlarını, vector veritabanı seçim kriterlerini, embedding model karşılaştırmasını, chunking stratejilerini, retrieval yöntemlerini, evaluation pipeline’larını ve 2026 Türkiye koşullarında üretime alma adımlarını derinlemesine ele alıyor. Konuyla ilişkili olarak RAG Chunking Stratejileri: Semantic, Recursive, Layout 2026 rehberimiz detaylı incelemeyi içerir.

📖 17 dakikalık okuma

İçindekiler

TL;DR: 2026 RAG Stack'inin Kısa Özeti
RAG Nedir, Naive vs Advanced RAG Farkı
Vector Veritabanı Seçimi: Pinecone vs Weaviate vs Qdrant vs Milvus vs pgvector
Embedding Modelleri: OpenAI, Cohere, BGE-M3 ve Voyage Karşılaştırması
Chunking Stratejileri: Fixed-Size, Recursive, Semantic, Hierarchical, Agentic
Retrieval Yöntemleri: Similarity, Hybrid, Reranking ve Query Transformation
RAG Evaluation: Ragas, TruLens ve Custom Metrics
Orkestrasyon ve Production Deployment: LangChain, LlamaIndex, Latency, Caching
Türkiye'de Kurumsal RAG: KVKK, Veri Yerleşimi ve Maliyet
Kurumsal RAG İmplementasyonlarında Karşılaşılan Tipik Sorunlar
Sıkça Sorulan Sorular
Sonuç

TL;DR: 2026 RAG Stack’inin Kısa Özeti

Üretim ortamı RAG stack’lerinde gözlemlenen pattern net: tek bir bileşen değil, beş katmanlı bir sistem doğru sonuç veriyor. Embedding kalitesi sonucun %60’ını, retrieval stratejisi %25’ini, chunking kalitesi %10’unu, LLM seçimi %5’ini belirliyor. Yanlış sırayla yapılan optimizasyon en pahalı modelle bile düzeltilemez.

Embedding: Türkçe içerik için Cohere embed-multilingual-v3 (1024 boyut, MTEB TR %71) veya OpenAI text-embedding-3-large (3072 boyut, MTEB TR %68).
Vector DB: 10M altı vektör için pgvector, 100M altı için Qdrant veya Weaviate, ölçek + yönetilen servis tercihi için Pinecone.
Chunking: Recursive character splitter + 512-1024 token + %15-20 overlap default; semantic chunking %18 retrieval iyileştirmesi sağlıyor.
Retrieval: Dense + sparse hibrit (BM25 + cosine) + Cohere Rerank 3; tek başına similarity’ye göre nDCG@10 skoru ortalama %32 artıyor.
Orkestrasyon: LangChain agentic akışlar için, LlamaIndex pure retrieval pipeline’ları için; ikisi birlikte de yaygın.
Evaluation: Ragas ile faithfulness, answer relevancy, context precision ölçümü zorunlu; TruLens ile production trace.
Maliyet: 10.000 sorgu/gün hacminde başlangıç bütçesi yaklaşık 480-720 USD/ay (embedding + vector DB + LLM + reranker dahil).

RAG Nedir, Naive vs Advanced RAG Farkı

RAG, kullanıcı sorgusunu önce harici bir bilgi tabanından getirilen ilgili dokümanlarla zenginleştirip ardından LLM’e gönderen mimaridir. Üç katmanda düşünmek gerekir: veri ingestion’ı, embedding + saklama ve retrieval + generation. İlk katman kurumsal dokümanları (PDF, Confluence, Notion, SharePoint, SQL kayıtları, e-posta arşivleri) parçalara böler ve metadata ekler. İkinci katman bu parçaları yüksek boyutlu vektörlere dönüştürür ve bir vector veritabanında saklar. Üçüncü katman kullanıcı sorgusunu aynı embedding modeliyle vektörleştirir, en benzer k parça için cosine similarity araması yapar ve bunları LLM’e bağlam olarak geçer. Konuyla ilişkili olarak Vector Database Karşılaştırma: Pinecone vs Weaviate vs Qdrant vs Milvus 2026 rehberimiz detaylı incelemeyi içerir.

Naive RAG bu üç adımı düz şekilde uygular: sorgu → embed → top-k similarity → LLM. Üretim ortamlarında naive RAG’in hit rate’i ortalama %58 seviyesinde kalıyor; LangChain State of AI Agents 2025 raporu kurumsal sistemlerin %83’ünün advanced RAG’e geçtiğini gösteriyor. Advanced RAG; query rewriting, hypothetical document embeddings (HyDE), multi-query retrieval, reranking, parent-document retrieval ve self-correction döngüleriyle hit rate’i %85+ seviyesine taşıyor.

RAG Türü	Hit Rate	Faithfulness	Latency (p95)	Maliyet Çarpanı	Karmaşıklık
Naive RAG	%58	%72	800 ms	1.0x	Düşük
Advanced RAG (rerank)	%79	%88	1.4 s	1.6x	Orta
Advanced RAG (HyDE + rerank)	%85	%91	2.2 s	2.3x	Yüksek
Modular RAG (agentic)	%89	%93	3.5 s	3.1x	Çok Yüksek
Long Context (no RAG)	%62	%78	5.8 s	11.2x	Düşük

Dokuman chunking stratejisi: recursive ve semantic chunking ile 512-1024 token parcalara bolunmus metin gorseli

Vector Veritabanı Seçimi: Pinecone vs Weaviate vs Qdrant vs Milvus vs pgvector

Vector DB seçimi sadece performans değil; veri yerleşimi, operasyonel yetkinlik, ekosistem entegrasyonu ve maliyet kombinasyonudur. Aşağıdaki karşılaştırma 10M vektör, 1024 boyut, gün başına 100.000 sorgu senaryosunda Pinecone Learn benchmark referansıyla hazırlandı. 50M altı vektör için pgvector çoğu kullanım için yeterli, latency hassasiyeti yüksek case’lerde dedike vector DB tercih ediliyor.

Vector DB	Konum	Aylık maliyet (10M vec)	p95 query latency	Hybrid search	Metadata filter	Türkiye dağıtım
Pinecone	Managed SaaS (AWS/GCP)	~$72	30-50 ms	Evet	Tam	Veri yurt dışında
Weaviate	Self-host / Cloud	~$45 (self-host)	40-80 ms	Evet (BM25 yerleşik)	Tam	On-prem mümkün
Qdrant	Self-host / Cloud	~$30 (self-host)	30-60 ms	Evet	Tam (payload index)	On-prem mümkün
Milvus	Self-host / Zilliz Cloud	~$55 (self-host)	25-55 ms	Evet	Tam	On-prem mümkün
pgvector	PostgreSQL extension	~$15	80-150 ms	Sınırlı (manuel)	SQL ile	Mevcut PG ile
Elasticsearch (kNN)	Self-host / Elastic Cloud	~$95	60-110 ms	Evet (yerleşik)	Tam	On-prem mümkün

Kurumsal RAG implementasyonlarında sıkça karşılaşılan bir hata erken aşamada Pinecone gibi managed servise gitmektir. 5 milyon vektör altı projelerin %62’si pgvector ile başlayıp lazım olursa Qdrant’a göç ediyor; bu yaklaşım hem maliyet hem operasyonel öğrenme eğrisini yumuşatıyor. Daha derin karşılaştırma için Vector Veritabanı Karşılaştırması 2026 yazısı tüm benchmark detaylarını içeriyor.

Pinecone: Sıfır operasyonel yük, %99.95 SLA, multi-region replication, ancak veri AWS/GCP’de tutuluyor.
Weaviate: Yerleşik BM25 + dense hibrit, GraphQL API, multi-tenant izolasyon, named vectors desteği.
Qdrant: Rust ile yazılmış, en düşük bellek kullanımı, scalar quantization ile %75 disk tasarrufu, payload index güçlü.
Milvus: En büyük ölçek (milyar+ vektör), GPU index desteği, çok katmanlı storage (memory + disk + S3).
pgvector: Mevcut PostgreSQL ekibi varsa öğrenme eğrisi sıfır; HNSW + IVFFlat index desteği, ACID transaction garantisi.

Embedding Modelleri: OpenAI, Cohere, BGE-M3 ve Voyage Karşılaştırması

Embedding kalitesi RAG performansının yaklaşık %60’ını belirler. Yanlış embedding seçimi en pahalı LLM’le bile düzeltilemez. MTEB leaderboard’u 2026 itibariyle 56 dilde 67 task üzerinde modelleri karşılaştırıyor; Türkçe retrieval task’larında ilk on modelin skor farkı %12 seviyesinde.

Model	Boyut	Max token	MTEB Türkçe	Token başı maliyet	Self-host	Multilingual
OpenAI text-embedding-3-large	3072	8191	%68	$0.00013	Hayır	Evet (100+)
OpenAI text-embedding-3-small	1536	8191	%62	$0.00002	Hayır	Evet (100+)
Cohere embed-multilingual-v3	1024	512	%71	$0.0001	Hayır	Evet (100+)
BGE-M3 (BAAI)	1024	8192	%64	~$0.000015 (self-host)	Evet	Evet (100+)
Voyage voyage-3-large	1024	32000	%69	$0.00018	Hayır	Evet (50+)
E5-mistral-7b-instruct	4096	32768	%66	~$0.00003 (self-host)	Evet	Evet (100+)

Türkçe içerik ağırlıklı kullanım için Cohere embed-multilingual-v3 fiyat/performans dengesinde en güçlü seçenek. Kapalı ağ senaryolarında BGE-M3 self-hosted tercih ediliyor; tek RTX 4090 ile saniyede 850 cümle embedding üretiyor. Voyage’ın 32K token uzun bağlam desteği hukuki doküman gibi uzun parçalar için Cohere’in 512 token limitine alternatif. Türkçe-spesifik benchmark için Embedding Modelleri Karşılaştırması yazısı kapsamlı veri sunuyor. Embedding seçiminde sıkça atlanan üç faktör: boyut (3072 boyut, 1024’e göre DB maliyetini 3x artırır), normalization (cosine similarity için L2-normalize şart) ve asymmetric encoding (BGE-M3’te “query:” prefix’i %4 retrieval iyileştirmesi).

1024 boyutlu vector embedding uzayi: Cohere ve OpenAI embedding modelleri ile semantik kumelenme gorseli

Chunking Stratejileri: Fixed-Size, Recursive, Semantic, Hierarchical, Agentic

Chunking RAG pipeline’ında en az dikkat edilen ama en çok kayıp veren aşama. Aynı corpus üzerinde sadece chunking stratejisini değiştirerek retrieval accuracy’de %11-19 fark gözleniyor. Beş ana strateji üretim ortamlarında yaygın kullanılıyor.

Fixed-size chunking: Sabit token sayısı (genelde 512 veya 1024) ile parçala. En hızlı, en basit; semantik sınırları kırdığı için kalite en düşük.
Recursive character splitter: Önce paragraf, yoksa cümle, yoksa kelime sınırlarında böl. LangChain RecursiveCharacterTextSplitter default; fixed-size’a göre %8 retrieval iyileştirmesi.
Semantic chunking: Embedding benzerliği kullanarak konu değişimini tespit edip oraya kes. %18 retrieval iyileştirmesi sağlıyor; embedding maliyeti ingestion’da 2x artıyor.
Hierarchical chunking: Çocuk parça (256 token) retrieval, ebeveyn parça (2048 token) LLM context. Faithfulness %14 artıyor.
Agentic chunking: LLM’i kullanarak doküman yapısını anlama ve mantıklı bölüm sınırları çıkarma. En kaliteli ama ingestion maliyeti 40-60x.

Strateji	Retrieval iyileştirmesi	Ingestion maliyeti	Karmaşıklık	Hangi senaryoda
Fixed-size	Baseline	1.0x	Düşük	Homojen içerik, PoC
Recursive	+%8	1.0x	Düşük	Genel amaçlı, default
Semantic	+%18	2.0x	Orta	Heterojen, uzun doküman
Hierarchical (parent-child)	+%14 (faithfulness)	1.3x	Orta	Teknik rapor, hukuki metin
Agentic	+%23	40-60x	Yüksek	Kritik domain, az hacim

Chunk boyutu seçimi doküman yapısına bağlı: kısa SSS için 256-512 token, teknik raporlar için 1024-2048 token. Overlap %15-20 default; çok yüksek overlap (40%+) duplicate retrieval’a, çok düşük overlap (5%-) bağlam kaybına yol açıyor. A/B test ile her corpus için kalibre edilmesi şart.

Retrieval Yöntemleri: Similarity, Hybrid, Reranking ve Query Transformation

Retrieval RAG’in kalbidir ve naive cosine similarity’nin ötesine geçmek zorunludur. Pinecone Learn 2025 raporu hibrit retrieval + reranker kombinasyonunun saf dense retrieval’a göre nDCG@10’da %32 iyileştirme sağladığını gösteriyor. Anthropic Research kayıtları da reranking’in production RAG sistemlerinde en yüksek ROI’lu tek optimizasyon olduğunu vurguluyor.

Dense similarity (cosine/dot product): Embedding tabanlı, semantik yakınlık. “Bilanço analizi” sorgusunda “mali tablo değerlendirmesi” parçasını bulur.
Sparse retrieval (BM25, SPLADE): Kelime tabanlı, keyword match. Marka adı, kod parçası, ürün ID gibi exact match gerektiren senaryolarda dense’i yener.
Hybrid (RRF, weighted fusion): Dense + sparse skorlarını Reciprocal Rank Fusion ile birleştir. Tek başına dense’e göre %14, tek başına BM25’e göre %22 iyileştirme.
Reranking (Cohere Rerank 3, Voyage rerank): İlk aşamada getirilen 50-100 adayı cross-encoder ile yeniden sırala. Top-5 precision %28 artıyor, latency 80-150 ms ekliyor.
Query transformation: HyDE (hypothetical answer embedding), multi-query (LLM ile 3-5 varyant), step-back (genel soruya dönüştürme), sub-query decomposition.

Retrieval Kombinasyonu	nDCG@10	MRR	Hit Rate @5	p95 Latency
Dense only (cosine)	0.61	0.54	%68	45 ms
BM25 only	0.52	0.46	%59	30 ms
Hybrid (RRF, α=0.5)	0.73	0.66	%79	65 ms
Hybrid + Cohere Rerank 3	0.81	0.74	%87	180 ms
Hybrid + HyDE + Rerank	0.85	0.78	%90	620 ms

Production’a uygun standart: hybrid retrieval (top-50 aday) + Cohere Rerank 3 (top-5 final). 1.000 sorgu için Cohere Rerank 3 maliyeti $1, latency ekstrası ortalama 120 ms. HyDE gibi LLM-based query transformation ise sadece kompleks soruları yakalayan bir router’la (basit soru → direkt retrieval, kompleks soru → HyDE) maliyet/kalite dengesi kuruyor.

Vector veritabani karsilastirmasi: Pinecone, Weaviate, Qdrant, Milvus ve pgvector mimari kuleler gorseli

RAG Evaluation: Ragas, TruLens ve Custom Metrics

RAG sistemini ölçmeden iyileştirmek imkansız. LangChain’in 2025 anketi geliştiricilerin %46’sının evaluation pipeline kurmadığı için RAG iyileştirmelerini körlemesine yaptığını gösteriyor. Üretim için üç kategori metrik zorunlu: retrieval kalitesi, generation kalitesi, end-to-end kullanıcı deneyimi.

Faithfulness: Cevap getirilen bağlama bağlı kalıyor mu? %85+ hedef, altı halüsinasyon riski.
Answer relevancy: Cevap soruyu gerçekten cevaplıyor mu? Cevaptan ters-üretilen soru ile orijinal sorgunun cosine benzerliği. %80+ hedef.
Context precision: Getirilen parçalar arasında alakalı olanların oranı. %70+ hedef.
Context recall: Doğru cevap için gereken bilgi getirilen parçalarda mevcut mu? Ground truth dataset gerekiyor. %85+ hedef.
Answer correctness: Ground truth ile cevap arasındaki semantik + faktüel uyum.
Latency (p50, p95, p99): Üretim kullanıcı deneyimi metriği. p95 < 3 sn hedef.

Tool	Tip	Metric kapsamı	LLM-as-judge	Production trace	Maliyet
Ragas	Açık kaynak	Faithfulness, relevancy, precision, recall	Evet (GPT-4o default)	Sınırlı	LLM çağrı ücreti
TruLens	Açık kaynak	RAG triad, custom feedback	Evet	Tam (dashboard)	LLM çağrı ücreti
DeepEval	Açık kaynak	14 hazır metric, pytest entegre	Evet	Orta	LLM çağrı ücreti
LangSmith	Managed	End-to-end trace + eval	Evet	Tam	$39+/ay
Phoenix (Arize)	Açık kaynak + Cloud	Trace + eval + drift	Evet	Tam	Self-host ücretsiz

Production pratik: ingestion sonrası Ragas ile 100-200 sorulu golden dataset üzerinde nightly batch eval, üretim trafiğinde TruLens veya LangSmith ile %5-10 sampling ile online eval. Faithfulness drift’i haftalık takip edilmeli; yeni doküman ingestion’ı sonrası %3’ten fazla düşüş varsa chunking veya retrieval ayarları gözden geçirilir. RAG Evaluation Pipeline yazısı Ragas ve TruLens kurulumunu adım adım anlatıyor.

Orkestrasyon ve Production Deployment: LangChain, LlamaIndex, Latency, Caching

İki framework de production’a uygun, farklı güçlü yönler taşıyor. LangChain agentic akışlar, tool calling, çok-adımlı reasoning için esnek; LCEL ile pipeline declarative tanımlanıyor. LlamaIndex pure retrieval pipeline’larında daha sade. Basit soru-cevap için LlamaIndex, agent + RAG hibrit için LangChain; ikisini birlikte kullanan kurumlar da yaygın. Agent + RAG mimarileri için Agentic AI İş Akışları yazısı detayları içeriyor.

Production deployment’ta beş kritik konu: latency budget, caching, observability, security ve cost optimization. Kullanıcı arayüzü için p95 < 3 sn, asenkron batch için 30 sn'ye kadar tolere edilir. Caching üç katmanda işliyor: embedding cache (Redis, aynı sorgu için tekrar embed üretmeme), retrieval cache (top-k sonuçları TTL ile), prompt cache (Anthropic prompt caching ile sistem promptu %90 indirim). LLM maliyet optimizasyonu için LLM Cost Optimization yazısı detay sunuyor.

Embedding cache: SHA-256 hash key, 24h TTL, %22 cache hit rate ortalaması, embedding maliyetinin %20’sini düşürüyor.
Retrieval cache: Sorgu + filtre hash, 1h TTL, sık sorulan top-100 soru için %35 hit rate.
Prompt cache (Anthropic): 5 dakika TTL, sistem promptu + few-shot örnekleri %90 indirim, latency %85 düşüş.
Observability: OpenTelemetry trace, her aşama için latency + token sayısı, retrieval’da getirilen doc ID’leri.
Security: PII redaction ingestion’da, prompt injection filter retrieval öncesi, output guardrail (NeMo Guardrails, LlamaGuard).
Multi-tenancy: Namespace ayrımı (Pinecone, Weaviate native), metadata filter, row-level security (pgvector ile RLS).

Hybrid retrieval ve Cohere Rerank 3: top-K aday secimi ve cross-encoder yeniden siralama gorseli

Türkiye’de Kurumsal RAG: KVKK, Veri Yerleşimi ve Maliyet

KVKK kapsamında kişisel veri içeren dokümanlar embedding’lendiğinde aktarım ve saklama yükümlülükleri devam ediyor. Vector veritabanı, embedding API ve LLM endpoint’i üç ayrı veri işleme noktası; her biri için yurt dışı aktarım onayı gerekiyor. On-prem veya AB içinde tutulan vector DB tercih edilmeli. LLM çağrısı için Azure OpenAI’nin AB Frankfurt veya Sweden Central region’ı yaygın; Anthropic Claude için AWS Bedrock’un AB Frankfurt’u tercih ediliyor. Kurumsal AI yol haritası için Kurumsal Yapay Zeka Entegrasyonu rehberi stratejik çerçeveyi sunuyor. Prompt engineering disiplinini de unutmamak gerekir; kötü prompt aynı sorguda 3-5x token harcatabilir, Prompt Engineering Best Practices yazısı detayları içeriyor.

Hacim Profili	Vektör sayısı	Embedding maliyeti	Vector DB	LLM	Reranker	Toplam/ay
PoC (1K sorgu/gün)	~500K	$15 (one-time)	$15 (pgvector)	$140 (Claude Haiku)	$30	$180-280
Departman (10K sorgu/gün)	~5M	$80 (one-time)	$45 (Qdrant)	$420 (Claude Sonnet)	$160	$480-720
Enterprise (100K sorgu/gün)	~50M	$650 (one-time)	$320 (Pinecone)	$3.200 (mixed)	$1.200	$3.500-5.800
Hyper-scale (1M sorgu/gün)	~500M	$5.800 (one-time)	$2.400 (Milvus)	$24.000 (mixed)	$9.500	$32.000-48.000

Kurumsal RAG İmplementasyonlarında Karşılaşılan Tipik Sorunlar

Üretim ortamı RAG stack’lerinde gözlemlenen pattern: ilk üç ay öğrenme, altı ay optimization, sonra sürekli iyileştirme. Aşağıda yedi tipik sorun ve pratik çözümleri. Bu sorunların büyük bölümü tasarım aşamasında öngörüldüğünde production’da %60+ daha az iterasyonla çözülüyor.

Halüsinasyon ve hayali kaynak gösterme: LLM bağlamda olmayan kaynaklara atıf üretiyor. Çözüm: faithfulness eval + sistem promptunda “sadece sağlanan bağlamı kullan, emin değilsen ‘bilmiyorum’ de” + citation enforcement.
Chunk drift ve bağlam kaybı: Chunk sınırı semantik birimi kırıyor. Çözüm: semantic chunking veya recursive splitter + parent-document retrieval pattern’i.
Freshness ve stale data: Doküman güncellendiğinde eski embedding’ler corpus’ta kalıyor. Çözüm: document_id + version_hash metadata + delete-then-insert pipeline’ı + nightly reconciliation job.
Relevance drift ve domain shift: Yeni doküman seti corpus dağılımını değiştiriyor, embedding ile retrieval kalitesi düşüyor. Çözüm: haftalık eval golden set + drift detection (Phoenix Arize) + retrieval re-tuning.
Multi-tenant veri sızıntısı: Müşteri A’nın sorgusu müşteri B’nin dokümanını getiriyor. Çözüm: namespace izolasyonu + metadata filter zorunlu + retrieval öncesi tenant_id check + audit log.
Latency degradation: Vector DB index büyüdükçe p95 latency tırmanıyor. Çözüm: HNSW parametre tuning (ef_construction, M) + scalar quantization + read replica + caching katmanı.
Cost explosion: Token tüketimi tahminden 4-8x çıkıyor. Çözüm: prompt caching, model routing (basit soru → Haiku, kompleks → Sonnet), retrieval context limit + alarming.

Sıkça Sorulan Sorular

RAG için fine-tuning gerekli mi?

Çoğu zaman hayır. RAG dış bilgiyi context window’a getirir, fine-tuning ise modelin tarzını ya da çok özel format çıktısını öğretir. Önce RAG ile başlayıp gerekiyorsa fine-tuning eklemek doğru sıra. Anthropic’in 2025 raporuna göre kurumsal LLM projelerinin %78’i sadece RAG ile yeterli sonuç alıyor; fine-tuning’e ihtiyaç duyanlar genelde özel jargon, sıkı format şartı veya stil kopyalama senaryolarında bulunuyor.

Embedding ve LLM aynı sağlayıcıdan olmak zorunda mı?

Hayır, sağlayıcı bağımsızlığı stratejik bir avantaj. Embedding modelini Cohere’den, LLM’i Anthropic veya OpenAI’den seçmek yaygın bir kombinasyon. Önemli olan tüm dokümanların tek bir embedding modeliyle vektörlenmesi ve sorgunun da aynı modelle embed edilmesidir; embedding modeli değiştirildiğinde tüm corpus yeniden vektörlenmek zorunda.

Chunk boyutu nasıl seçilir?

Doküman yapısına bağlı. Kısa SSS için 256-512 token, uzun teknik raporlar için 1024-2048 token önerilir. A/B test ile optimize edilmesi şart; aynı corpus için chunk_size 256, 512, 1024 ve overlap %10, %20, %30 kombinasyonlarını golden dataset üzerinde Ragas ile ölçüp en iyi context precision + faithfulness skorunu seçmek pratik yaklaşım.

RAG yerine uzun context modeli kullanılamaz mı?

Kullanılabilir ama maliyet ve latency katlanır. 200K token bağlamı her sorguda göndermek 2K token’lık RAG’e göre yaklaşık 100 kat daha pahalı, hız da düşer ve “lost in the middle” etkisiyle hassasiyet azalır. Stanford HAI 2025 raporu long-context modellerin RAG’e alternatif değil tamamlayıcı olduğunu, hibrit kullanımın (RAG retrieval + long-context generation) tek başına her ikisinden de iyi sonuç verdiğini gösteriyor.

Vector DB hangi durumda pgvector yerine dedike vector DB tercih edilmeli?

Üç ana eşik: vektör sayısı 50 milyonu aşıyorsa, p95 latency hedefi 50 ms altıysa, multi-tenant izolasyon veya hibrit retrieval (BM25 + dense) yerleşik olarak gerekiyorsa. Bu üçünden hiçbiri yoksa pgvector çoğu kurumsal RAG için yeterli; mevcut PostgreSQL operasyonel bilgisi ve ACID transaction garantisi gibi avantajları korunuyor. Databricks State of Data + AI 2025 raporu kurumsal RAG projelerinin %58’inin pgvector ile başladığını ve %71’inin pgvector’da kaldığını gösteriyor.

Sonuç

RAG kurumsal LLM dağıtımının omurgasıdır ve 2026’da artık opsiyon değil, üretim için zorunlu mimari. Doğru embedding model, vector DB, chunking stratejisi, retrieval kombinasyonu ve evaluation pipeline’ı maliyet ile doğruluk dengesini kurar. Türkçe içerikli kurumsal projelerde Cohere embed-multilingual-v3 + Qdrant veya pgvector + Anthropic Claude veya Azure OpenAI + Cohere Rerank 3 + Ragas evaluation kombinasyonu fiyat/performans dengesinde güçlü bir başlangıç noktası. KVKK uyumu için on-prem veya AB içi seçenekler öncelikli olmalı. Embedding boyut optimizasyonu için PCA, Quantization ve Matryoshka teknikleri ileri okuma için yardımcı kaynak; sektör trendleri için Databricks Blog düzenli yayın yapıyor.

Ömer ÖNAL

Yazılım Mimarı | Yapay Zeka LLC. Ölçeklenebilir SaaS, .NET Core altyapıları ve Otonom AI süreçleri inşa ediyorum. Kod değil, sistem tasarlarım.

Yorum (1)

Ömer ÖNAL
Mayıs 15, 2026
Yanıtla

Yazılım danışmanlığı projelerinde sıkça karşılaştığım bir soru: “Hangi mimari hangi senaryoda öncelikli olmalı?” Cevap çoğunlukla iş hedefiyle teknik kısıtların kesiştiği noktada netleşiyor. Kurumsal AI projelerinde önce pilot çıktısının üretime taşınabilirliğini ölçen küçük bir validation framework kurmak, doğrudan büyük bütçeli implementation’a girmekten %3-4 kat daha düşük geri dönüşüm riski sağlıyor. Yorumlarınıza açığım.

Our Gallery

Contact Info

RAG Altyapı Kurulum Rehberi: Vector DB, Embedding ve LangChain ile 2026 Mimarisi