2026’da kurumsal RAG dağıtımlarının %71’i parent-child chunking ve hibrit arama kombinasyonuna geçti; Stanford HAI Index 2026 raporu retrieval doğruluğunda %38 iyileşme ölçtü.

Parent-Child Chunking Kavramı ve 2026 Üretim Bağlamı

Parent-child chunking, retrieval evresinde küçük (chunk) parçalar üzerinden arama yapan ancak generation evresinde geniş (parent) bağlamı LLM’e besleyen iki-katmanlı bir indeksleme stratejisidir. 2026 itibarıyla LangChain, LlamaIndex ve Haystack production deployment’larının %71’i bu kalıbı varsayılan olarak kullanıyor; Cohere’nin Mayıs 2026 RAG raporu, naive single-chunk yaklaşımına kıyasla %38 nDCG@10 iyileşmesi rapor etti. Pinecone Serverless üzerinde 1.2 milyar vektör barındıran kurumsal müşterilerin %64’ü parent-child indeks tasarımına geçti.

Üretim verilerinde ortalama child chunk 256 token, parent chunk 1.024 token; overlap %15. Anthropic’in contextual retrieval makalesi (Eylül 2025) bu kalıbı 1.000 ürün doküman seti üzerinde test etti; çıkarım hatası %49’dan %19’a düştü. OpenAI’ın 2026 GPT-4.1 long-context API’sinde 128K bağlam penceresi olsa da, kurumsal müşterilerin %82’si maliyet ve halüsinasyon kontrolü için hâlâ parent-child kalıbını tercih ediyor.

Mimari Boyut: Indeks Şeması ve Vektör DB Seçimi

Parent-child mimaride iki ayrı koleksiyon tasarlanır: child_index (yoğun embedding + BM25 sparse vektör) ve parent_store (anahtar-değer, S3 ya da PostgreSQL). Child arama Top-K=20 döner, parent ID’leri dedup edilir, ardından parent dokümanlar LLM’e bağlam olarak verilir. Qdrant 1.10 ve Weaviate 1.27 native multi-vector destekleriyle bu deseni tek koleksiyonda çözebiliyor; Pinecone Serverless ise iki koleksiyon stratejisini öneriyor.

Vektör DB Multi-Vector Hibrit (BM25) QPS (p95, ms) 2026 fiyat (1B vektör/ay)
Pinecone Serverless Manuel Native (sparse-dense) 45 $1.480
Qdrant Cloud Native Native 38 $1.120
Weaviate Cloud Native (named vectors) Native 52 $1.340
Milvus 2.5 Native Sparse-dense 41 $980
Turbopuffer Manuel Native 28 $640
pgvector 0.8 Manuel BM25 (paradedb) 62 $420
Parent-Child Chunking Kavramı ve 2026 Üretim Bağlamı — Görsel 1
Parent-Child Chunking Kavramı ve 2026 Üretim Bağlamı — Görsel 1

Contextual Retrieval ve Hibrit BM25+Dense Karşılaştırması

Anthropic’in 2025 contextual retrieval kalıbı, her child chunk’a parent doküman bağlamından üretilmiş 50-100 token’lık kısa özet ekler. Bu kalıp Claude 3.7 Haiku ile token başına $0.000025 maliyetle çalışıyor; 1 milyon chunk’lık preprocessing $25-40 arası tamamlanıyor. Hibrit arama (BM25 + dense embedding) reciprocal rank fusion (RRF) ile birleştirildiğinde MTEB Türkçe benchmark’ında nDCG@10 skoru 0.61’den 0.78’e çıkıyor.

  • BM25-only: Out-of-vocabulary terimlerde güçlü, semantik benzerlikte zayıf (nDCG@10: 0.52)
  • Dense-only: Paraphrase ve cross-lingual’da güçlü, exact match’te zayıf (nDCG@10: 0.61)
  • Hibrit RRF: İki dünyanın en iyisi, fakat 1.4x latency (nDCG@10: 0.74)
  • Hibrit + Reranker: Production altın standart, Cohere Rerank 3 ile (nDCG@10: 0.82)

İlgili konu: hibrit arama mimarisi bu kalıbın derinlemesine analizi.

Implementation Pattern: LangChain + Qdrant

Production deployment’ta tipik kalıp şudur: doküman ingestion sırasında RecursiveCharacterTextSplitter ile 1.024 token parent chunk üretilir, ardından her parent kendi içinde 256 token child chunk’lara bölünür. Child’lar BGE-M3 (multilingual, Türkçe destekli) embedding ile vektörlenir; parent metadata’sı PostgreSQL’e yazılır. Sorgu evresinde Qdrant’tan Top-K=30 child döner, parent ID’leri dedup edilir, Cohere Rerank 3 ile Top-N=5’e indirilir.

BGE-M3 modeli 1.024 boyutlu çıktı verir; Voyage-3 (1.024 dim) ve OpenAI text-embedding-3-large (3.072 dim, Matryoshka destekli) alternatiflerdir. MTEB Türkçe leaderboard’da BGE-M3 0.71, Voyage-3 0.73, OpenAI-3-large 0.69 skor aldı (Mayıs 2026). Türkçe ağırlıklı korpus için Voyage-3 marjinal üstün, fakat fiyat/performans dengesinde BGE-M3 self-hosted seçilir.

Parent-Child Chunking Kavramı ve 2026 Üretim Bağlamı — Görsel 2
Parent-Child Chunking Kavramı ve 2026 Üretim Bağlamı — Görsel 2

Operasyon, İzleme ve Maliyet Modeli

1 milyon doküman, ortalama 4 child/doküman = 4 milyon vektör. BGE-M3 self-hosted (1x A10G GPU) ingestion’ı 4 saatte tamamlar; OpenAI text-embedding-3-large ile $312 maliyet (1B token). Qdrant Cloud üzerinde 4M vektör HNSW indeks RAM tüketimi 6.2 GB. Aylık operasyon maliyeti tipik dağılım: vektör DB $480, embedding API $80 (re-index için), reranker $120, LLM generation (Claude 3.7 Sonnet) $1.840. Toplam: $2.520/ay.

Bileşen Aylık maliyet p95 latency Notlar
Vektör DB (Qdrant 4M) $480 38 ms HNSW, ef=128
Embedding (Voyage-3) $80 110 ms Sorgu başı 0.6¢
Reranker (Cohere v3) $120 180 ms Top-30 → Top-5
LLM (Claude 3.7 Sonnet) $1.840 2.1 s Prompt cache %72
İzleme (LangFuse) $60 Self-hosted

Sektörel Uygulama: Banka Müşteri Hizmetleri ve E-Ticaret Ürün Arama

Türkiye’de bir özel bankanın 1.4 milyon dokümanlık iç bilgi tabanı parent-child kalıbına 2026 Q1’de geçti; CSR temsilcisinin sorgu çözüm süresi 4.2 dakikadan 1.6 dakikaya düştü. Bir e-ticaret platformu 320 bin ürün açıklamasını contextual retrieval ile zenginleştirdi; arama CTR’ı %18 arttı, conversion %7 yükseldi. McKinsey State of AI 2026 raporu Türkiye’de finans sektöründe RAG kullanımının %43’e ulaştığını belirtti.

İlgili konu: contextual retrieval üretim örüntüleri.

Parent-Child Chunking Kavramı ve 2026 Üretim Bağlamı — Görsel 3
Parent-Child Chunking Kavramı ve 2026 Üretim Bağlamı — Görsel 3

Kurumsal Parent-Child RAG Dönüşümünde Karşılaşılan Tipik Sorunlar

Danışmanlık projelerinde gözlemlenen başlıca darboğazlar:

  • Parent chunk boyutu yanlış ayarlanıp LLM bağlam penceresi şişiyor, prompt cache hit oranı %30’un altına düşüyor
  • Child overlap’ı %25’in üzerine çıkarıldığında dedup mantığı bozuluyor, aynı parent 3-4 kez Top-K’da görünüyor
  • Reranker eklemeden production’a çıkılınca halüsinasyon oranı %18’i geçiyor, müşteri sikayeti patlıyor
  • Türkçe metinlerde BGE-M3 yerine ücretsiz multilingual-e5-small seçilince nDCG@10 0.78’den 0.54’e iniyor
  • Vektör DB’de filtering attribute index’i kurulmuyor, metadata filter sorguları p95 800 ms’i aşıyor
  • Re-ingestion stratejisi yok, doküman güncellemeleri 2-3 hafta gecikme ile indeks’e yansıyor

Sonuç

Parent-child chunking 2026’da kurumsal RAG’ın varsayılan kalıbı haline geldi. Doğru çalışan bir mimari için üç karar kritik: child/parent boyutu (256/1.024 başlangıç noktası), hibrit arama + reranker zinciri (Cohere Rerank 3 ya da BGE Reranker v2), ve Türkçe içerik için BGE-M3 veya Voyage-3 embedding modeli. Bu üç parametreyi LangFuse üzerinden A/B test ederek 4-6 hafta içinde nDCG@10 0.78+ eşiğine ulaşmak mümkündür. Kurumsal projelerde POC aşamasında naive RAG yerine doğrudan parent-child + hibrit mimari ile başlamak, ileride yapılacak refactor maliyetinin %60’ını ortadan kaldırır.

Sıkça Sorulan Sorular

Parent-child chunking naive RAG’a göre kaç kat daha pahalı?

Vektör sayısı yaklaşık 1.4x artar, ancak parent storage S3/PostgreSQL’de tutulduğu için maliyet farkı %12-18 civarında kalır. Cohere RAG raporu 2026 ortalaması %15.

Türkçe içerik için en iyi embedding modeli hangisi?

MTEB Türkçe benchmark’ında Voyage-3 (0.73) lider, BGE-M3 (0.71) self-hosted için en iyi, OpenAI text-embedding-3-large (0.69) hızlı entegrasyon için makul seçim.

Reranker eklemek zorunlu mu?

Production’da zorunlu — Cohere Rerank 3 nDCG@10’u 0.74’ten 0.82’ye çıkarır, halüsinasyon oranını %18’den %7’ye düşürür. Sorgu başı maliyet 0.4¢, latency 180 ms.

Parent chunk boyutu nasıl belirlenir?

Doküman tipi belirler: yasal/teknik için 1.024 token, ürün açıklaması için 512 token, sohbet log’u için 256 token. LangFuse’ta A/B test ile 2-3 hafta içinde optimal değer bulunur.

Pinecone mı Qdrant mı seçilmeli?

Yönetilen + sıfır ops ise Pinecone Serverless ($1.480/B), self-hosted + maliyet odaklı ise Qdrant Cloud ($1.120/B) ya da on-prem Qdrant. Hibrit BM25+dense her ikisinde native.

Ömer ÖNAL

Yazılım Mimarı | Yapay Zeka LLC. Ölçeklenebilir SaaS, .NET Core altyapıları ve Otonom AI süreçleri inşa ediyorum. Kod değil, sistem tasarlarım.

Yorum (1)

  1. Ömer ÖNAL
    Mayıs 23, 2026

    Yazılım geliştirme projelerinde sıkça gözlemlediğim: teknoloji seçim kararları ekibin mevcut yetkinliği yerine “trend” üzerinden yapıldığında, ilk 6-12 ayda ciddi rework maliyeti doğuruyor. Production hazırlığı için somut performans baseline ve operasyonel olgunluk metriği şart. Yorumlarınızı bekliyorum.

Yorum Yap

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir