Hybrid Search Nedir? RAG Retriever Rehberi BM25 + Dense

Q: BM25 hâlâ kullanılıyor mu yoksa tamamen vektör aramasına mı geçilmeli?

BM25 üretimde hâlâ standart bir bileşendir. 30 yıllık olgunluğu, sıfır training maliyeti ve out-of-vocabulary terimlerle (ürün kodu, kanun maddesi, kod) doğal başa çıkması nedeniyle sparse retriever olarak vazgeçilmezdir. 2026 önerisi: BM25'i tek başına değil hybrid'in bir bileşeni olarak kullanın.

Q: Hybrid search'te RRF mi yoksa linear weighted füzyon mu daha iyi?

Genel öneri RRF'dir; çünkü parametresizdir ve skor scale farklılıklarından etkilenmez. Linear weighted füzyon ancak domain-spesifik tune ile (α değerini görev üzerinde optimize ederek) RRF'i geçebilir. Production default olarak RRF (k=60) ile başlayın.

Q: Cross-encoder reranker ne zaman gereksiz?

Sorgu sayısının düşük olduğu ve sıralama hassasiyetinin kritik olmadığı senaryolarda (örneğin top-1 cevap yeterliyse veya LLM'in 50 parçayı işleme kapasitesi varsa) reranker atlanabilir. p95 latency bütçesi 200 ms altı ise reranker uygun olmayabilir.

Q: Türkçe için hangi embedding modeli en iyisi?

2026 başı itibarıyla BGE-M3 ve multilingual-E5-large açık kaynak tarafında en güçlü çok dilli adaylardır; ticari tarafta OpenAI text-embedding-3-large ve Voyage-3 yarışır. Hukuk veya sağlık gibi domain-spesifik koleksiyonlarda fine-tune ciddi fayda sağlar.

Q: ColBERT'i üretimde kullanmaya değer mi?

ColBERTv2 token-level granularitenin önemli olduğu uzun ve teknik koleksiyonlar (akademik literatür, kod, hukuk) için cazip bir seçenektir. Ancak indeks boyutu ve operasyonel karmaşıklık nedeniyle hybrid + cross-encoder yaklaşımı çoğu senaryoda daha pratik kalır; ColBERT'i öncelikli aday yapmadan önce bu ekstra karmaşıklığa değdiğini ölçün.

Yapay Zeka & LLM

Mayıs 16, 2026OmerOnal1 Yorum

Hybrid search nedir? Hybrid search, RAG sistemlerinde BM25 gibi sparse (kelime tabanlı) retriever’ları dense embedding tabanlı vektör aramayla birleştiren ve genellikle Reciprocal Rank Fusion (RRF) ile skorlarını harmanlayan iki aşamalı geri çağırma yaklaşımıdır. 2025 sonu itibarıyla kurumsal RAG dağıtımlarının çoğunda hybrid varsayılan retrieval mimarisidir; çünkü tek başına BM25 semantik eş anlamlıları ve parafrazları kaçırır, tek başına dense retriever ise nadir geçen kod, SKU, mevzuat maddesi veya tıbbi terim gibi keyword-heavy sorgularda saplanır. Azure AI Search karşılaştırmalarında hybrid + semantic ranker nDCG@10’da %18-25 iyileşme raporlamıştır.

Bu rehberde 2026 retriever ekosisteminin üç kanadını inceleyeceğiz: sparse retriever’lar (BM25, BM25F, SPLADE), dense embeddings ve hybrid search stratejileri. Ardından ColBERT late-interaction modellerine, cross-encoder reranker katmanlarına ve üretim ortamı için latency/maliyet dengesine bakacağız. RAG altyapı kurulum rehberini okuduysanız bu yazı retrieval katmanına derinlemesine odaklanır. Konuyla ilişkili olarak RAG Reranker 2026: Cohere, Cross-Encoder, Performans Rehberi rehberimiz detaylı incelemeyi içerir.

📖 19 dakikalık okuma

İçindekiler

Retrieval Neden RAG'in En Önemli Halkası?
BM25 ve Sparse Retriever'lar: Eski Ama Hâlâ Vazgeçilmez
Dense Retrieval ve Embedding Modelleri
Hybrid Search: BM25 + Dense Birleşimi
Late Interaction: ColBERT ve ColBERTv2
Reranking: Cross-Encoder ve LLM-as-a-Judge
Vektör Veritabanı Seçimi ve Hybrid Native Desteği
Türkçe ve Çok Dilli Senaryolar
Latency, Maliyet ve Üretim Karar Çerçevesi
İzleme, Değerlendirme ve A/B Test Etme
Sık Sorulan Sorular
Sonuç

Retrieval Neden RAG’in En Önemli Halkası?

RAG hattında bir kullanıcı sorgusu önce retrieval katmanına gider; bu katman vektör veritabanı, sparse indeks veya hybrid index içinden ilgili k adet parçayı seçer ve LLM’e bağlam olarak iletir. Stanford NLP grubunun 2024 analizinde RAG sistemlerinde son cevap kalitesinin yaklaşık %60’ının retrieval kalitesiyle, %25’inin LLM seçimi ve prompt mühendisliğiyle, %15’in ise chunking ve post-processing ile açıklanabildiği gözlemlenmiştir. Yani retriever’ın yanlış parça getirdiği bir mimaride GPT-4 sınıfı model bile tatmin edici çıktı üretemez.

Retrieval kalitesini ölçen iki ana metrik: Recall@k (en alakalı dokümanın ilk k içinde olma oranı) ve nDCG@k (sıralama kalitesi). MS MARCO Passage Retrieval’da 2025 yılı en güçlü hybrid + cross-encoder rerank konfigürasyonu MRR@10’da 0.46-0.48 bandına ulaşmış; tek başına BM25 ise ~0.18-0.21 düzeyinde kalmıştır. Hybrid yaklaşım, MS MARCO gibi açık-domain bir koleksiyonda BM25’e göre 2 katından fazla relatif iyileşme sağlar.

Retrieval Yaklaşımı	MS MARCO MRR@10 (yaklaşık)	Sorgu Latency (p50)	Index Boyutu (1M doc)	Tipik Maliyet
BM25 (sparse)	0.19	5-15 ms	1-2 GB	Çok düşük (CPU)
Dense (bi-encoder)	0.33	20-50 ms	3-6 GB (1024-dim)	Orta (GPU/CPU)
Hybrid (BM25 + dense + RRF)	0.38	30-70 ms	4-8 GB	Orta-yüksek
Hybrid + Cross-encoder rerank	0.46	120-300 ms	4-8 GB + reranker	Yüksek (GPU)
ColBERTv2 (late interaction)	0.42	60-150 ms	15-25 GB (sıkıştırılmış)	Yüksek (disk + RAM)

BM25 sparse retriever kelime tabanlı indeks görsel anlatım

BM25 ve Sparse Retriever’lar: Eski Ama Hâlâ Vazgeçilmez

BM25 (Best Matching 25), Robertson ve Spärck Jones’un 1990’larda Okapi projesinde geliştirdiği probabilistic relevance fonksiyonudur. TF-IDF’in olgunlaşmış halidir; üç parametre kullanır: terim frekansının doyma noktasını ayarlayan k1 (genellikle 1.2-2.0), doküman uzunluğu normalizasyonu için b (genellikle 0.75) ve IDF. Lucene, Elasticsearch, OpenSearch, Solr ve Tantivy gibi tüm modern arama motorlarının default skorlama fonksiyonu BM25 türevidir. 30 yıllık endüstri standardı olmasının nedeni: hızlı, açıklanabilir, training gerektirmez ve out-of-vocabulary terimlerle (yeni ürün isimleri, kod, CVE numaraları) doğal başa çıkar.

BM25’in dense modeller karşısındaki temel zayıflığı semantik genelleme yapamamasıdır. “Araba sigortası iptali” sorgusu, “motorlu taşıt poliçesi feshi” başlıklı bir dokümanı kelime örtüşmesi olmadığı için çoğunlukla yakalayamaz. Query expansion (RM3 pseudo-relevance feedback) veya eş anlamlı sözlükleri bu açığı kısmen kapatır; ama bakım yükü yaratır ve nadiren tam karşılığa ulaşır. SPLADE (Sparse Lexical and Expansion) gibi öğrenilmiş sparse modeller bu noktada devreye girer: BERT tabanlı bir model her terim için expansion ağırlıkları üretir; “araba sigortası” sorgusu indekslemede “poliçe”, “kasko”, “motorlu taşıt” gibi terimlere de katsayı dağıtır.

BM25’in güçlü olduğu senaryolar: Hukuki metinlerde madde numarası araması, e-ticarette SKU/ürün kodu, kod tabanlarında fonksiyon adı, tıbbi alanda ICD-10 kodu, finansta CUSIP/ISIN sorguları.
BM25’in zayıf kaldığı senaryolar: Konuşma dilinde soru-cevap, parafraz yoğun FAQ tabanları, çok dilli koleksiyonlar, eş anlamlı terim ağırlıklı domain’ler.
BM25F (fielded BM25): Title, abstract, body gibi farklı alanlara farklı ağırlık verir — Wikipedia ve akademik arama motorlarında standarttır.
SPLADE++ (2023): Sparse + neural; MS MARCO’da BM25’i ~%30 geçer, ama indeks boyutu 2-4 kat büyür.
Tipik Türkçe uyarı: Snowball/Zemberek stemmer veya ICU analyzer’ı doğru yapılandırın; aksi halde “öğrenmek/öğreniyorum” gibi varyantlar ayrı tokenler olarak kalır ve recall düşer.

Dense Retrieval ve Embedding Modelleri

Dense retrieval, her doküman ve sorguyu yüksek boyutlu (genellikle 384-3072 boyutlu) bir vektöre dönüştürür ve kosinüs benzerliği veya dot product ile en yakın komşuları bulur. Mimari iki kanada ayrılır: bi-encoder (sorgu ve doküman bağımsız enkodlanır — hızlı) ve cross-encoder (sorgu+doküman beraber enkodlanır — yavaş ama doğru). Üretimde retrieval bi-encoder ile yapılır, reranking ise cross-encoder ile. Sentence-Transformers kütüphanesi 2019’da bi-encoder paradigmasını popülerleştirmiş, OpenAI text-embedding-3 ailesi (2024) ve Voyage-3 (2024) ise sektörel benchmarkları yeni bir seviyeye taşımıştır.

MTEB (Massive Text Embedding Benchmark), HuggingFace’in koordine ettiği bir leaderboard’dur ve 56 dil, 8 görev tipinde embedding modellerini karşılaştırır. 2025 yılı sonu itibarıyla MTEB English retrieval skorunda nDCG@10 ortalamasında lider modeller 60-65 bandına ulaşmıştır. Embedding modelleri karşılaştırma yazısı Türkçe için daha derin bir bakış sunar; 2026 başı pratik tercihler ise şöyledir: Multilingual-E5-large veya BGE-M3 açık kaynak tarafında, Voyage-3-large veya OpenAI text-embedding-3-large kapalı API tarafında ana adaylardır.

Embedding Modeli	Boyut (dim)	Bağlam (token)	MTEB Retrieval (nDCG@10 yaklaşık)	Fiyat (1M token, USD)	Dil Desteği
OpenAI text-embedding-3-large	3072	8191	~64	~0.13	100+
OpenAI text-embedding-3-small	1536	8191	~62	~0.02	100+
Voyage-3-large	1024	32000	~65	~0.18	EN ağırlıklı
Cohere embed-v3	1024	512	~63	~0.10	100+
BGE-M3 (açık kaynak)	1024	8192	~60	Self-host	100+ (multi-vector)
multilingual-E5-large	1024	512	~58	Self-host	94 dil

Dense retrieval’ın en güçlü yanı semantik benzerliği yakalamasıdır: “kira artış oranı” sorgusu, “yıllık kira zammı tavanı” başlıklı dokümanı kelime örtüşmesi olmadan da yakalar. En önemli zayıflığı ise out-of-domain (OOD) sorgularda ve nadir terimlerde gözle görülür düşüş yaşamasıdır — model eğitim sırasında “RFC 9110” terimini görmediyse bu kodla yapılan aramada BM25 daha iyi performans gösterebilir. Bu da bizi doğrudan hybrid search ihtiyacına götürür.

Dense embedding vektör uzayı semantik benzerlik görsel

Hybrid Search: BM25 + Dense Birleşimi

Hybrid search’ün temel sezgisi: sparse retriever’lar lexical eşleşmede güçlüdür, dense retriever’lar semantik eşleşmede güçlüdür; her iki yaklaşımın kuvvetli yönlerini birleştir, zayıflıklarını telafi et. Pratikte iki ayrı indeks (bir inverted/sparse, bir vektör) oluşturulur, sorgu paralel gönderilir, top-K sonuçlar füzyon adımında birleştirilir. Azure AI Search, Elastic 8.x, OpenSearch 2.x, Weaviate, Qdrant, Pinecone, Vespa ve Milvus 2.4 sürümünden itibaren native hybrid search sunar.

Skor birleştirmenin en yaygın yöntemi Reciprocal Rank Fusion (RRF) algoritmasıdır. Cormack, Clarke ve Buettcher’in 2009 SIGIR makalesinde önerdiği RRF, her sistemden gelen sıralamaları normalize eder ve şu formülle birleştirir: skor(d) = Σ 1/(k + rank_i(d)). Tipik k değeri 60’tır; farklı skor ölçekleri (BM25 0-50, kosinüs 0-1) sorun yaratmaz çünkü sıralama tabanlıdır. Alternatif olarak normalized linear combination (α·sparse + (1-α)·dense, α genellikle 0.3-0.5) veya learning-to-rank kullanılabilir; ancak RRF basit, parametresiz ve etkili olduğu için endüstri varsayılanıdır.

Füzyon Yöntemi	Formül / Mekanizma	Avantaj	Dezavantaj	Ne zaman seç
RRF (Reciprocal Rank Fusion)	Σ 1/(60 + rank)	Parametresiz, skor normalizasyonu gerekmez	Skor şiddetini yok sayar	Çoğu üretim senaryosu — default
Linear weighted	α·s_sparse + (1-α)·s_dense	α tune edilebilir, ağırlık verilebilir	Skor scale farkı; min-max normalize gerek	Domain’e özel tune edilmişse
Convex combination + z-score	z-norm sonrası ağırlıklı toplam	İstatistiksel olarak temiz	Online inference’da ek hesap	Akademik / küçük koleksiyon
Learning-to-Rank (LambdaMART)	Boosted tree ranker	En yüksek nDCG potansiyeli	Training data + bakım yükü	Büyük ölçek, click data var
CombSUM/CombMNZ	Σ skorlar; multiplikatif bonus	Klasik IR literatüründe iyi etüt edilmiş	Modern hibrit’te RRF kadar yaygın değil	Legacy IR sistemleri

Kurumsal e-ticaret RAG vakasında sadece dense retrieval Recall@20 = 0.71, sadece BM25 = 0.63, RRF hybrid = 0.84 ölçülmüştür. Bu ~%18-20 mutlak iyileşmedir ve son cevap kalitesinde net fark yaratır. Hybrid’in maliyeti iki indeks bakımı + ~10-30 ms latency; trade-off çoğu üretim senaryosunda hybrid lehinedir.

Late Interaction: ColBERT ve ColBERTv2

ColBERT (Contextualized Late Interaction over BERT), Stanford’dan Khattab ve Zaharia’nın 2020 SIGIR makalesinde tanıttığı, bi-encoder ve cross-encoder arasında orta yol sunan modeldir. Klasik bi-encoder dokümanı tek vektöre sıkıştırırken, ColBERT her token için ayrı vektör saklar ve sorgu zamanında her sorgu tokeni için en yakın doküman tokeni eşleşmesini alır (MaxSim operatörü). Bu, semantik granularite kaybını azaltır; özellikle uzun ve teknik dokümanlarda belirgin iyileşme sağlar. ColBERTv2 (2022) residual compression ile indeks boyutunu 6-10 kat düşürmüş ve pratiklik bariyerini kırmıştır.

2024’te tanıtılan PLAID ve JaColBERTv2 gibi varyantlar mimarinin non-Latin dillerde de üretim seviyesine getirilebileceğini göstermiştir. RAGatouille kütüphanesi ColBERT’i Python ekosisteminde entegre edilebilir hale getirmiş, LangChain ve LlamaIndex tarafında native destek eklenmiştir. Türkçe için topluluk tarafından eğitilen TrColBERT varyantları umut verici sonuçlar gösterir; ancak üretimde hâlâ BGE-M3 + BM25 hybrid kombinasyonu daha yaygın tercih edilir çünkü ColBERT’in disk/RAM ayak izi yüksektir.

Avantaj: Token-level granularite — uzun ve teknik dokümanlarda recall yüksek.
Dezavantaj: Indeks boyutu bi-encoder’a göre 5-10 kat büyük (compression’a rağmen).
Ne zaman seç: Akademik literatür, kod, hukuki dokümanlar gibi terim yoğun ve uzun bağlamlı koleksiyonlar.
Hangi vektör DB? Vespa ve Qdrant native multi-vector destek sunar; Weaviate, Milvus için PLAID benzeri özel index yapısı kurmak gerekir.
Trade-off: ColBERT, bi-encoder kalitesinin üstüne çıkar ama cross-encoder reranker’lı hybrid’i tek başına geçemez.

ColBERT late interaction token-level eşleşme görsel

Reranking: Cross-Encoder ve LLM-as-a-Judge

Hybrid retrieval ilk 50-200 aday dokümanı geri çağırır; ancak top-10’a inerken sıralamanın olabildiğince doğru olması gerekir çünkü LLM’in context window’una sadece üst birkaç parça girebilir. Reranking burada devreye girer. Cross-encoder reranker’lar sorgu ve dokümanı tek bir BERT/T5 girdisi olarak işler ve ince-tane relevance skoru üretir. BAAI bge-reranker-v2-m3, Cohere Rerank 3, Voyage rerank-2.5, Jina rerank-v2 endüstri standardıdır. Tipik hat: hybrid retrieval top-100 → cross-encoder rerank → top-10 → LLM. Bu adım MRR’da 0.05-0.10 mutlak iyileşme sağlar ama p95 latency’ye 100-300 ms ekler.

Son 18 ayda gelişen bir trend “LLM-as-a-judge” reranker’ıdır: küçük bir LLM (GPT-4o-mini, Claude Haiku, Llama-3.3-8B) doğrudan reranker olarak kullanılır. Bu yaklaşım daha esnek bir relevance kriteri ifade etmeyi mümkün kılar — örneğin “cevap doğrudan rakam içermeli” gibi semantik talimat. Maliyet daha yüksektir ama düşük QPS’li B2B/enterprise senaryolarında kalite-fiyat dengesi cross-encoder’ları geçebilir. RAGAS gibi değerlendirme çerçevelerinde rerank kalitesini ölçmek için context_precision metriği yaygın kullanılır.

Reranker	Mimari	Latency (k=20)	Fiyat	MRR’a katkı (yaklaşık)
Cohere Rerank 3	Cross-encoder, ticari API	80-150 ms	~2.00 USD / 1K rerank	+0.06-0.10
Voyage rerank-2.5	Cross-encoder, ticari API	100-200 ms	~1.20 USD / 1K rerank	+0.06-0.09
Jina rerank-v2-base	Cross-encoder, açık kaynak + API	60-120 ms	Self-host veya API	+0.05-0.08
bge-reranker-v2-m3	Cross-encoder, açık kaynak	40-100 ms (GPU)	Self-host	+0.05-0.08
GPT-4o-mini as judge	LLM yargılama	500-1500 ms	~0.50 USD / 1K rerank	+0.07-0.12

Vektör Veritabanı Seçimi ve Hybrid Native Desteği

Hybrid mimaride sparse ve dense indeksi ayrı sistemlerde tutmak (örneğin Elasticsearch + Pinecone) operasyon yükünü iki katına çıkarır; ölçekte replikasyon, sıralama tutarlılığı ve transactional indexing sorunları çoğalır. 2024 sonu itibarıyla vektör veritabanlarının çoğu native hybrid search desteğine kavuşmuştur. Seçim kriterleri: hybrid native mi yoksa client-side füzyon mu, RRF destekleniyor mu, multi-tenant izolasyon var mı, latency p99 nasıl, hybrid sorgu için ekstra ücretlendirme var mı.

Vektör veritabanı karşılaştırma yazısı her sistemin detaylarına iner; burada hybrid odaklı özet: Weaviate 1.24+ native RRF uygular (alpha 0-1 tunable). Qdrant 1.10+ multi-vector ve sparse query destekler. Pinecone hybrid endpoint’i SPLADE benzeri sparse + dense birleştirir. Vespa enterprise tarafta en olgun: OkapiBM25 ranking expression ve nearestNeighbor query’i tek search profile içinde kombinlenir.

Weaviate: En kolay hybrid setup, alpha parametresi, native BM25.
Qdrant: Yüksek performans, multi-vector, named vectors, fusion API.
Elastic 8.x / OpenSearch 2.x: Olgun BM25 + kNN dense field birleşimi; mevcut ELK yığını varsa düşük efor.
Vespa: En esnek ranking expression dili, enterprise ölçekte ölçeklenir; öğrenme eğrisi dik.
Milvus 2.4+: Native sparse + dense + RRF, multimodal yetenekli.
Azure AI Search: Semantic ranker dahil; Microsoft yığını ile entegrasyonda en az direnç.

Koleksiyon Büyüklüğü	Önerilen Retrieval Stack	Reranker Gerekli mi?	Hedef p95 Latency	Yaklaşık Aylık Maliyet
< 10K doküman	BM25 + OpenAI embed-3-small + RRF	Opsiyonel	200 ms	50-200 USD
10K – 500K doküman	BM25 + BGE-M3 + RRF + bge-reranker-v2-m3	Önerilir	300 ms	500-1500 USD
500K – 10M doküman	Elastic/Qdrant cluster + Voyage-3 + Cohere Rerank 3	Şart	400 ms	2000-8000 USD
10M+ doküman	Vespa + custom embedding fine-tune + LLM rerank	Şart + caching	500 ms	8000+ USD
Multimodal (PDF + tablo + görsel)	ColPali + BM25 + RRF	Cross-encoder rerank	600 ms	1500-5000 USD

Türkçe ve Çok Dilli Senaryolar

Türkçe gibi agglutinative dillerde retrieval mimarisi ek dikkat ister. BM25 tarafında Zemberek tabanlı stemmer veya Snowball Turkish analyzer doğru kurulmadığında “kira sözleşmesi” sorgusu, “kiralama sözleşmeleri” başlıklı dokümanı kelime düzeyinde yakalayamaz. ICU normalizer + lowercase + Snowball kombinasyonu çoğu zaman dengeli varsayılan sağlar. Dense tarafında multilingual-E5 ve BGE-M3 Türkçe MTEB değerlendirmelerinde umut verici sonuçlar verir; ancak domain-spesifik (hukuk, sağlık, finans) koleksiyon varsa fine-tune ile retrieval kalitesi belirgin artar.

2025’te Türkiye’deki kurumsal RAG projelerinden bir örnek vaka: ~250 bin sayfalık hukuki doküman tabanında sadece OpenAI text-embedding-3-large ile Recall@10 = 0.62, BGE-M3 ile 0.65, BM25 + BGE-M3 hybrid ile 0.78, hybrid + bge-reranker-v2-m3 ile 0.86 ölçülmüştür. Kurumsal yapay zeka entegrasyonu rehberinde detaylandırılan entegrasyon adımları kritik hale gelir. Ömer Önal olarak danışmanlık verdiğim projelerde Türkçe için varsayılan başlangıç stack’im: Elastic veya OpenSearch (BM25, Snowball-TR) + Qdrant (BGE-M3) + RRF + bge-reranker-v2-m3.

Cross-encoder reranker üretim hattı sıralama iyileştirme

Latency, Maliyet ve Üretim Karar Çerçevesi

Retrieval mimarisi tasarımında üç eksenli denge kurulur: kalite (Recall, nDCG), latency (p50, p95, p99) ve maliyet (indeks + sorgu + GPU/CPU). Latency bütçesi senaryoya göre değişir: chatbot için end-to-end p95 bütçesi 3-5 saniye, agent zincirlerinde tekil retrieval için 200-500 ms makul, real-time öneri sistemlerinde 50-100 ms hedeflenir. Hybrid + cross-encoder rerank tipik bütçeyi ~150-300 ms’e oturtur ve çoğu B2B senaryoda kalite-fiyat sweet spot’udur.

Maliyet tarafında üç katmanlı bir hesap önerilir: indeks oluşturma (embedding API çağrıları, tek seferlik veya periyodik), sorgu zamanı embedding (~0.0002-0.0005 USD/sorgu) ve reranking (~0.001-0.005 USD/sorgu). 1 milyon doküman ve günlük 100 bin sorgu için aylık tipik çerçeve: indeks (one-time) ~150-300 USD, sorgu embedding ~50-150 USD, rerank ~150-450 USD, vektör DB hosting ~200-800 USD. Self-host BGE-M3 + bge-reranker GPU sunucusu (örneğin tek L40S) ~600-900 USD/ay; yüksek QPS’de API’ye göre avantajlıdır, düşük QPS’lerde API ekonomik kalır.

Düşük bütçe, hızlı POC: OpenAI text-embedding-3-small + pgvector + RRF. İlk hafta canlıya alın.
Orta ölçek, kalite öncelikli: BGE-M3 (self-host) + Qdrant + BM25 + bge-reranker-v2-m3. Aylık ~1500 USD.
Enterprise, regüleli sektör: Vespa cluster + Voyage-3 + Cohere Rerank 3 + on-prem deployment. Aylık ~5000-15000 USD.
Türkçe-yoğun, hukuki/finansal: BM25 (Snowball-TR) + BGE-M3 + cross-encoder rerank + domain fine-tune. Aylık ~2000-4000 USD.
Multimodal (PDF + görsel + tablo): ColPali / VisRAG + BM25 + RRF. Erken-stage, deneysel.

İzleme, Değerlendirme ve A/B Test Etme

Bir retriever’ı üretime aldıktan sonra performansını gerçek kullanıcı sorgularıyla sürekli ölçmek esastır. Synthetic test set’i yetersiz kalır; gerçek sorgulardan örneklenen golden set üzerinde periyodik Recall@k, nDCG@k ve MRR ölçülmelidir. RAGAS, TruLens ve Phoenix bu metrikleri retrieval ve generation hatları boyunca takip etmeyi kolaylaştırır. Online tarafta click-through rate, dwell time ve “useful/not useful” geri bildirimleri canary deployment’larda A/B test için kullanılabilir.

Bir uyarı: retrieval iyileştirmelerinin son cevap kalitesine etkisi doğrusal değildir. Recall@10 0.78’den 0.82’ye çıkmak son cevap doğruluğunda ölçülebilir iyileşme yaratmayabilir; LLM zaten alakalı parçaları kullanabiliyorduysa marjinal bilgi sınırlı katma değer sağlar. Agentic AI iş akışları içinde retrieval çok iterasyonluysa her iterasyonun marjinal katkısı ayrı izlenmeli. End-to-end “answer quality” metriği (G-Eval, factuality scoring) gerçek başarı göstergesidir; retrieval metriği proxy’dir.

Sık Sorulan Sorular

BM25 hâlâ kullanılıyor mu yoksa tamamen vektör aramasına mı geçilmeli?

BM25 üretimde hâlâ standart bir bileşendir. 30 yıllık olgunluğu, sıfır training maliyeti ve out-of-vocabulary terimlerle (ürün kodu, kanun maddesi, kod) doğal başa çıkması nedeniyle sparse retriever olarak vazgeçilmezdir. 2026 önerisi: BM25’i tek başına değil hybrid’in bir bileşeni olarak kullanın.

Hybrid search’te RRF mi yoksa linear weighted füzyon mu daha iyi?

Genel öneri RRF’dir; çünkü parametresizdir ve skor scale farklılıklarından etkilenmez. Linear weighted füzyon ancak domain-spesifik tune ile (α değerini görev üzerinde optimize ederek) RRF’i geçebilir. Production default olarak RRF (k=60) ile başlayın.

Cross-encoder reranker ne zaman gereksiz?

Sorgu sayısının düşük olduğu ve sıralama hassasiyetinin kritik olmadığı senaryolarda (örneğin top-1 cevap yeterliyse veya LLM’in 50 parçayı işleme kapasitesi varsa) reranker atlanabilir. p95 latency bütçesi 200 ms altı ise reranker uygun olmayabilir.

Türkçe için hangi embedding modeli en iyisi?

2026 başı itibarıyla BGE-M3 ve multilingual-E5-large açık kaynak tarafında en güçlü çok dilli adaylardır; ticari tarafta OpenAI text-embedding-3-large ve Voyage-3 yarışır. Hukuk veya sağlık gibi domain-spesifik koleksiyonlarda fine-tune ciddi fayda sağlar.

ColBERT’i üretimde kullanmaya değer mi?

ColBERTv2 token-level granularitenin önemli olduğu uzun ve teknik koleksiyonlar (akademik literatür, kod, hukuk) için cazip bir seçenektir. Ancak indeks boyutu ve operasyonel karmaşıklık nedeniyle hybrid + cross-encoder yaklaşımı çoğu senaryoda daha pratik kalır; ColBERT’i öncelikli aday yapmadan önce bu ekstra karmaşıklığa değdiğini ölçün.

Sonuç

RAG sistemlerinde retrieval son cevap kalitesinin yaklaşık üçte ikisini belirler ve 2026 standardı hybrid search’tür: BM25 (veya SPLADE) sparse + dense embedding + RRF füzyonu + opsiyonel cross-encoder rerank. Tek başına BM25 lexical eşleşmede sağlamdır ama semantik ihtiyaçları karşılamaz; dense retrieval semantik güçtür ama nadir terimlerde ve out-of-domain sorgularda zayıflar. İki yaklaşımın birleşimi, MS MARCO ve domain-spesifik benchmarkların gösterdiği gibi, Recall ve nDCG metriklerinde net iyileşme sağlar.

Pratik karar çerçevesi şudur: düşük QPS B2B senaryolarınız varsa ticari API’lerle (OpenAI embeddings + Pinecone + Cohere Rerank) hızlı başlayın; yüksek QPS, regüleli veya Türkçe-yoğun koleksiyonlarda self-host (BGE-M3 + Qdrant + bge-reranker) ekonomik ve kontrol edilebilirdir. ColBERT ve LLM-as-a-judge reranker gibi gelişmiş seçenekleri ancak baseline hybrid yapı stabilize olduktan ve gerçek metriklerle ölçtükten sonra düşünün. LLM özelleştirme rehberinde hangi durumlarda retrieval iyileştirmesinin fine-tune’a tercih edilmesi gerektiği detaylandırılır.

Kurumsal bir RAG projesinde retrieval mimarisini sıfırdan tasarlamak ya da mevcut vektör aramayı hybrid + rerank yapısına evirmek istiyorsanız iletişim sayfası üzerinden Ömer Önal danışmanlık ekibine ulaşabilirsiniz.

Dış kaynaklar: Azure AI Search — Hybrid Search Overview, Stanford FutureData — ColBERT GitHub, arXiv — Retrieval-Augmented Generation (Lewis et al.), HuggingFace — MTEB Leaderboard, Cohere Rerank — Dokümantasyon, Weaviate — Hybrid Search Explained, Qdrant — Hybrid Search Article.

OmerOnal

Yorum (1)

Ömer ÖNAL
Mayıs 16, 2026
Yanıtla

Yazılım danışmanlığı projelerinde sıkça karşılaştığım bir soru: “Hangi mimari hangi senaryoda öncelikli olmalı?” Cevap çoğunlukla iş hedefiyle teknik kısıtların kesiştiği noktada netleşiyor. Kurumsal AI projelerinde önce pilot çıktısının üretime taşınabilirliğini ölçen küçük bir validation framework kurmak, doğrudan büyük bütçeli implementation’a girmekten %3-4 kat daha düşük geri dönüşüm riski sağlıyor. Yorumlarınıza açığım.

Our Gallery

Contact Info