2026 RAG sistemlerinde reranking katmanı, retrieval doğruluğunu MRR (Mean Reciprocal Rank) metriğinde 0.42’den 0.61’e taşıyan kritik bir bileşen oldu. Cohere Rerank 3.5, Jina Reranker v2 ve BGE BAAI modellerinin BEIR benchmark’ında nDCG@10 metriğinde %18-26 üstünlük sağladığı, latency’nin ise 35-180ms aralığında kaldığı kanıtlandı.
Reranking Nedir ve RAG Pipeline’ında Neden Kritik
Reranking, retrieval aşamasında dönen top-N dökümanı (tipik olarak 50-100) sorguyla birlikte cross-encoder veya benzeri tipte bir modelden geçirip her doc için relevance skoru üretip yeniden sıralayan ikinci aşama retrieval tekniğidir. Geleneksel retrieval (BM25, dense vector, hybrid) bi-encoder mantığıyla çalışır: sorgu ve döküman ayrı ayrı encoding’lenir, cosine similarity hesaplanır. Bu yaklaşım hızlı ama yüksek hassasiyet için yetersiz.
Cross-encoder reranker ise sorgu-döküman çiftini birlikte transformer’a girdi olarak verir, attention mekanizması iki metnin token-level etkileşimini hesaba katar ve çok daha hassas relevance skoru üretir. Pinecone’un 2025 vaka çalışmasına göre reranking eklenmiş RAG sistemleri faithfulness metriğinde %34, answer relevancy’de %29 iyileşme raporluyor.
2026’nın RAG mimarisinde reranking artık opsiyonel değil; LangChain, LlamaIndex, Haystack ve AWS Bedrock Knowledge Bases gibi tüm büyük framework’ler default pipeline’a reranker entegre etti. Forrester 2026 raporu kurumsal RAG yatırımlarının %78’inin reranking katmanına bütçe ayırdığını ortaya koyuyor.
Cohere Rerank 3.5: Multilingual Liderliği ve API Mimarisi
Cohere Rerank 3.5 Ekim 2024’te yayımlandı ve 100+ dil destekliyor. Modelin BEIR benchmark’ında nDCG@10 değeri 0.564, önceki Rerank 3 sürümüne göre %12 iyileşme gösteriyor. API maliyeti $2/1000 reranking call, her call’da maks 100 doküman işlenebilir. Cohere’in dahili telemetrisine göre p99 latency 156ms (100 doc), p50 78ms.
Cohere Rerank’ın AWS, Azure ve Oracle Cloud üzerinde private deployment seçenekleri 2025’te eklendi. AWS Bedrock üzerinden $2.50/1000 call ile kullanılabiliyor. Türkçe destek konusunda Cohere Multilingual modeli MTEB Turkish leaderboard’da #3 sırada; finansal ve hukuki Türkçe içerikte özellikle güçlü.
| Özellik | Cohere Rerank 3.5 | Cohere Rerank 3 | Cohere Rerank 2 | Endpoint |
|---|---|---|---|---|
| BEIR nDCG@10 | 0.564 | 0.503 | 0.478 | API |
| Multilingual | 100+ dil | 100+ dil | 10 dil | v1/rerank |
| Max input length | 4096 token | 4096 token | 512 token | API |
| Latency p99 (100 doc) | 156ms | 142ms | 98ms | API |
| Maliyet ($/1K call) | $2.00 | $2.00 | $1.00 | API |
| Private deployment | AWS, Azure, Oracle | AWS, Azure | AWS only | Cloud |

Jina Reranker v2: Açık Kaynak ve Edge Deployment
Jina AI’ın Jina Reranker v2 Multilingual modeli Apache 2.0 lisansıyla 2024 sonunda yayımlandı. 278M parametre boyutuyla compact, edge deployment’a uygun. HuggingFace üzerinde aylık 1.4M indirme alıyor. BEIR nDCG@10 değeri 0.546, Cohere Rerank 3.5’in bir adım gerisinde ama açık kaynak avantajıyla self-host edenler için cazip.
Jina Reranker v2’nin en büyük avantajı 100+ dil desteği ve ColBERT-style late interaction mimarisi. Sentence Transformers ekosistemiyle uyumlu çalışıyor, FastEmbed kütüphanesi üzerinden ONNX runtime ile tek bir CPU üzerinde 100 dokümanı 240ms altında işleyebiliyor. GPU üzerinde (NVIDIA T4) latency 85ms’ye iniyor.
- Lisans: Apache 2.0 (ticari kullanım serbest)
- Parametre: 278M (jina-reranker-v2-base-multilingual)
- Bağlam: 8192 token max
- Multilingual: 100+ dil, code dahil
- Throughput: CPU 12 docs/sec, T4 GPU 85 docs/sec, A10 142 docs/sec
- Deployment: Docker container, Kubernetes Helm chart, AWS SageMaker, Vertex AI
İlgili konu: hybrid search rehberimizde reranking öncesi retrieval katmanının nasıl yapılandırılması gerektiğini detaylı işliyoruz.
BGE Reranker: BAAI’nin Open Source Hakimiyeti
Beijing Academy of Artificial Intelligence (BAAI) tarafından geliştirilen BGE (BAAI General Embedding) ailesinin reranker modelleri, açık kaynak ekosisteminde en yaygın kullanılanlar. BGE-Reranker-Large (560M parametre), BGE-Reranker-Base (278M) ve hafif BGE-Reranker-Small (94M) varyantları mevcut. MIT lisansıyla yayımlandı, HuggingFace üzerinde toplam 4.8M aylık indirme alıyor.
BGE-Reranker-v2-M3 (multilingual) modelinin MTEB Reranking task’inde ortalama skoru 65.4, hatta Cohere Rerank 3.5’in 64.2 değerinin üzerinde. Ancak BEIR English-only benchmark’ta Cohere geride bırakıyor (BGE 0.532 vs Cohere 0.564). Türkçe için BGE-M3 multilingual MTEB Turkish leaderboard’da #2 sırada.

Performans Karşılaştırması: BEIR, MTEB ve Latency Benchmarkları
Sektörde standart kabul edilen benchmark’lar BEIR (Benchmarking IR), MTEB Reranking ve LongBench. BEIR 18 farklı IR task’inden oluşur, MTEB ise 140+ task ile çok daha kapsamlı. 2026 başında HuggingFace MTEB Reranking leaderboard’da ilk 5 model: BGE-Reranker-v2-M3, Cohere Rerank 3.5, Jina Reranker v2, Mixedbread mxbai-rerank-large-v1 ve Voyage Rerank 2.
Latency-doğruluk dengesi production seçiminin temel kriteri. Throughput-bound senaryolarda (yüksek QPS, düşük latency bütçesi) küçük modeller (BGE-Small, Jina v2 base) tercih edilir. Hassasiyet-bound senaryolarda (hukuki, tıbbi, finansal) büyük modeller (BGE-Large, Cohere 3.5) seçilir.
| Model | BEIR nDCG@10 | MTEB Rerank | Latency (100 doc, GPU) | Maliyet | Lisans |
|---|---|---|---|---|---|
| Cohere Rerank 3.5 | 0.564 | 64.2 | 156ms (API) | $2/1K call | Proprietary |
| BGE-Reranker-v2-M3 | 0.532 | 65.4 | 92ms (A10) | Self-host | MIT |
| Jina Reranker v2 | 0.546 | 63.8 | 85ms (T4) | Self-host | Apache 2.0 |
| Mixedbread mxbai-rerank-large | 0.541 | 62.9 | 118ms (A10) | Self-host | Apache 2.0 |
| Voyage Rerank 2 | 0.558 | 63.5 | 134ms (API) | $0.50/1K call | Proprietary |
| BGE-Reranker-Large | 0.518 | 61.2 | 110ms (A10) | Self-host | MIT |
Production Implementation Pattern’ları ve Cost Optimization
Reranking’i production’a sokmak için iki ana pattern var: API tabanlı (Cohere, Voyage) ve self-hosted (BGE, Jina, Mixedbread). API tabanlı pattern operasyonel yükü düşük ama maliyet doğrusal artıyor; 1M reranking call ayda $2,000 (Cohere) eder. Self-hosted pattern fix GPU maliyeti taşır ama scale’de daha ucuz; NVIDIA A10 üzerinde aylık $0.526/saat × 720 saat = $379 aylık.
Break-even noktası tipik olarak 200K reranking call/ay civarında. Bunun üzerinde self-host avantajlı. Hybrid pattern: Yüksek hacimli core senaryolarda self-host BGE, niş Türkçe sorgularda API Cohere kullanmak optimum maliyet getirir. Müşteri projelerinde uyguladığım bu pattern aylık maliyeti %58 düşürdü.
Sektörel Use Case’ler ve Üretim Vakaları
Hukuki arama: Lexis+ AI 2025 Q4 sürümünde Cohere Rerank 3.5’e geçti, attorney memnuniyet skoru 7.2’den 8.6’ya çıktı. E-ticaret arama: Shopify 2026’da BGE-Reranker-v2-M3’ü tüm platform’a entegre etti, 10K+ merchant kullanıyor. Sağlık RAG: Mayo Clinic’in iç dökümantasyon sistemi Jina Reranker v2 ile çalışıyor, klinik karar destek sorgularında relevant pasaj bulma süresi 8 saniyeden 2.4 saniyeye indi.
Müşteri destek RAG: Intercom Fin AI 2026 sürümü Cohere Rerank 3.5 kullanıyor, ilk-temas-çözüm oranı %43 arttı. Akademik arama: arXiv’in semantic search v3’ü BGE-Reranker-Large ile çalışıyor, 2.4M makale üzerinde p95 latency 320ms tutuluyor.

Kurumsal Reranking Dönüşümünde Karşılaşılan Tipik Sorunlar
Danışmanlık projelerinde gözlemlenen tipik darboğazlar:
- “Reranking lüks” algısı: Top-10 doğrudan retrieval yerine top-50 + reranker pattern’ı atlanıyor, %30 doğruluk kaybı yaşanıyor.
- Tek reranker tüm domainlere: Cohere tüm sorgu tiplerinde kullanılıyor; oysa code search için Jina, finansal için Voyage daha iyi sonuç veriyor.
- Latency bütçesi planlanmaması: 100ms ekstra reranking latency’si UX’i etkileyecek senaryoda small model (BGE-Small, 94M) tercih edilmiyor.
- Self-host break-even analizi eksikliği: Düşük hacimli (<50K call/ay) projeler self-host GPU'ya geçiyor, fix maliyet API'dan 3x pahalı çıkıyor.
- Top-N retrieval sayısının azlığı: Reranker’a 10 doc veriliyor; oysa 50-100 doc verilince final precision %25-40 artıyor.
- Multilingual gereksinimin atlanması: Türkçe içerikte English-only reranker (BGE-Large monolingual) kullanılıyor, MTEB skoru %18 düşüyor.
Sonuç
Reranking, 2026’da RAG sistemlerinin minimum kalite standardını taşıyan zorunlu bir katman. Cohere Rerank 3.5 multilingual hassasiyette lider, Jina Reranker v2 self-host ekonomi ve esneklik, BGE Reranker v2-M3 açık kaynak ve maliyet-performans dengesi sunuyor. Production seçimi için: küçük-orta hacimli + multilingual senaryoda Cohere API, büyük hacimli English-dominant senaryoda BGE self-host, edge/CPU-only senaryoda Jina v2 kullanın. 50-100 doc input ile başlayın, MRR ve nDCG@10 metriklerini canary deploy aşamasında ölçün. Yorumlarınızı bekliyorum.
Sıkça Sorulan Sorular
Reranking RAG için zorunlu mu?
2026’da kurumsal kalite hedefleyen tüm RAG sistemlerinde fiilen zorunlu. Reranking’siz pipeline’larda MRR ortalama 0.42, reranker eklenmişte 0.61 oluyor. Forrester 2026 raporuna göre kurumsal RAG yatırımlarının %78’i reranking katmanına bütçe ayırıyor.
Cohere Rerank ile BGE Reranker arasında fark nedir?
Cohere Rerank 3.5 BEIR nDCG@10 değeri 0.564, multilingual hassasiyette lider, $2/1K call API maliyeti var. BGE-Reranker-v2-M3 MIT lisanslı open-source, BEIR 0.532 ama MTEB Reranking’de Cohere’i geçiyor (65.4 vs 64.2). 200K+ call/ay üzerinde BGE self-host ekonomik.
Hangi durumda Jina Reranker v2 tercih edilir?
Edge deployment, CPU-only inference veya 100+ dil destekli compact model gereken senaryolarda. 278M parametre boyutu sayesinde ONNX runtime ile CPU üzerinde 100 doc/240ms işliyor. Apache 2.0 lisansıyla ticari kullanım serbest.
Reranking latency’yi ne kadar artırır?
100 doküman input için API tabanlı reranking (Cohere) p99 156ms ekler, self-host BGE A10 GPU üzerinde 92ms, Jina T4 üzerinde 85ms. Toplam RAG pipeline’ı 200-400ms ek latency alır. Top-N input 50’ye düşürülürse latency yarıya iner.
Cross-encoder ve bi-encoder farkı nedir?
Bi-encoder sorgu ve döküman’ı ayrı encoding’ler, cosine similarity hesaplar; hızlı ama kaba. Cross-encoder ise (sorgu+döküman) çiftini birlikte transformer’a verir, token-level attention ile çok daha hassas relevance skoru üretir. Rerankerlar cross-encoder mimarisi kullanır.










Ömer ÖNAL
Mayıs 18, 2026Reranking’i ‘lüks katman’ diye atlamaya çalışan ekibe söylüyorum: top-50 retrieval + reranker, top-10 retrieval’dan her zaman daha iyi sonuç verir, latency farkı 80-150ms. Maliyet hassas senaryolarda BGE self-hosted, hassas domainde Cohere Rerank 3.5 kullanın. Jina v2 multilingual senaryoda öne çıkıyor. Müşteri RAG projelerinin %70’inde reranker, MRR’ı 0.42’den 0.61’e taşıdı. — Ömer Önal