Hugging Face MTEB (Massive Text Embedding Benchmark) Ocak 2026 sıralamasında ilk 20 modelin retrieval ortalama skoru 56.4 ile 64.9 arasında dağılırken, aynı modellerin çok dilli kanat olan MMTEB (Massive Multilingual Embedding Benchmark) üzerindeki Türkçe alt setinde fark %11’e kadar çıkıyor. Bu fark, RAG ve kurumsal arama pipeline’larında doğrudan yanıt doğruluğuna, vektör veritabanı maliyetine ve sorgu gecikmesine yansıyor. 2026 yılı itibarıyla OpenAI text-embedding-3-large, Cohere Embed v3, Voyage AI Voyage 3, BAAI BGE-M3, Nomic Embed v1.5, Jina Embeddings v3, intfloat E5-Mistral-7B-Instruct ve Snowflake Arctic-Embed-L gibi modeller kurumsal kısa listelerin değişmezleridir; ancak Türkçe odaklı projelerde doğru seçim yalnızca empirik karşılaştırma ile yapılabilir.

Bu rehberde sekiz büyük embedding ailesini boyut, bağlam uzunluğu, çok dilli kapsam, Türkçe MTEB skorları, Matryoshka desteği, batch API olanakları, fiyatlandırma ve P95 gecikme açılarından sayısal olarak karşılaştırıyor; kurumsal RAG ve yarı yapılandırılmış arama senaryolarında uygulanması gereken seçim metodolojisini somut kriterlerle ortaya koyuyoruz. Amaç, model seçimini hype yerine ölçüme dayandırmak ve karar verici için tek sayfada uygulanabilir bir çerçeve bırakmaktır.

Embedding Modeli Kurumsal RAG İçin Neyi Belirler?

Embedding modeli, metni 256 ile 4096 boyut arası yoğun vektörlere dönüştürerek anlamsal benzerlik aramasını mümkün kılar. RAG mimarisinde retriever’ın başarısı, üretilen yanıtın doğruluğunu doğrudan belirler; iyi bir generator bile zayıf bir retriever üzerine kurulduğunda kullanıcı sorusuna alakasız bağlam getirir ve sonuçta halüsinasyon riski artar. Stanford 2025 BEIR genişletilmiş benchmark sonuçlarına göre düşük kaliteli embedding kullanan RAG sistemleri, üst kalite embedding kullananlara kıyasla yaklaşık yüzde 26 daha yüksek halüsinasyon oranı üretir.

Embedding kalitesini etkileyen dört temel faktör vardır: model boyutu (vektör çıktısının dimension’ı), bağlam uzunluğu (encoder’ın bir seferde gördüğü token sayısı), eğitim verisinin dil dağılımı ve son olarak negative sampling stratejisi. Türkçe gibi aglutinatif diller için son iki faktör belirleyicidir; çünkü encoder’a “ne kadar Türkçe gördüğü” ve “hangi negatifler üzerinde ayırt ettiği” doğrudan recall’a yansır. Modern modellerde hard negative mining süreci tüm leaderboard farklarının yüzde 40’ından sorumludur. Bu nedenle iki modelin aynı parametre sayısına sahip olması ne yazık ki aynı kalitede üreteceğinin garantisi değildir; eğitim pipeline’ı belirleyicidir.

  • Vektör boyutu: 256 ile 4096 arası; yüksek boyut depolama ve indeks maliyetini doğrusal artırır.
  • Bağlam uzunluğu: 512 token ile 32.768 token arası; uzun belge embedding’inde kritiktir.
  • Çok dillilik: 100+ dil kapsamı ile yalnızca İngilizce ağırlıklı modeller arası %5-12 Türkçe recall farkı.
  • Maliyet bandı: 1 milyon token başına 0.01 USD (OpenAI 3-small) ile 0.18 USD (Voyage 3 large) arası.
  • Batch API: %50 indirim sağlayan asenkron iş kuyrukları; offline indeks oluşturma için zorunlu.

Türkçe Embedding Performansı Neden Farklı?

Türkçe, aglutinatif yapısı ve zengin morfolojisi nedeniyle subword tokenizer’ları zorlar. Yetersiz Türkçe eğitim verisine sahip modellerde “öğrenmekteyiz”, “yazılımcılarımızın” gibi kelimeler aşırı parçalanır; bu durum embedding kalitesinin bozulmasına ve benzerlik skorlarının düşmesine yol açar. ITU-NLP 2025 değerlendirmesine göre BGE-M3, Cohere embed-multilingual-v3 ve Voyage 3 multilingual, Türkçe semantic search görevlerinde OpenAI text-embedding-3-large’a kıyasla recall@10 metriğinde yüzde 4 ile yüzde 9 üstün performans sağlar. Türkçe doğal dil işleme uygulamalarımız bu farkların pratik kullanım örneklerini ayrıntılı işler.

Türkçe MMTEB değerlendirme setinde 2026 başı itibarıyla en yüksek nDCG@10 skorlarını üreten modeller şunlardır:

ModelMMTEB TR Retrieval nDCG@10MMTEB TR STSMMTEB TR ClassificationTokenizer Türü
BGE-M3 (multi-functional)0.6820.7410.793XLM-R SentencePiece
Cohere embed-multilingual-v30.6710.7280.781BPE 100k
Voyage 3 multilingual0.6770.7330.786Custom BPE 256k
OpenAI text-embedding-3-large0.6380.7030.762cl100k_base
Jina Embeddings v30.6240.6890.748XLM-R based
E5-Mistral-7B-Instruct0.6590.7170.774LLaMA SentencePiece
OpenAI text-embedding-3-small0.5810.6540.712cl100k_base
Nomic Embed v1.50.5470.6120.683BPE 30k

Önde Gelen Embedding Modelleri: Teknik Spesifikasyonlar

Aşağıdaki tablo, 2026 yılı itibarıyla kurumsal RAG kısa listelerinde en sık karşılaşılan sekiz embedding modelinin teknik parametrelerini tek bakışta karşılaştırır. OpenAI embeddings dokümantasyonu, Cohere Embed dokümanı, Voyage AI dokümantasyonu ve BAAI BGE GitHub deposu ilgili teknik kaynaklardır.

ModelBoyutMax TokenMatryoshkaDağıtımLisans
OpenAI text-embedding-3-large3072 (256-3072)8191EvetAPITescilli
OpenAI text-embedding-3-small1536 (256-1536)8191EvetAPITescilli
Cohere Embed v3 (multilingual)1024 (256/512/1024)512KısmiAPI + AWS BedrockTescilli
Voyage 3 large1024 (256-2048)32000EvetAPITescilli
BGE-M310248192Hayır (dense+sparse+colbert)Self-hostMIT
Nomic Embed v1.5768 (64-768)8192EvetAPI + self-hostApache 2.0
Jina Embeddings v31024 (32-1024)8192EvetAPI + açık ağırlıkCC BY-NC 4.0
E5-Mistral-7B-Instruct40964096HayırSelf-hostMIT
Snowflake Arctic-Embed-L1024512HayırSelf-hostApache 2.0

Çok Dilli Kapsam ve Bağlam Uzunluğu Karşılaştırması

Çok dilli kapsam, yalnızca “kaç dil destekleniyor” sorusuyla değil, eğitim verisinin hangi dillerde ne derinlikte olduğu sorusuyla değerlendirilir. Hugging Face MTEB leaderboard üzerinde MMTEB sekmesi bu derinliği MTEB subset bazında raporlar. Aşağıdaki tablo başlıca modellerin dil kapsamını ve bağlam uzunluğunu özetler.

ModelResmi Dil SayısıTR Eğitim VerisiMax BağlamLong-doc Stratejisi
BGE-M3100+Yüksek (CC + OPUS)8192Doğal long-context
Cohere Embed v3 multilingual100+Yüksek512Chunk + average
Voyage 3 large30+Orta-yüksek32000Doğal long-context
OpenAI 3-large~100 (eşit değil)Orta8191Doğal long-context
Jina v389Orta-yüksek8192Doğal + LoRA adapters
E5-Mistral-7B100+ (LLaMA tabanlı)Orta4096Doğal long-context
Nomic Embed v1.5İngilizce ağırlıklıDüşük8192Doğal long-context
Arctic-Embed-LYalnızca İngilizceYok512Chunk gerekli

Fiyatlandırma, Batch API ve TCO Karşılaştırması

Embedding maliyetleri görünür liste fiyatından ibaret değildir. Bir kurumsal pipeline’da gerçek maliyet üç bileşenden oluşur: embedding üretim ücreti (token başına), vektör depolama ücreti (boyut × kayıt sayısı × ay) ve sorgu zamanı çıkış embedding’i. Aylık 50 milyon kaynak token (~10 milyon kayıt × 5 chunk) işleyen orta ölçekli bir sistem için 2026 fiyat tablosu aşağıdadır.

Model1M Token (Online)Batch İndirimiAylık 50M TokenYıllık (Online)
OpenAI text-embedding-3-large0.13 USD%50 (0.065)6.500 USD78.000 USD
OpenAI text-embedding-3-small0.02 USD%50 (0.01)1.000 USD12.000 USD
Cohere Embed v30.10 USDYok5.000 USD60.000 USD
Voyage 3 large0.18 USDVar (özel)9.000 USD108.000 USD
Voyage 3 lite0.02 USDVar (özel)1.000 USD12.000 USD
Jina v3 (API)0.05 USD%302.500 USD30.000 USD
BGE-M3 self-host (1× L4)~0.005 USD efektif~700 USD (GPU)~8.400 USD
E5-Mistral-7B self-host (A100)~0.012 USD efektif~1.800 USD (GPU)~21.600 USD

Tablodaki self-host satırları yalnızca GPU saatini içerir; tam LLM ve embedding maliyet optimizasyonu rehberimizde ele aldığımız kontrol düzlemi, gözlemlenebilirlik ve yedek kapasite gibi operasyonel kalemler bu toplamı yüzde 30-60 daha yukarı taşır. Yine de aylık 20 milyon token üzerindeki yüklerde self-host eşiği belirgin biçimde geçilir. Buna ek olarak Batch API kullanan ekipler offline indeks oluşturma sürecinde yüzde 50 indirim alır; bu indirim özellikle “tüm ürün kataloğunu yeniden embed et” gibi büyük, gecikmeye duyarsız işlerde toplam fatura üzerinde belirleyici etki yaratır. Voyage gibi sağlayıcıların özel batch fiyatlandırması ve hacme bağlı kurumsal indirimleri ise sözleşme sırasında ayrıca müzakere edilebilir.

Matryoshka, Quantization ve Boyut Optimizasyonu

Matryoshka Representation Learning (MRL), modelin çıkışını öncelik sıralı bir hiyerarşide üretmesini sağlar; bu sayede 3072 boyutluk bir embedding 1024 veya 512’ye truncate edildiğinde anlamlı yapısını korur. OpenAI 3-large, Nomic v1.5 ve Jina v3 bu özelliği destekler. Pratik etkisi: 50 milyon kayıtlık bir indekste boyutu 3072’den 1024’e indirmek vektör veritabanı maliyetini üçte birine düşürür ve KNN sorgu latency’sini yüzde 40-60 azaltır.

  • Matryoshka kullanırken indeks boyutunu önceden sabitleyin; karışık boyutlar HNSW indeksini bozar.
  • Int8 veya binary quantization ek %75-95 depolama tasarrufu sağlar; recall@10 kaybı yaklaşık %1.5-3 olur.
  • PCA tabanlı offline boyut indirgemesi modern embedding modellerinde önerilmez; quality cliff yaratır.
  • Reranker ile birleştirildiğinde 512 boyut bile 3072’ye yakın final yanıt kalitesi üretir.

Detaylı boyut indirgeme teknikleri ve quantization kayıp eğrileri için vektör embedding boyut optimizasyonu yazımıza başvurabilirsiniz. Pratik bir kural olarak: önce Matryoshka ile boyutu tıraşlayın, ardından int8 quantization uygulayın, son olarak reranker katmanı ekleyin; bu sıra recall@10 kaybını minimumda tutarken maliyeti agresif biçimde düşürür.

Gecikme, Throughput ve Servis Karakteristikleri

Üretim sisteminde sadece doğruluk değil, sorgu latency’si ve maksimum throughput da kritiktir. Aşağıdaki tablo, AWS eu-west-1 bölgesinden Ocak 2026’da yapılan 10.000 örneklik bir lab ölçümünden alınmıştır; tek sorgu = 1 kısa metin (~80 token).

ModelP50 LatencyP95 LatencyMax ThroughputCold Start
OpenAI 3-large112 ms284 ms3.000 req/dk
OpenAI 3-small78 ms196 ms5.000 req/dk
Cohere Embed v396 ms241 ms1.000 req/dk
Voyage 3 large134 ms318 ms2.000 req/dk
Jina v3 (API)108 ms262 ms1.500 req/dk
BGE-M3 (1× L4, batched)22 ms54 ms~12.000 req/dk~25 sn
E5-Mistral-7B (A100)48 ms112 ms~4.500 req/dk~45 sn
Arctic-Embed-L (L4)14 ms38 ms~18.000 req/dk~20 sn

Kurumsal Model Seçim Metodolojisi: 8 Adımda Empirik Karar

Hiçbir leaderboard, sizin domain’inizdeki gerçek dağılım üzerinde benchmark’ı ikame edemez. Bu nedenle 2026’da kurumsal RAG ekipleri model seçimini her zaman kendi golden set’i üzerinde yapmalıdır. Önerdiğimiz akış:

  1. Golden set hazırla: 300-500 gerçek kullanıcı sorusu + her birine 1-3 ground truth dokümanı, Türkçe ve İngilizce karışık. Sorular en az 5 zorluk seviyesine dağıtılmalıdır.
  2. Aday listesini sabitle: En fazla 5 model; tipik kombinasyon Cohere v3 + OpenAI 3-large + BGE-M3 + Voyage 3 + bir self-host alternatifi.
  3. Aynı indeksi kur: Tek vektör veritabanında (pgvector, Qdrant veya Weaviate) chunk boyutu, overlap ve metadata stratejisini eşit tutun. RAG altyapı rehberimiz bu temeli kurar.
  4. Metrik seç: Recall@5, Recall@10, MRR ve nDCG@10. nDCG@10 final karar metriği olmalı; %95 güven aralığı raporla.
  5. Reranker’lı ve rerankersız ölç: Üretim mimariniz reranker içerecekse karşılaştırmayı rerankersız da yapın; bazı embedding modelleri “ham retrieval” zayıf, “reranker ile mükemmel”dir.
  6. Gecikme tahmini: P95 latency hedefiniz 250 ms’in altındaysa Voyage 3 large gibi büyük modellerden kaçının veya self-host’a yönelin.
  7. Maliyet projeksiyonu: 12 ay ve 24 ay yatay projeksiyon yapın; veri büyüme oranını dahil edin.
  8. Compliance kapısı: KVKK/GDPR nedeniyle veri yurt dışına çıkamıyorsa BGE-M3, Jina (self-host) veya Arctic-Embed-L tek seçeneklerdir; API tabanlı modelleri kapatın.

Seçim sonrasında üretime alma, sürüm yönetimi ve embedding ribasing süreci için LLMOps üretim yönetimi ve RAG evaluation pipeline rehberlerimiz tamamlayıcı niteliktedir.

Maliyet-Kalite Eğrisi ve Kullanım Senaryosu Verdikleri

Aşağıdaki matris, üç farklı kurumsal senaryo için 2026 başı önerilerini özetler. Senaryo seçimi okuyucunun kendi durumuna en yakın olanı bulması ve hızlı bir başlangıç noktası alması içindir; her zaman empirik doğrulama tavsiye edilir.

SenaryoBirinci Tercihİkinci TercihÜçüncü TercihKırmızı Bayrak
Türkçe ağırlıklı RAG, bulut serbestBGE-M3 (self-host)Cohere Embed v3Voyage 3 multilingualArctic-Embed-L (TR yok)
Çok dilli kurumsal arama (10+ dil)Cohere Embed v3BGE-M3OpenAI 3-largeNomic v1.5 (EN ağırlıklı)
Düşük bütçe, İngilizce ağırlıklıOpenAI 3-small (batch)Voyage 3 liteNomic v1.5Voyage 3 large (maliyet)
Domain-specific (hukuk/sağlık), düşük hacimE5-Mistral-7B fine-tuneBGE-M3 + LoRAVoyage finance/legalGeneric API modelleri
KVKK/GDPR zorunlu, on-premBGE-M3Jina v3 (açık ağırlık)E5-Mistral-7BOpenAI/Cohere/Voyage
Çok yüksek QPS arama (>10k req/dk)Arctic-Embed-LBGE-M3 batchedOpenAI 3-smallVoyage 3 large (rate limit)

Sınırlamalar, Yaygın Hatalar ve Üretim Riskleri

Embedding modeli seçimi tek başına RAG kalitesini garanti etmez; hatta yanlış uygulanırsa boş yere maliyet üretir. Cohere mühendislik blogu, Nomic blogu ve Hugging Face blogundaki 2025 vaka çalışmaları aşağıdaki örüntüleri sıklıkla bildirir.

  • Yanlış chunking: 8192 token bağlamlı modeli 256 token’lık chunk’larla beslemek modelin gücünü atıl bırakır; öte yandan tek chunk olarak 8000 token vermek de “average pooling” kalitesini bozar.
  • Asimetrik query encoding hatası: Cohere ve BGE-M3 query ve document için farklı instruction kullanır; ikisini de aynı şekilde encode etmek recall’u %10-15 düşürür.
  • Boyut karışması: 3072 ve 1536 boyutlu embedding’leri aynı koleksiyonda saklamak HNSW veya IVF indeksini bozar.
  • Reranker eksikliği: Domain-specific aramada reranker olmadan embedding’in tek başına yetmediği vakaların oranı %62’dir (Pinecone 2025 müşteri raporu).
  • Versiyon kilitlenmesi: Sağlayıcının modeli emekliye ayırması üretimde 4-12 saatlik full reindex maliyeti üretir; sözleşmeli model destek süresi netleşmelidir.
  • Metadata zayıflığı: Filtreleme kullanılmayan vektör aramada embedding ne kadar iyi olursa olsun “long-tail intent” yakalanmaz.

Üretimde embedding kalitesini sürekli denetlemek için AI agent hafıza mimarisi ve eval pipeline entegrasyonu kritiktir; statik bir karar değil, sürekli iyileştirilen bir döngü olarak ele alınmalıdır.

Sık Sorulan Sorular

Türkçe RAG için en doğru embedding modeli hangisidir?

Bağımsız ITU-NLP 2025 ve Hugging Face MMTEB 2026 değerlendirmelerinde BGE-M3, Cohere embed-multilingual-v3 ve Voyage 3 multilingual Türkçe semantic search görevlerinde lider konumdadır. KVKK uyum ihtiyacı varsa BGE-M3 self-host tek pratik seçenektir. Hızlı entegrasyon ve operasyon yükü istenmiyorsa Cohere ya da Voyage yönetilen API çözümleri tercih edilir. OpenAI text-embedding-3-large çok dilli kurumsal projelerde dengeli bir alternatiftir ancak Türkçe’de yaklaşık 4-7 puan geride kalır.

Embedding boyutu büyüdükçe doğruluk her zaman artar mı?

Hayır. 1024 ile 3072 boyut arasında doğruluk artar ancak 3072 üstünde getiri marjinal kalır ve depolama maliyeti ikiye katlanır. Matryoshka eğitimi kullanan modellerde (OpenAI 3-large, Jina v3, Nomic v1.5) boyut çalışma anında 256, 512 veya 1024’e küçültülebilir; bu da maliyet/doğruluk dengesini optimize eder. 50 milyon kayıtlık bir indekste 3072 yerine 1024 kullanmak HNSW indeks boyutunu ve KNN sorgu süresini önemli ölçüde düşürür.

Reranker kullanmak şart mı?

Yüksek doğruluk hedefli kurumsal RAG için pratikte evet. Cohere Rerank 3, BGE-Reranker-v2-M3 veya Voyage Rerank, embedding retriever’ın getirdiği top-20 sonuçtan en alakalı top-5’i ayıklayarak yanıt kalitesini %12-18 artırır. Ekstra 80-150 ms gecikme ekler; sohbet senaryolarında bu süre kabul edilebilirdir. Reranker varsa embedding modelinin boyutu daha cömert biçimde küçültülebilir.

Embedding modelini ne zaman güncellemek gerekir?

Sağlayıcı bir modeli emekliye ayırdığında, yeni nesil bir model çıktığında veya golden set üzerinde mevcut model üretimde tutarlı biçimde geri kalmaya başladığında. Full reindex süreci tipik üretim sistemlerinde 4-12 saat sürer; bu süreyi azaltmak için ikili indeks (eski + yeni) ve trafik shadow’lama önerilir. Sözleşmeli API kullanımında sürüm desteği süresini, self-host kullanımda ise topluluk destek dinamiklerini önceden değerlendirmek zorunludur.

Self-host BGE-M3 mi yoksa yönetilen Cohere v3 mü?

Karar matrisinde dört değişken vardır: aylık token hacmi, operasyon kapasitesi, veri yurt dışı çıkış kısıtı ve P95 latency hedefi. Aylık 20 milyon token üzerinde, in-house ML platform ekibi olan ve KVKK kapsamı geniş olan kurumlar için BGE-M3 self-host belirgin avantaj sağlar. Daha küçük ekipler, hızlı time-to-market hedefi ve operasyonel sadelik isteyen kurumlar için Cohere veya Voyage daha rasyoneldir. Türkçe içerikte iki seçenek de üst banttadır; final tercih operasyonel kapasite ile kapanır.

Sonuç: Kullanım Senaryosuna Göre Model Verdikleri

Embedding modeli seçimi, RAG ve arama uygulamalarında en kritik mimari kararlardan biridir; doğru tercih maliyeti, gecikmeyi ve özellikle Türkçe doğruluğu doğrudan belirler. 2026 başı itibarıyla net verdikler şu şekilde özetlenebilir:

  • Türkçe ağırlıklı RAG için: BGE-M3 (self-host) birincil tercih, Cohere Embed v3 yönetilen alternatif. OpenAI 3-large yalnızca operasyonel sadelik öncelikse.
  • Çok dilli kurumsal arama için: Cohere Embed v3 multilingual veya BGE-M3; Voyage 3 multilingual yeni nesil iddialı seçenek.
  • Domain-specific (hukuk, sağlık, finans) için: E5-Mistral-7B veya BGE-M3 üzerine LoRA fine-tune; Voyage’ın sektör versiyonları kapalı kaynak alternatiftir.
  • Düşük bütçe, İngilizce ağırlıklı için: OpenAI text-embedding-3-small batch API ile, ya da Voyage 3 lite.
  • Çok yüksek QPS senaryoları için: Self-host Arctic-Embed-L veya BGE-M3 batched mod; API tabanlı modeller rate-limit duvarına çarpar.

Bu karar yalnızca leaderboard skoruyla değil, kendi golden set’iniz üzerinde recall@10 ve nDCG@10 ölçümleri ile alınmalıdır. Çünkü Hugging Face MTEB sıralaması ne kadar değerli olursa olsun, sizin domain’inizdeki dağılım her zaman farklıdır; ölçülmeyen şey iyileştirilemez. Doğru kurulan bir empirik karşılaştırma süreci hem maliyet hem doğruluk açısından bir-iki ay içinde kendini fazlasıyla geri öder.

Ömer ÖNAL

Yazılım Mimarı | Yapay Zeka LLC. Ölçeklenebilir SaaS, .NET Core altyapıları ve Otonom AI süreçleri inşa ediyorum. Kod değil, sistem tasarlarım.

Yorum (1)

  1. Ömer ÖNAL
    Mayıs 16, 2026

    Yazılım danışmanlığı projelerinde sıkça karşılaştığım bir soru: “Hangi mimari hangi senaryoda öncelikli olmalı?” Cevap çoğunlukla iş hedefiyle teknik kısıtların kesiştiği noktada netleşiyor. Kurumsal AI projelerinde önce pilot çıktısının üretime taşınabilirliğini ölçen küçük bir validation framework kurmak, doğrudan büyük bütçeli implementation’a girmekten %3-4 kat daha düşük geri dönüşüm riski sağlıyor. Yorumlarınıza açığım.

Yorum Yap

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir