Gemma vs Phi vs Mistral 2026: Küçük Açık Kaynak LLM Karşılaştırması

Small LLM karşılaştırma tartışması 2026’da artık “hangisi en iyi?” değil, “hangisi hangi iş yüküne uygun?” sorusuna evrildi. Google’ın Gemma 2 ailesi (2B, 9B, 27B), Microsoft’un Phi-3 ve Phi-3.5 serisi (mini 3.8B, small 7B, medium 14B) ve Mistral AI’ın Mistral 7B, Mistral Small (22B) ve Mixtral 8x7B modelleri, 7-27 milyar parametre aralığında üç farklı tasarım felsefesini temsil ediyor: Gemma “Gemini destilasyonu” ile genel amaçlı, Phi “ders kitabı kalitesinde sentetik veri” ile akıl yürütme odaklı, Mistral ise “Avrupa egemenliği + lisans esnekliği” odaklı. Ana cevap kısaca: genel sohbet ve çok dilli görevler için Gemma 9B/27B, kod ve matematik için Phi-3 medium, RAG ve düşük gecikme için Mistral 7B/Mixtral 8x7B tercih edilir. Bu rehber MMLU, HumanEval, MT-Bench, GSM8K benchmark verilerini, vLLM/llama.cpp throughput ölçümlerini, lisans şartlarını ve maliyet matrislerini tek yerde özetler.

Üç Modelin 2026 Mimari Tasarımı ve Felsefe Farkı

Küçük açık kaynak LLM’lerin yükselişi, 1 trilyon+ parametreli modellere karşı doğan bir karşı-akımdır. McKinsey 2024 “State of AI” raporuna göre kurumların %53’ü edge inference veya private deployment için 30B altı modelleri tercih ediyor; Stack Overflow Survey 2024’te geliştiricilerin %32’si yerel modelleri haftalık kullandığını belirtiyor.

Gemma 2, Google DeepMind’ın Gemini ailesinden knowledge distillation ile türetilen bir mimari kullanır; 2B model “öğretmen” Gemini’den damıtılmış, 9B ve 27B modelleri ise gerçek pre-training ile eğitilmiştir. Sliding window attention ve logit soft-capping gibi optimizasyonlar 8K context’i verimli kılar. Phi-3 serisi Microsoft Research’ün “Textbooks Are All You Need” yaklaşımıyla, web verisi yerine filtrelenmiş + sentetik üretilmiş “ders kitabı kalitesinde” veriyle eğitilir; 3.8B parametrelik mini modeli bile MMLU’da 69 puan alır. Mistral 7B ise klasik decoder-only transformer’a Grouped Query Attention ve sliding window attention ekleyerek 7B sınıfında state-of-the-art hızı yakalar; Mixtral 8x7B sparse MoE mimarisi ile 47B aktif parametre etkisini 13B aktif maliyetle sunar.

ModelParametreContextMimari ÖzellikÇıkış Tarihi (yaklaşık)
Gemma 2 2B2.6B8KSliding window + soft-cap, distilTem 2024
Gemma 2 9B9.2B8KTam pre-train + logit capHaz 2024
Gemma 2 27B27.2B8KTam pre-train, multi-queryHaz 2024
Phi-3 mini3.8B4K / 128KSentetik veri, denseNis 2024
Phi-3 small7B8K / 128KBlock-sparse attentionMay 2024
Phi-3 medium14B4K / 128KDense, sentetik + filtreli webMay 2024
Phi-3.5 MoE42B (6.6B aktif)128K16 expert MoEAğu 2024
Mistral 7B v0.37.2B32KGQA + SWA, denseMay 2024
Mistral Small22B32KDense, instruct-tunedEyl 2024
Mixtral 8x7B46.7B (13B aktif)32KSparse MoE 8 expertAra 2023

Mimari farklılıkların pratik sonucu: Gemma 27B tek A100 80GB’de FP16 rahat çalışır, 30B-altı genel bilgide en iyidir; Phi-3 medium 14B akıl yürütme ve kodda 70B sınıfı modellerle yarışır; Mixtral 8x7B iki RTX 4090 ile local production için en hızlı throughput’u verir. ABD bazlı (Google, Microsoft) ekosistemler ile Avrupa bazlı Mistral arasındaki seçim, AB AI Act ve veri egemenliği için strateji düzeyinde bir karardır; Kurumsal Yapay Zeka Entegrasyonu rehberinde tedarikçi seçim çerçevesini bulabilirsiniz.

Üç LLM mimarisinin parametre ölçek farkını gösteren soyut blok diyagramı
Üç LLM mimarisinin parametre ölçek farkını gösteren soyut blok diyagramı

Benchmark Karşılaştırması: MMLU, HumanEval, GSM8K, MT-Bench

Benchmark seçimi karşılaştırmanın anlamını belirler. MMLU (Massive Multitask Language Understanding, 57 alan, 14K çoktan seçmeli) genel bilgi için altın standart; HumanEval (164 Python fonksiyonu) kod sentezi için; GSM8K (8.5K matematik problemi) çok adımlı akıl yürütme için; MT-Bench ise GPT-4 tabanlı 80 çok turlu konuşma değerlendirmesi içindir. Bu rakamlar vendor tech report’larından (Google Gemma 2 paper, Microsoft Phi-3 Technical Report, Mistral release notes) ve LMSYS Chatbot Arena leaderboard’undan derlenmiştir; üçüncü taraf doğrulamalarda ±2 puan oynayabilir.

ModelMMLU (5-shot)HumanEval (0-shot)GSM8K (8-shot)MT-BenchARC-C
Gemma 2 2B52.217.723.96.455.4
Gemma 2 9B71.340.268.68.168.4
Gemma 2 27B75.251.874.08.471.4
Phi-3 mini 3.8B68.859.182.58.484.9
Phi-3 small 7B75.361.087.58.787.3
Phi-3 medium 14B78.062.291.08.991.6
Mistral 7B v0.362.530.552.17.659.9
Mistral Small 22B72.649.477.68.373.5
Mixtral 8x7B70.640.274.48.366.0

Tablodan çıkan kritik gözlemler: Phi-3 medium 14B, MMLU’da 78.0 ile çoğu 30B+ modelle yarışır ve GSM8K’da 91.0 puanı 70B sınıfı LLaMA-3 ile başa baştır — Microsoft’un “küçük model + yüksek kalite veri” tezini doğrular. Gemma 2 27B genel bilgi ve sohbette dengeli, ama HumanEval’da Phi-3 small’ın bile gerisinde kalır. Mistral 7B v0.3 ham benchmark’ta artık geride; ancak fine-tuning sonrası Apache 2.0 lisansı + 32K context kombinasyonu nedeniyle hala üretimde popülerdir. Detaylı değerlendirme metodolojisi RAG sistemlerine benzer çerçeveyle uygulanabilir.

Sayıların ötesinde dikkat: benchmark kontaminasyonu riski Phi-3 için sıkça tartışılır; HuggingFace OpenLLM Leaderboard’un GPQA gibi yeni testlerde Phi-3 medium puanı 40.9’a düşer (MMLU’daki 78’in çok altı). Üretim kararı verirken vendor benchmark’ları + LMSYS Chatbot Arena Elo skoru + kendi domain test setiniz olmak üzere üç katmanlı doğrulama yapın.

Lisans, Ticari Kullanım ve Patent Şartları

Lisans, kurumsal seçimde benchmark’tan bile daha belirleyicidir. Yanlış lisansla üretime alınan model, sonradan bedelli lisanslama, davalı çıkartma veya tüm sistemin söküm zorunluluğuna yol açabilir. ENISA 2024 AI tehdit raporu, open-weight ve open-source kavramlarının karıştırılmasını ilk 5 risk arasında listeler.

ModelLisansTicari KullanımTürev Model DağıtımıPatent KorumasıÖnemli Kısıt
Gemma 2 (tüm)Gemma Terms of UseEvetEvet, attribution + use policy zorunluGoogle patent grant’i varUse Policy ihlali → sözleşme feshi
Phi-3 (tüm)MITEvetEvet, sınırsızYok (MIT)Resmi kısıt yok; sorumluluk kullanıcıda
Mistral 7B / 8x7BApache 2.0EvetEvet, sınırsızApache patent grant’iTrademark koruma
Mistral Small / LargeMRL (commercial)Sınırlı (ücretli API)Hayır (weights kapalı)Vendor sözleşmesiSelf-host yasak (Small weights-released alt sürüm dahil koşullar)

Pratik öneri: en geniş özgürlük Apache 2.0 + MIT (Mistral 7B, Mixtral 8x7B v0.1, Phi-3). Gemma “open-weight” ama açık kaynak değildir; Google Gemma Terms of Use üzerinden prohibited use policy dayatır. Mistral’ın yeni nesil modelleri (Large 2, Codestral, Small 3) “research-only” veya MRL ile gelir; bunlar üretim için Mistral La Plateforme API’si gerektirir. Kapalı kaynak ve açık kaynak hibrit stratejisi için LLM Özelleştirme yazısında fine-tune vs. RAG seçim çerçevesi var.

  • Avantaj (Apache 2.0): Modeli fine-tune edip kendi ürün adınla satabilirsin, patent geri-savunma hakkı kazanırsın.
  • Dezavantaj (Gemma Terms): Google use policy değişirse mevcut deployment’ın retroaktif uyumsuz hale gelebilir.
  • Ne zaman MIT seç: En esnek lisans, ancak patent grant olmaması büyük şirketler için risk; hukuk ekibine danış.
  • Ne zaman MRL kabul edilebilir: Mistral’ın enterprise SLA’sı, on-prem container ve fine-tune servisi gerekiyorsa.
Açık kaynak lisans tiplerini sembolize eden soyut kilit ve anahtar görseli
Açık kaynak lisans tiplerini sembolize eden soyut kilit ve anahtar görseli

Donanım Gereksinimi, Quantization ve Inference Maliyeti

“Hangi modeli çalıştırabilirim?” sorusunun cevabı VRAM tablosuyla başlar. Aşağıdaki rakamlar llama.cpp Q4_K_M quantization (~4.5 bit/parametre), Q8_0 (~8 bit) ve FP16 senaryoları için pratik VRAM ihtiyacını gösterir; KV cache, batch size 1, context 2K varsayımı.

ModelFP16 VRAMQ8_0 VRAMQ4_K_M VRAMÖnerilen GPUTek-token latency (Q4)
Gemma 2 2B~5.2 GB~2.8 GB~1.7 GBRTX 3060 / Mac M1 8GB~12 ms
Gemma 2 9B~18.4 GB~9.8 GB~5.5 GBRTX 4090 / L4~22 ms
Gemma 2 27B~54 GB~29 GB~16 GBA100 80GB / 2×4090~38 ms
Phi-3 mini 3.8B~7.6 GB~4.1 GB~2.3 GBRTX 3060 / Mac M2 8GB~14 ms
Phi-3 medium 14B~28 GB~15 GB~8.5 GBRTX 4090 / A6000~26 ms
Mistral 7B~14.4 GB~7.7 GB~4.4 GBRTX 3090 / L4~18 ms
Mistral Small 22B~44 GB~23 GB~13 GBA100 40GB / 2×4090~32 ms
Mixtral 8x7B~94 GB (47B)~50 GB~26 GB2xA100 80 / 2×4090 48GB~28 ms (sparse)

Cloud maliyet karşılaştırması da kritik. AWS g5.2xlarge (A10G 24GB) saatlik ~1.21 USD on-demand; Azure NCas T4 v3 saatlik ~0.526 USD; Google Cloud A100 40GB saatlik ~3.67 USD. Mistral 7B Q4 → AWS g5.2xlarge → vLLM continuous batching ile saatlik 300-500 USD aralığında 1M token üretebilirsiniz (concurrency 8-16). OpenAI GPT-4o-mini 1M output token = 0.60 USD karşılaştırması yapıldığında, kendi modelinizi host etmek ancak günlük 50M+ token kullanımında ekonomik; altında managed API daha ucuz. Maliyet modellemesinde TCO hesaplaması (donanım amortismanı + güç + operasyon) ile API faturalarını yan yana koymak şarttır.

Quantization seçimi de net: Q4_K_M kalite-boyut sweet spot’u (perplexity artışı genelde <%2), Q5_K_M biraz daha kaliteli ama %20 fazla VRAM ister, Q8_0 neredeyse FP16 kalitesi. Daha agresif Q3, Q2 sıkıştırmaları yalnızca hafıza-bound senaryolarda kabul edilebilir.

  1. Avantaj (Q4_K_M): ~%75 VRAM tasarrufu, perplexity artışı kabul edilebilir (~%1-2), GGUF tek dosya deployment.
  2. Dezavantaj (Q4_K_M): İnce-ayar (fine-tune) için uygun değil — fine-tune’u FP16/BF16 yapıp sonra quantize edin.
  3. Ne zaman Q8_0 seç: Yüksek doğruluk gereken görevlerde (medical, legal, finance) ve VRAM bütçesi varsa.
  4. Ne zaman AWQ veya GPTQ seç: vLLM/TGI ile GPU üzerinde batch inference; llama.cpp yerine üretim GPU sunucusu için.
  5. Ne zaman BF16 / FP16 seç: A100/H100 üzerinde maksimum hız + minimum kalite kaybı; quantization overhead’i ortadan kaldırır.

Throughput, Latency ve Production Stack

Üretim performansı, model seçiminden ziyade inference engine’ine bağlıdır. Aynı Mistral 7B’yi Transformers eager mode’da koşturursanız 12 token/s görürsünüz; vLLM ile aynı GPU’da 1800+ token/s aggregate elde edebilirsiniz. vLLM PagedAttention ile KV cache fragmentation’ı çözer; TGI HuggingFace ekosistemiyle entegredir; llama.cpp CPU/Apple Silicon için en hızlı seçenektir.

SenaryoModelEngineGPUThroughput (tok/s, agg)p50 latency (ilk token)
Edge / Mac M2Phi-3 mini Q4llama.cppApple M2 16GB~45 tok/s (tek kullanıcı)~120 ms
Single GPU serverMistral 7B Q8vLLM 0.6RTX 4090 24GB~1900 tok/s (16 conc)~180 ms
Single GPU serverGemma 2 9B FP16TGI 2.3A100 80GB~2400 tok/s (32 conc)~150 ms
High-end inferencePhi-3 medium 14BvLLM 0.6A100 80GB~1600 tok/s (16 conc)~210 ms
Sparse MoEMixtral 8x7BvLLM tensor-parallel2xA100 80GB~3200 tok/s (32 conc)~190 ms
RAG productionGemma 2 27B int4TensorRT-LLMH100 80GB~3800 tok/s (32 conc)~140 ms
  • Avantaj (vLLM): En yüksek throughput, continuous batching, prefix caching v0.6+’da hazır.
  • Avantaj (llama.cpp): CPU/Mac/Raspberry Pi’de bile çalışır, GGUF tek dosya format kolay deployment.
  • Dezavantaj (TGI): Bazı yeni model mimarilerinde gecikme; HuggingFace lisans sözleşmesi gerekiyor.
  • Ne zaman TensorRT-LLM: NVIDIA H100/H200 ile %20-30 ek hız; ancak build süreci karmaşık ve model-spesifik.
  • Ne zaman SGLang: Multi-turn JSON-structured output gereken agent senaryolarında en iyi yapılı çıktı performansı.

Ölçeklenebilir bir RAG yığını kurarken model + vector DB + orchestration üçlemesini birlikte tasarlamak gerekir; RAG Altyapı Kurulumu yazısında Mistral 7B + Qdrant + LangChain örnek mimarisini adım adım çalıştırdım.

GPU throughput ve token akışını gösteren soyut ışık akışı görseli
GPU throughput ve token akışını gösteren soyut ışık akışı görseli

Çok Dillilik, Türkçe Performansı ve Tokenizer Verimliliği

Türkçe görevlerde model seçimi sadece MMLU ile yapılmaz. Tokenizer verimliliği (Türkçe metnin kaç token’a bölündüğü) latency ve maliyeti doğrudan etkiler. Aynı 1000 karakter Türkçe metin: GPT-4 tokenizer’da ~480 token, Gemma SentencePiece 256K vocab tokenizer’da ~310 token, Mistral tokenizer (32K vocab) ~470 token, Phi-3 tokenizer ~510 token. Yani Gemma 2, Türkçe için %30-40 daha verimli tokenize eder, bu da hem maliyet hem context-budget avantajıdır.

ModelVocab SizeResmi Dil DesteğiTürkçe Tokenizer VerimliliğiTürkçe Kalite (subjektif)Kod-switching
Gemma 2 9B/27B256K40+ dil (training corpus)Yüksek (~3.2 char/tok)İyi — akıcı, ara sıra İngilizce kelimeİyi
Phi-3 mini/medium32K (mini), 100K (small/medium)Çoğunlukla İngilizce + 22 dilOrta-düşük (~2.0 char/tok)Orta — basit görevler iyi, deyim zayıfSınırlı
Mistral 7B v0.332Kİngilizce + 5 Avrupa dili (resmi)Orta (~2.1 char/tok)Orta — özet iyi, yaratıcı yazım zayıfİyi
Mistral Small 22B32K11+ dilOrta (~2.3 char/tok)İyi — fine-tune ile rekabetçiİyi

Türkçe için pratik öneri: genel sohbet ve içerik üretiminde Gemma 2 9B veya 27B, RAG context-window’unu verimli kullanır. Akıl yürütme veya hesap içeren Türkçe görevlerde Phi-3 medium fine-tuning ile daha iyi sonuç verebilir; ancak base Phi-3’ün Türkçe akıcılığı orta seviyededir. Türkçe NLP boru hattı tasarımında embedding modeli seçimi de tokenizer kadar etkilidir; tokenizer + embedding ikilisini birlikte değerlendirmek üretim kalitesini doğrudan belirler.

Topluluk fine-tune’ları da değerli: Trendyol Türkçe LLM, Cosmos Türkçe Mistral, Turkcell TurkGPT gibi yerli ekiplerin Mistral 7B ve Gemma 9B tabanlı fine-tune’ları HuggingFace üzerinde mevcut; bunlar Türkçe MMLU benzeri Turkish-MMLU benchmark’larında base modellerden 10-15 puan daha iyidir.

Güvenlik, Halüsinasyon ve Hizalama Davranışı

NIST AI Risk Management Framework (AI RMF 1.0) ve ENISA AI Cybersecurity Framework çerçevesinde küçük LLM’lerin güvenlik profili, model boyutu küçüldükçe değişir. Phi-3 model card’ı, modelin “yetersiz alignment” nedeniyle daha çok red-teaming gerektirdiğini açıkça belirtir; Gemma 2 paper’ı “RLHF + reward model” detaylarıyla öne çıkar; Mistral 7B base modelinin neredeyse hiç hizalama almadığı bilinir (Instruct varyantları ayrıdır).

BoyutGemma 2Phi-3Mistral
Refusal rate (zararlı istek)Yüksek (~%87, Google red team raporu)Orta (~%72)Düşük (base ~%15, Instruct ~%65)
Halüsinasyon (TruthfulQA)59.4 (27B)65.0 (medium)57.0 (7B), 64.0 (Small)
Jailbreak direnciİyiOrtaDüşük (base) / Orta (Instruct)
Prompt injectionOrtaDüşükDüşük
RLHF kapsamıGemini-türevi RMDPO + SFT + AI feedbackSFT + DPO (Instruct)

Üretim için kritik üç katman: (1) grounding ve retrieval ile halüsinasyon azaltma — bağlam vermeden açık uçlu sorulamayın. (2) Output guardrail — NeMo Guardrails veya Guardrails AI ile şema doğrulama. (3) Prompt injection savunması — kullanıcı girdisi sistem prompt’undan ayrı işaretlenmeli, hassas görevler için “instruction hierarchy” pattern’i uygulayın.

Ömer Önal olarak danışmanlık verdiğim projelerde gördüğüm en yaygın hata: ekiplerin Phi-3 medium’u “yüksek MMLU skoru” diye seçip Türkçe müşteri hizmetlerinde devreye alması ve ardından refusal davranışlarının kullanıcı deneyimini kırması. Doğru yaklaşım: model seçimini benchmark + lisans + tokenizer + alignment + maliyet beşli matriste yapmaktır.

Türkçe tokenizer verimliliği ve çok dilli LLM kapsamını gösteren soyut görsel
Türkçe tokenizer verimliliği ve çok dilli LLM kapsamını gösteren soyut görsel

Function Calling, Agent ve Tool Use Yetkinliği

Agentic AI iş yüklerinde tool calling güvenilirliği belirleyicidir. Berkeley Function Calling Leaderboard (BFCL) skorları üç modeli ayırır: Mistral Small 22B (Instruct) BFCL’de 80+ skor ile bu sınıfta lider, Phi-3 medium JSON-mode doğru ama paralel çağrıda zayıf, Gemma 2 27B base model native function calling desteği olmadan gelir (community fine-tune’larla eklenmeli). Mixtral 8x7B Instruct ise structured output görevlerinde stabilite açısından popülerdir.

  • Avantaj (Mistral Small): Resmi function calling API, çoklu paralel tool çağrısı, JSON-mode hazır.
  • Avantaj (Phi-3): Kısa girdilerde düşük gecikme, 128K context’te tool sonuçlarını rahat işler.
  • Dezavantaj (Gemma 2): Function calling için fine-tune veya prompt-pattern gerekir; SGLang/Outlines gibi structured-decoding araçlarıyla telafi edilebilir.
  • Ne zaman seç (agent): Çok adımlı plan + tool retry mantığı için ReAct veya Reflexion pattern uygundur.
  • Tool çağrı şeması: Function Calling Tool Use yazısında JSON schema validasyonu, retry, error envelope tasarımı.

Kurumsal otomasyon mimarisinde 2026 trendi: SLM (small language model) cluster + bir koordinatör büyük model. Agentic AI İş Akışları yazısında bu “router + worker” pattern’i ile Mistral 7B (sınıflandırma) + Phi-3 medium (akıl yürütme) + Gemma 9B (yazma) üçlüsünün maliyet-dağıtılmış kullanımını gösterdim.

Sık Sorulan Sorular

Gemma, Phi ve Mistral’dan hangisi Türkçe için en uygun küçük açık kaynak LLM?

Genel Türkçe sohbet, içerik üretimi ve RAG için Gemma 2 9B veya 27B en dengeli tercihtir; 256K vocab’lı SentencePiece tokenizer Türkçe metni %30-40 daha verimli token’lar ve eğitim corpus’ta 40+ dil bulunur. Akıl yürütme veya teknik soru-cevap görevlerinde Mistral Small 22B veya Phi-3 medium fine-tune ile dengelenebilir.

Tek bir RTX 4090 ile hangi model üretim için en uygun?

24 GB VRAM’a tek RTX 4090 ile Mistral 7B Q8 veya Gemma 2 9B Q4_K_M rahat çalışır ve vLLM ile 1800-2400 tok/s aggregate throughput verir. Phi-3 medium 14B Q4 sınırda sığar (~9 GB ağırlık + KV cache); concurrency düşük tutulmalı. Mixtral 8x7B tek 4090’a sığmaz, 2×4090 gerekir.

Apache 2.0 ile Gemma Terms of Use arasındaki temel fark nedir?

Apache 2.0 (Mistral 7B, Mixtral 8x7B v0.1) klasik açık kaynak lisanstır: patent grant verir, sınırsız ticari kullanım sağlar, türev model dağıtımına izin verir. Gemma Terms “open-weight” — kullanım izni verir ama Google use policy değişebilir, attribution ve prohibited use şartları sözleşmeseldir. Patent koruması Gemma’da Google özelinde, Apache’de tüm katkıcı havuzundan gelir.

Kendi modelimi host etmem cloud API’den ne zaman ucuzlaşır?

Yaklaşık eşik günlük 50 milyon token (input+output) seviyesinde başlar. Altında managed API (OpenAI GPT-4o-mini, Mistral La Plateforme, Gemini Flash) genelde daha ucuzdur. Üstünde vLLM + 1-2 GPU + continuous batching toplam maliyeti yarıya indirebilir. Ayrıca veri egemenliği, kişisel veri (KVKK/GDPR) veya AB AI Act yüksek-risk sınıflandırması varsa eşik analizi öncesinde zorunluluk doğabilir.

RAG senaryosu için tek model seçmem gerekirse hangisini öneriyorsun?

Türkçe ağırlıklı RAG için Gemma 2 9B Instruct sweet spot’tur: 8K context yeterli, tokenizer Türkçe için verimli, alignment iyi, lisans ticari kullanım izin verir. İngilizce ve teknik dokümantasyon yoğunsa Mistral Small 22B daha akıcı çıktı verir; uzun döküman özetlemede Phi-3 medium 128K context avantaj sağlar. Sistemi RAGAs veya TruLens ile değerlendirmek karar süreci için kritiktir.

Sonuç

Gemma, Phi ve Mistral arasındaki seçim “en iyi model” değil “en uygun matris” sorusudur. Gemma 2 9B/27B çok dilli, Türkçe verimli, açık-ağırlıklı ama Google use policy bağlı; Phi-3 mini/medium MIT lisanslı, akıl yürütme ve kodda öne çıkar ama Türkçe akıcılığı orta ve alignment zayıflıkları red-team raporlarında belgeli; Mistral 7B / Mixtral 8x7B Apache 2.0 lisans esnekliği, function calling olgunluğu ve Avrupa veri egemenliği avantajıyla kurumsal üretim için en güvenli yoldur — ancak yeni Mistral Small/Large modelleri MRL ile gelir, dikkat gerektirir.

Karar çerçevesi şu beş eksende kurulmalı: (1) benchmark + kendi domain test seti, (2) lisans + patent grant, (3) donanım + maliyet, (4) tokenizer + dil verimliliği, (5) alignment + güvenlik profili. Bu beş eksende kazanan model işinize göre değişir; “default Mistral” veya “default Gemma” yaklaşımı, ölçek büyüdüğünde tipik olarak refactor maliyeti getirir.

Kuruluşunuz için doğru SLM stratejisini belirlemek, RAG/agent mimarisi tasarlamak veya mevcut sisteminizi Gemma/Phi/Mistral arasında migrasyon yol haritası kurmak istiyorsanız iletişim sayfasından bana ulaşın; deployment, lisans denetimi ve performans benchmark süreçlerini birlikte planlayalım.

OmerOnal

Yorum (1)

  1. Ömer ÖNAL
    Mayıs 16, 2026

    Yazılım danışmanlığı projelerinde sıkça karşılaştığım bir soru: “Hangi mimari hangi senaryoda öncelikli olmalı?” Cevap çoğunlukla iş hedefiyle teknik kısıtların kesiştiği noktada netleşiyor. Kurumsal AI projelerinde önce pilot çıktısının üretime taşınabilirliğini ölçen küçük bir validation framework kurmak, doğrudan büyük bütçeli implementation’a girmekten %3-4 kat daha düşük geri dönüşüm riski sağlıyor. Yorumlarınıza açığım.

Yorum Yap

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir