Haziran 14, 2026OmerOnal1 Yorum

Gemma vs Phi vs Mistral 2026: Küçük Açık Kaynak LLM Karşılaştırması

Q: Gemma, Phi ve Mistral'dan hangisi Türkçe için en uygun küçük açık kaynak LLM?

Genel Türkçe sohbet, içerik üretimi ve RAG için Gemma 2 9B veya 27B en dengeli tercihtir; 256K vocab'lı SentencePiece tokenizer Türkçe metni %30-40 daha verimli token'lar ve eğitim corpus'ta 40+ dil bulunur. Akıl yürütme veya teknik soru-cevap görevlerinde Mistral Small 22B veya Phi-3 medium fine-tune ile dengelenebilir.

Q: Tek bir RTX 4090 ile hangi model üretim için en uygun?

24 GB VRAM'a tek RTX 4090 ile Mistral 7B Q8 veya Gemma 2 9B Q4_K_M rahat çalışır ve vLLM ile 1800-2400 tok/s aggregate throughput verir. Phi-3 medium 14B Q4 sınırda sığar (~9 GB ağırlık + KV cache); concurrency düşük tutulmalı. Mixtral 8x7B tek 4090'a sığmaz, 2x4090 gerekir.

Q: Apache 2.0 ile Gemma Terms of Use arasındaki temel fark nedir?

Apache 2.0 (Mistral 7B, Mixtral 8x7B v0.1) klasik açık kaynak lisanstır: patent grant verir, sınırsız ticari kullanım sağlar, türev model dağıtımına izin verir. Gemma Terms 'open-weight' — kullanım izni verir ama Google use policy değişebilir, attribution ve prohibited use şartları sözleşmeseldir. Patent koruması Gemma'da Google özelinde, Apache'de tüm katkıcı havuzundan gelir.

Q: Kendi modelimi host etmem cloud API'den ne zaman ucuzlaşır?

Yaklaşık eşik günlük 50 milyon token (input+output) seviyesinde başlar. Altında managed API (OpenAI GPT-4o-mini, Mistral La Plateforme, Gemini Flash) genelde daha ucuzdur. Üstünde vLLM + 1-2 GPU + continuous batching toplam maliyeti yarıya indirebilir. Ayrıca veri egemenliği, kişisel veri (KVKK/GDPR) veya AB AI Act yüksek-risk sınıflandırması varsa eşik analizi öncesinde zorunluluk doğabilir.

Q: RAG senaryosu için tek model seçmem gerekirse hangisini öneriyorsun?

Türkçe ağırlıklı RAG için Gemma 2 9B Instruct sweet spot'tur: 8K context yeterli, tokenizer Türkçe için verimli, alignment iyi, lisans ticari kullanım izin verir. İngilizce ve teknik dokümantasyon yoğunsa Mistral Small 22B daha akıcı çıktı verir; uzun döküman özetlemede Phi-3 medium 128K context avantaj sağlar. Sistemi RAGAs veya TruLens ile değerlendirmek karar süreci için kritiktir.

Small LLM karşılaştırma tartışması 2026’da artık “hangisi en iyi?” değil, “hangisi hangi iş yüküne uygun?” sorusuna evrildi. Google’ın Gemma 2 ailesi (2B, 9B, 27B), Microsoft’un Phi-3 ve Phi-3.5 serisi (mini 3.8B, small 7B, medium 14B) ve Mistral AI’ın Mistral 7B, Mistral Small (22B) ve Mixtral 8x7B modelleri, 7-27 milyar parametre aralığında üç farklı tasarım felsefesini temsil ediyor: Gemma “Gemini destilasyonu” ile genel amaçlı, Phi “ders kitabı kalitesinde sentetik veri” ile akıl yürütme odaklı, Mistral ise “Avrupa egemenliği + lisans esnekliği” odaklı. Ana cevap kısaca: genel sohbet ve çok dilli görevler için Gemma 9B/27B, kod ve matematik için Phi-3 medium, RAG ve düşük gecikme için Mistral 7B/Mixtral 8x7B tercih edilir. Bu rehber MMLU, HumanEval, MT-Bench, GSM8K benchmark verilerini, vLLM/llama.cpp throughput ölçümlerini, lisans şartlarını ve maliyet matrislerini tek yerde özetler. Konuyla ilişkili olarak Guidance, LMQL ve SGLang: LLM Programming 2026 Karşılaştırma rehberimiz detaylı incelemeyi içerir.

📖 18 dakikalık okuma

İçindekiler

Üç Modelin 2026 Mimari Tasarımı ve Felsefe Farkı
Benchmark Karşılaştırması: MMLU, HumanEval, GSM8K, MT-Bench
Lisans, Ticari Kullanım ve Patent Şartları
Donanım Gereksinimi, Quantization ve Inference Maliyeti
Throughput, Latency ve Production Stack
Çok Dillilik, Türkçe Performansı ve Tokenizer Verimliliği
Güvenlik, Halüsinasyon ve Hizalama Davranışı
Function Calling, Agent ve Tool Use Yetkinliği
Sık Sorulan Sorular
Sonuç

Üç Modelin 2026 Mimari Tasarımı ve Felsefe Farkı

Küçük açık kaynak LLM’lerin yükselişi, 1 trilyon+ parametreli modellere karşı doğan bir karşı-akımdır. McKinsey 2024 “State of AI” raporuna göre kurumların %53’ü edge inference veya private deployment için 30B altı modelleri tercih ediyor; Stack Overflow Survey 2024’te geliştiricilerin %32’si yerel modelleri haftalık kullandığını belirtiyor.

Gemma 2, Google DeepMind’ın Gemini ailesinden knowledge distillation ile türetilen bir mimari kullanır; 2B model “öğretmen” Gemini’den damıtılmış, 9B ve 27B modelleri ise gerçek pre-training ile eğitilmiştir. Sliding window attention ve logit soft-capping gibi optimizasyonlar 8K context’i verimli kılar. Phi-3 serisi Microsoft Research’ün “Textbooks Are All You Need” yaklaşımıyla, web verisi yerine filtrelenmiş + sentetik üretilmiş “ders kitabı kalitesinde” veriyle eğitilir; 3.8B parametrelik mini modeli bile MMLU’da 69 puan alır. Mistral 7B ise klasik decoder-only transformer’a Grouped Query Attention ve sliding window attention ekleyerek 7B sınıfında state-of-the-art hızı yakalar; Mixtral 8x7B sparse MoE mimarisi ile 47B aktif parametre etkisini 13B aktif maliyetle sunar.

Model	Parametre	Context	Mimari Özellik	Çıkış Tarihi (yaklaşık)
Gemma 2 2B	2.6B	8K	Sliding window + soft-cap, distil	Tem 2024
Gemma 2 9B	9.2B	8K	Tam pre-train + logit cap	Haz 2024
Gemma 2 27B	27.2B	8K	Tam pre-train, multi-query	Haz 2024
Phi-3 mini	3.8B	4K / 128K	Sentetik veri, dense	Nis 2024
Phi-3 small	7B	8K / 128K	Block-sparse attention	May 2024
Phi-3 medium	14B	4K / 128K	Dense, sentetik + filtreli web	May 2024
Phi-3.5 MoE	42B (6.6B aktif)	128K	16 expert MoE	Ağu 2024
Mistral 7B v0.3	7.2B	32K	GQA + SWA, dense	May 2024
Mistral Small	22B	32K	Dense, instruct-tuned	Eyl 2024
Mixtral 8x7B	46.7B (13B aktif)	32K	Sparse MoE 8 expert	Ara 2023

Mimari farklılıkların pratik sonucu: Gemma 27B tek A100 80GB’de FP16 rahat çalışır, 30B-altı genel bilgide en iyidir; Phi-3 medium 14B akıl yürütme ve kodda 70B sınıfı modellerle yarışır; Mixtral 8x7B iki RTX 4090 ile local production için en hızlı throughput’u verir. ABD bazlı (Google, Microsoft) ekosistemler ile Avrupa bazlı Mistral arasındaki seçim, AB AI Act ve veri egemenliği için strateji düzeyinde bir karardır; Kurumsal Yapay Zeka Entegrasyonu rehberinde tedarikçi seçim çerçevesini bulabilirsiniz.

Üç LLM mimarisinin parametre ölçek farkını gösteren soyut blok diyagramı

Benchmark Karşılaştırması: MMLU, HumanEval, GSM8K, MT-Bench

Benchmark seçimi karşılaştırmanın anlamını belirler. MMLU (Massive Multitask Language Understanding, 57 alan, 14K çoktan seçmeli) genel bilgi için altın standart; HumanEval (164 Python fonksiyonu) kod sentezi için; GSM8K (8.5K matematik problemi) çok adımlı akıl yürütme için; MT-Bench ise GPT-4 tabanlı 80 çok turlu konuşma değerlendirmesi içindir. Bu rakamlar vendor tech report’larından (Google Gemma 2 paper, Microsoft Phi-3 Technical Report, Mistral release notes) ve LMSYS Chatbot Arena leaderboard’undan derlenmiştir; üçüncü taraf doğrulamalarda ±2 puan oynayabilir.

Model	MMLU (5-shot)	HumanEval (0-shot)	GSM8K (8-shot)	MT-Bench	ARC-C
Gemma 2 2B	52.2	17.7	23.9	6.4	55.4
Gemma 2 9B	71.3	40.2	68.6	8.1	68.4
Gemma 2 27B	75.2	51.8	74.0	8.4	71.4
Phi-3 mini 3.8B	68.8	59.1	82.5	8.4	84.9
Phi-3 small 7B	75.3	61.0	87.5	8.7	87.3
Phi-3 medium 14B	78.0	62.2	91.0	8.9	91.6
Mistral 7B v0.3	62.5	30.5	52.1	7.6	59.9
Mistral Small 22B	72.6	49.4	77.6	8.3	73.5
Mixtral 8x7B	70.6	40.2	74.4	8.3	66.0

Tablodan çıkan kritik gözlemler: Phi-3 medium 14B, MMLU’da 78.0 ile çoğu 30B+ modelle yarışır ve GSM8K’da 91.0 puanı 70B sınıfı LLaMA-3 ile başa baştır — Microsoft’un “küçük model + yüksek kalite veri” tezini doğrular. Gemma 2 27B genel bilgi ve sohbette dengeli, ama HumanEval’da Phi-3 small’ın bile gerisinde kalır. Mistral 7B v0.3 ham benchmark’ta artık geride; ancak fine-tuning sonrası Apache 2.0 lisansı + 32K context kombinasyonu nedeniyle hala üretimde popülerdir. Detaylı değerlendirme metodolojisi RAG sistemlerine benzer çerçeveyle uygulanabilir.

Sayıların ötesinde dikkat: benchmark kontaminasyonu riski Phi-3 için sıkça tartışılır; HuggingFace OpenLLM Leaderboard’un GPQA gibi yeni testlerde Phi-3 medium puanı 40.9’a düşer (MMLU’daki 78’in çok altı). Üretim kararı verirken vendor benchmark’ları + LMSYS Chatbot Arena Elo skoru + kendi domain test setiniz olmak üzere üç katmanlı doğrulama yapın.

Lisans, Ticari Kullanım ve Patent Şartları

Lisans, kurumsal seçimde benchmark’tan bile daha belirleyicidir. Yanlış lisansla üretime alınan model, sonradan bedelli lisanslama, davalı çıkartma veya tüm sistemin söküm zorunluluğuna yol açabilir. ENISA 2024 AI tehdit raporu, open-weight ve open-source kavramlarının karıştırılmasını ilk 5 risk arasında listeler.

Model	Lisans	Ticari Kullanım	Türev Model Dağıtımı	Patent Koruması	Önemli Kısıt
Gemma 2 (tüm)	Gemma Terms of Use	Evet	Evet, attribution + use policy zorunlu	Google patent grant’i var	Use Policy ihlali → sözleşme feshi
Phi-3 (tüm)	MIT	Evet	Evet, sınırsız	Yok (MIT)	Resmi kısıt yok; sorumluluk kullanıcıda
Mistral 7B / 8x7B	Apache 2.0	Evet	Evet, sınırsız	Apache patent grant’i	Trademark koruma
Mistral Small / Large	MRL (commercial)	Sınırlı (ücretli API)	Hayır (weights kapalı)	Vendor sözleşmesi	Self-host yasak (Small weights-released alt sürüm dahil koşullar)

Pratik öneri: en geniş özgürlük Apache 2.0 + MIT (Mistral 7B, Mixtral 8x7B v0.1, Phi-3). Gemma “open-weight” ama açık kaynak değildir; Google Gemma Terms of Use üzerinden prohibited use policy dayatır. Mistral’ın yeni nesil modelleri (Large 2, Codestral, Small 3) “research-only” veya MRL ile gelir; bunlar üretim için Mistral La Plateforme API’si gerektirir. Kapalı kaynak ve açık kaynak hibrit stratejisi için LLM Özelleştirme yazısında fine-tune vs. RAG seçim çerçevesi var.

Avantaj (Apache 2.0): Modeli fine-tune edip kendi ürün adınla satabilirsin, patent geri-savunma hakkı kazanırsın.
Dezavantaj (Gemma Terms): Google use policy değişirse mevcut deployment’ın retroaktif uyumsuz hale gelebilir.
Ne zaman MIT seç: En esnek lisans, ancak patent grant olmaması büyük şirketler için risk; hukuk ekibine danış.
Ne zaman MRL kabul edilebilir: Mistral’ın enterprise SLA’sı, on-prem container ve fine-tune servisi gerekiyorsa.

Açık kaynak lisans tiplerini sembolize eden soyut kilit ve anahtar görseli

Donanım Gereksinimi, Quantization ve Inference Maliyeti

“Hangi modeli çalıştırabilirim?” sorusunun cevabı VRAM tablosuyla başlar. Aşağıdaki rakamlar llama.cpp Q4_K_M quantization (~4.5 bit/parametre), Q8_0 (~8 bit) ve FP16 senaryoları için pratik VRAM ihtiyacını gösterir; KV cache, batch size 1, context 2K varsayımı.

Model	FP16 VRAM	Q8_0 VRAM	Q4_K_M VRAM	Önerilen GPU	Tek-token latency (Q4)
Gemma 2 2B	~5.2 GB	~2.8 GB	~1.7 GB	RTX 3060 / Mac M1 8GB	~12 ms
Gemma 2 9B	~18.4 GB	~9.8 GB	~5.5 GB	RTX 4090 / L4	~22 ms
Gemma 2 27B	~54 GB	~29 GB	~16 GB	A100 80GB / 2×4090	~38 ms
Phi-3 mini 3.8B	~7.6 GB	~4.1 GB	~2.3 GB	RTX 3060 / Mac M2 8GB	~14 ms
Phi-3 medium 14B	~28 GB	~15 GB	~8.5 GB	RTX 4090 / A6000	~26 ms
Mistral 7B	~14.4 GB	~7.7 GB	~4.4 GB	RTX 3090 / L4	~18 ms
Mistral Small 22B	~44 GB	~23 GB	~13 GB	A100 40GB / 2×4090	~32 ms
Mixtral 8x7B	~94 GB (47B)	~50 GB	~26 GB	2xA100 80 / 2×4090 48GB	~28 ms (sparse)

Cloud maliyet karşılaştırması da kritik. AWS g5.2xlarge (A10G 24GB) saatlik ~1.21 USD on-demand; Azure NCas T4 v3 saatlik ~0.526 USD; Google Cloud A100 40GB saatlik ~3.67 USD. Mistral 7B Q4 → AWS g5.2xlarge → vLLM continuous batching ile saatlik 300-500 USD aralığında 1M token üretebilirsiniz (concurrency 8-16). OpenAI GPT-4o-mini 1M output token = 0.60 USD karşılaştırması yapıldığında, kendi modelinizi host etmek ancak günlük 50M+ token kullanımında ekonomik; altında managed API daha ucuz. Maliyet modellemesinde TCO hesaplaması (donanım amortismanı + güç + operasyon) ile API faturalarını yan yana koymak şarttır.

Quantization seçimi de net: Q4_K_M kalite-boyut sweet spot’u (perplexity artışı genelde <%2), Q5_K_M biraz daha kaliteli ama %20 fazla VRAM ister, Q8_0 neredeyse FP16 kalitesi. Daha agresif Q3, Q2 sıkıştırmaları yalnızca hafıza-bound senaryolarda kabul edilebilir.

Avantaj (Q4_K_M): ~%75 VRAM tasarrufu, perplexity artışı kabul edilebilir (~%1-2), GGUF tek dosya deployment.
Dezavantaj (Q4_K_M): İnce-ayar (fine-tune) için uygun değil — fine-tune’u FP16/BF16 yapıp sonra quantize edin.
Ne zaman Q8_0 seç: Yüksek doğruluk gereken görevlerde (medical, legal, finance) ve VRAM bütçesi varsa.
Ne zaman AWQ veya GPTQ seç: vLLM/TGI ile GPU üzerinde batch inference; llama.cpp yerine üretim GPU sunucusu için.
Ne zaman BF16 / FP16 seç: A100/H100 üzerinde maksimum hız + minimum kalite kaybı; quantization overhead’i ortadan kaldırır.

Throughput, Latency ve Production Stack

Üretim performansı, model seçiminden ziyade inference engine’ine bağlıdır. Aynı Mistral 7B’yi Transformers eager mode’da koşturursanız 12 token/s görürsünüz; vLLM ile aynı GPU’da 1800+ token/s aggregate elde edebilirsiniz. vLLM PagedAttention ile KV cache fragmentation’ı çözer; TGI HuggingFace ekosistemiyle entegredir; llama.cpp CPU/Apple Silicon için en hızlı seçenektir.

Senaryo	Model	Engine	GPU	Throughput (tok/s, agg)	p50 latency (ilk token)
Edge / Mac M2	Phi-3 mini Q4	llama.cpp	Apple M2 16GB	~45 tok/s (tek kullanıcı)	~120 ms
Single GPU server	Mistral 7B Q8	vLLM 0.6	RTX 4090 24GB	~1900 tok/s (16 conc)	~180 ms
Single GPU server	Gemma 2 9B FP16	TGI 2.3	A100 80GB	~2400 tok/s (32 conc)	~150 ms
High-end inference	Phi-3 medium 14B	vLLM 0.6	A100 80GB	~1600 tok/s (16 conc)	~210 ms
Sparse MoE	Mixtral 8x7B	vLLM tensor-parallel	2xA100 80GB	~3200 tok/s (32 conc)	~190 ms
RAG production	Gemma 2 27B int4	TensorRT-LLM	H100 80GB	~3800 tok/s (32 conc)	~140 ms

Avantaj (vLLM): En yüksek throughput, continuous batching, prefix caching v0.6+’da hazır.
Avantaj (llama.cpp): CPU/Mac/Raspberry Pi’de bile çalışır, GGUF tek dosya format kolay deployment.
Dezavantaj (TGI): Bazı yeni model mimarilerinde gecikme; HuggingFace lisans sözleşmesi gerekiyor.
Ne zaman TensorRT-LLM: NVIDIA H100/H200 ile %20-30 ek hız; ancak build süreci karmaşık ve model-spesifik.
Ne zaman SGLang: Multi-turn JSON-structured output gereken agent senaryolarında en iyi yapılı çıktı performansı.

Ölçeklenebilir bir RAG yığını kurarken model + vector DB + orchestration üçlemesini birlikte tasarlamak gerekir; RAG Altyapı Kurulumu yazısında Mistral 7B + Qdrant + LangChain örnek mimarisini adım adım çalıştırdım.

GPU throughput ve token akışını gösteren soyut ışık akışı görseli

Çok Dillilik, Türkçe Performansı ve Tokenizer Verimliliği

Türkçe görevlerde model seçimi sadece MMLU ile yapılmaz. Tokenizer verimliliği (Türkçe metnin kaç token’a bölündüğü) latency ve maliyeti doğrudan etkiler. Aynı 1000 karakter Türkçe metin: GPT-4 tokenizer’da ~480 token, Gemma SentencePiece 256K vocab tokenizer’da ~310 token, Mistral tokenizer (32K vocab) ~470 token, Phi-3 tokenizer ~510 token. Yani Gemma 2, Türkçe için %30-40 daha verimli tokenize eder, bu da hem maliyet hem context-budget avantajıdır.

Model	Vocab Size	Resmi Dil Desteği	Türkçe Tokenizer Verimliliği	Türkçe Kalite (subjektif)	Kod-switching
Gemma 2 9B/27B	256K	40+ dil (training corpus)	Yüksek (~3.2 char/tok)	İyi — akıcı, ara sıra İngilizce kelime	İyi
Phi-3 mini/medium	32K (mini), 100K (small/medium)	Çoğunlukla İngilizce + 22 dil	Orta-düşük (~2.0 char/tok)	Orta — basit görevler iyi, deyim zayıf	Sınırlı
Mistral 7B v0.3	32K	İngilizce + 5 Avrupa dili (resmi)	Orta (~2.1 char/tok)	Orta — özet iyi, yaratıcı yazım zayıf	İyi
Mistral Small 22B	32K	11+ dil	Orta (~2.3 char/tok)	İyi — fine-tune ile rekabetçi	İyi

Türkçe için pratik öneri: genel sohbet ve içerik üretiminde Gemma 2 9B veya 27B, RAG context-window’unu verimli kullanır. Akıl yürütme veya hesap içeren Türkçe görevlerde Phi-3 medium fine-tuning ile daha iyi sonuç verebilir; ancak base Phi-3’ün Türkçe akıcılığı orta seviyededir. Türkçe NLP boru hattı tasarımında embedding modeli seçimi de tokenizer kadar etkilidir; tokenizer + embedding ikilisini birlikte değerlendirmek üretim kalitesini doğrudan belirler.

Topluluk fine-tune’ları da değerli: Trendyol Türkçe LLM, Cosmos Türkçe Mistral, Turkcell TurkGPT gibi yerli ekiplerin Mistral 7B ve Gemma 9B tabanlı fine-tune’ları HuggingFace üzerinde mevcut; bunlar Türkçe MMLU benzeri Turkish-MMLU benchmark’larında base modellerden 10-15 puan daha iyidir.

Güvenlik, Halüsinasyon ve Hizalama Davranışı

NIST AI Risk Management Framework (AI RMF 1.0) ve ENISA AI Cybersecurity Framework çerçevesinde küçük LLM’lerin güvenlik profili, model boyutu küçüldükçe değişir. Phi-3 model card’ı, modelin “yetersiz alignment” nedeniyle daha çok red-teaming gerektirdiğini açıkça belirtir; Gemma 2 paper’ı “RLHF + reward model” detaylarıyla öne çıkar; Mistral 7B base modelinin neredeyse hiç hizalama almadığı bilinir (Instruct varyantları ayrıdır).

Boyut	Gemma 2	Phi-3	Mistral
Refusal rate (zararlı istek)	Yüksek (~%87, Google red team raporu)	Orta (~%72)	Düşük (base ~%15, Instruct ~%65)
Halüsinasyon (TruthfulQA)	59.4 (27B)	65.0 (medium)	57.0 (7B), 64.0 (Small)
Jailbreak direnci	İyi	Orta	Düşük (base) / Orta (Instruct)
Prompt injection	Orta	Düşük	Düşük
RLHF kapsamı	Gemini-türevi RM	DPO + SFT + AI feedback	SFT + DPO (Instruct)

Üretim için kritik üç katman: (1) grounding ve retrieval ile halüsinasyon azaltma — bağlam vermeden açık uçlu sorulamayın. (2) Output guardrail — NeMo Guardrails veya Guardrails AI ile şema doğrulama. (3) Prompt injection savunması — kullanıcı girdisi sistem prompt’undan ayrı işaretlenmeli, hassas görevler için “instruction hierarchy” pattern’i uygulayın.

Ömer Önal olarak danışmanlık verdiğim projelerde gördüğüm en yaygın hata: ekiplerin Phi-3 medium’u “yüksek MMLU skoru” diye seçip Türkçe müşteri hizmetlerinde devreye alması ve ardından refusal davranışlarının kullanıcı deneyimini kırması. Doğru yaklaşım: model seçimini benchmark + lisans + tokenizer + alignment + maliyet beşli matriste yapmaktır.

Türkçe tokenizer verimliliği ve çok dilli LLM kapsamını gösteren soyut görsel

Function Calling, Agent ve Tool Use Yetkinliği

Agentic AI iş yüklerinde tool calling güvenilirliği belirleyicidir. Berkeley Function Calling Leaderboard (BFCL) skorları üç modeli ayırır: Mistral Small 22B (Instruct) BFCL’de 80+ skor ile bu sınıfta lider, Phi-3 medium JSON-mode doğru ama paralel çağrıda zayıf, Gemma 2 27B base model native function calling desteği olmadan gelir (community fine-tune’larla eklenmeli). Mixtral 8x7B Instruct ise structured output görevlerinde stabilite açısından popülerdir. Konuyla ilişkili olarak Parallel Tool Use ve Function Calling: LLM 2026 Rehberi rehberimiz detaylı incelemeyi içerir.

Avantaj (Mistral Small): Resmi function calling API, çoklu paralel tool çağrısı, JSON-mode hazır.
Avantaj (Phi-3): Kısa girdilerde düşük gecikme, 128K context’te tool sonuçlarını rahat işler.
Dezavantaj (Gemma 2): Function calling için fine-tune veya prompt-pattern gerekir; SGLang/Outlines gibi structured-decoding araçlarıyla telafi edilebilir.
Ne zaman seç (agent): Çok adımlı plan + tool retry mantığı için ReAct veya Reflexion pattern uygundur.
Tool çağrı şeması: Function Calling Tool Use yazısında JSON schema validasyonu, retry, error envelope tasarımı.

Kurumsal otomasyon mimarisinde 2026 trendi: SLM (small language model) cluster + bir koordinatör büyük model. Agentic AI İş Akışları yazısında bu “router + worker” pattern’i ile Mistral 7B (sınıflandırma) + Phi-3 medium (akıl yürütme) + Gemma 9B (yazma) üçlüsünün maliyet-dağıtılmış kullanımını gösterdim.

Sık Sorulan Sorular

Gemma, Phi ve Mistral’dan hangisi Türkçe için en uygun küçük açık kaynak LLM?

Genel Türkçe sohbet, içerik üretimi ve RAG için Gemma 2 9B veya 27B en dengeli tercihtir; 256K vocab’lı SentencePiece tokenizer Türkçe metni %30-40 daha verimli token’lar ve eğitim corpus’ta 40+ dil bulunur. Akıl yürütme veya teknik soru-cevap görevlerinde Mistral Small 22B veya Phi-3 medium fine-tune ile dengelenebilir.

Tek bir RTX 4090 ile hangi model üretim için en uygun?

24 GB VRAM’a tek RTX 4090 ile Mistral 7B Q8 veya Gemma 2 9B Q4_K_M rahat çalışır ve vLLM ile 1800-2400 tok/s aggregate throughput verir. Phi-3 medium 14B Q4 sınırda sığar (~9 GB ağırlık + KV cache); concurrency düşük tutulmalı. Mixtral 8x7B tek 4090’a sığmaz, 2×4090 gerekir.

Apache 2.0 ile Gemma Terms of Use arasındaki temel fark nedir?

Apache 2.0 (Mistral 7B, Mixtral 8x7B v0.1) klasik açık kaynak lisanstır: patent grant verir, sınırsız ticari kullanım sağlar, türev model dağıtımına izin verir. Gemma Terms “open-weight” — kullanım izni verir ama Google use policy değişebilir, attribution ve prohibited use şartları sözleşmeseldir. Patent koruması Gemma’da Google özelinde, Apache’de tüm katkıcı havuzundan gelir.

Kendi modelimi host etmem cloud API’den ne zaman ucuzlaşır?

Yaklaşık eşik günlük 50 milyon token (input+output) seviyesinde başlar. Altında managed API (OpenAI GPT-4o-mini, Mistral La Plateforme, Gemini Flash) genelde daha ucuzdur. Üstünde vLLM + 1-2 GPU + continuous batching toplam maliyeti yarıya indirebilir. Ayrıca veri egemenliği, kişisel veri (KVKK/GDPR) veya AB AI Act yüksek-risk sınıflandırması varsa eşik analizi öncesinde zorunluluk doğabilir.

RAG senaryosu için tek model seçmem gerekirse hangisini öneriyorsun?

Türkçe ağırlıklı RAG için Gemma 2 9B Instruct sweet spot’tur: 8K context yeterli, tokenizer Türkçe için verimli, alignment iyi, lisans ticari kullanım izin verir. İngilizce ve teknik dokümantasyon yoğunsa Mistral Small 22B daha akıcı çıktı verir; uzun döküman özetlemede Phi-3 medium 128K context avantaj sağlar. Sistemi RAGAs veya TruLens ile değerlendirmek karar süreci için kritiktir.

Sonuç

Gemma, Phi ve Mistral arasındaki seçim “en iyi model” değil “en uygun matris” sorusudur. Gemma 2 9B/27B çok dilli, Türkçe verimli, açık-ağırlıklı ama Google use policy bağlı; Phi-3 mini/medium MIT lisanslı, akıl yürütme ve kodda öne çıkar ama Türkçe akıcılığı orta ve alignment zayıflıkları red-team raporlarında belgeli; Mistral 7B / Mixtral 8x7B Apache 2.0 lisans esnekliği, function calling olgunluğu ve Avrupa veri egemenliği avantajıyla kurumsal üretim için en güvenli yoldur — ancak yeni Mistral Small/Large modelleri MRL ile gelir, dikkat gerektirir.

Karar çerçevesi şu beş eksende kurulmalı: (1) benchmark + kendi domain test seti, (2) lisans + patent grant, (3) donanım + maliyet, (4) tokenizer + dil verimliliği, (5) alignment + güvenlik profili. Bu beş eksende kazanan model işinize göre değişir; “default Mistral” veya “default Gemma” yaklaşımı, ölçek büyüdüğünde tipik olarak refactor maliyeti getirir.

Kuruluşunuz için doğru SLM stratejisini belirlemek, RAG/agent mimarisi tasarlamak veya mevcut sisteminizi Gemma/Phi/Mistral arasında migrasyon yol haritası kurmak istiyorsanız iletişim sayfasından bana ulaşın; deployment, lisans denetimi ve performans benchmark süreçlerini birlikte planlayalım.

OmerOnal

Yorum (1)

Ömer ÖNAL
Mayıs 16, 2026
Yanıtla

Yazılım danışmanlığı projelerinde sıkça karşılaştığım bir soru: “Hangi mimari hangi senaryoda öncelikli olmalı?” Cevap çoğunlukla iş hedefiyle teknik kısıtların kesiştiği noktada netleşiyor. Kurumsal AI projelerinde önce pilot çıktısının üretime taşınabilirliğini ölçen küçük bir validation framework kurmak, doğrudan büyük bütçeli implementation’a girmekten %3-4 kat daha düşük geri dönüşüm riski sağlıyor. Yorumlarınıza açığım.

Our Gallery

Contact Info

Gemma vs Phi vs Mistral 2026: Small LLM Karşılaştırması

Gemma vs Phi vs Mistral 2026: Küçük Açık Kaynak LLM Karşılaştırması

Üç Modelin 2026 Mimari Tasarımı ve Felsefe Farkı

Benchmark Karşılaştırması: MMLU, HumanEval, GSM8K, MT-Bench

Lisans, Ticari Kullanım ve Patent Şartları

Donanım Gereksinimi, Quantization ve Inference Maliyeti

Throughput, Latency ve Production Stack

Çok Dillilik, Türkçe Performansı ve Tokenizer Verimliliği

Güvenlik, Halüsinasyon ve Hizalama Davranışı

Function Calling, Agent ve Tool Use Yetkinliği

Sık Sorulan Sorular

Gemma, Phi ve Mistral’dan hangisi Türkçe için en uygun küçük açık kaynak LLM?

Tek bir RTX 4090 ile hangi model üretim için en uygun?

Apache 2.0 ile Gemma Terms of Use arasındaki temel fark nedir?

Kendi modelimi host etmem cloud API’den ne zaman ucuzlaşır?

RAG senaryosu için tek model seçmem gerekirse hangisini öneriyorsun?

Sonuç

OmerOnal

Federated Learning 2026: Veri Gizliliği Korunan ML Mimarisi (Flower, NVIDIA FLARE, PySyft)

Long Context LLM: 1M+ Token Modellerle Kurumsal Doküman Analizi

Yorum (1)

Ömer ÖNAL

Yorum Yap Yanıtı iptal et

İletişim

Kurumsal

Hizmetlerimiz

Our Gallery

Contact Info

Gemma vs Phi vs Mistral 2026: Small LLM Karşılaştırması

Gemma vs Phi vs Mistral 2026: Küçük Açık Kaynak LLM Karşılaştırması

Üç Modelin 2026 Mimari Tasarımı ve Felsefe Farkı

Benchmark Karşılaştırması: MMLU, HumanEval, GSM8K, MT-Bench

Lisans, Ticari Kullanım ve Patent Şartları

Donanım Gereksinimi, Quantization ve Inference Maliyeti

Throughput, Latency ve Production Stack

Çok Dillilik, Türkçe Performansı ve Tokenizer Verimliliği

Güvenlik, Halüsinasyon ve Hizalama Davranışı

Function Calling, Agent ve Tool Use Yetkinliği

Sık Sorulan Sorular

Gemma, Phi ve Mistral’dan hangisi Türkçe için en uygun küçük açık kaynak LLM?

Tek bir RTX 4090 ile hangi model üretim için en uygun?

Apache 2.0 ile Gemma Terms of Use arasındaki temel fark nedir?

Kendi modelimi host etmem cloud API’den ne zaman ucuzlaşır?

RAG senaryosu için tek model seçmem gerekirse hangisini öneriyorsun?

Sonuç

OmerOnal

Chromatic vs Percy vs Applitools 2026: Visual Regression Test

İmza Tabanlı Reaktivite 2026: Signals ile Modern Frontend State Yönetimi

İlgili Yazılar

Federated Learning 2026: Veri Gizliliği Korunan ML Mimarisi (Flower, NVIDIA FLARE, PySyft)

Long Context LLM: 1M+ Token Modellerle Kurumsal Doküman Analizi

Yorum (1)

Ömer ÖNAL

Yorum Yap Yanıtı iptal et