Model distillation nedir sorusunun teknik özü şudur: büyük bir “öğretmen” dil modelinin (örn. 70B-405B parametre) bilgisini, daha küçük bir “öğrenci” modele (1B-8B) transfer ederek üretim maliyetini 10x-40x düşürürken doğruluğu görece korumayı amaçlayan model sıkıştırma tekniğidir. 2026 itibarıyla NVIDIA, Google DeepMind, Meta ve Anthropic kendi ürün sürümlerinde distilled varyantları sunarken kurumlar da kendi domain’lerine özgü öğrencileri üretiyor. Gemini Flash, GPT-4o mini, Llama 3.2 1B/3B, Phi-3.5 mini ve DeepSeek-R1-Distill ailesi bu paradigmanın somut çıktıları. Bu rehber, distillation’ın teorik temelinden teacher-student mimari seçimine, response-based ve feature-based yöntemlerden hyperparameter ayarına kadar üretim için bilmeniz gerekenleri tablo, benchmark ve karar matrisleriyle veriyor.
Distillation’ın cazibesi tek bir metrikten gelmiyor. Hugging Face 2025 anketinde kurumsal LLM kullanıcılarının yaklaşık %62’si maliyet, %48’i ise gecikme (latency) sebebiyle distilled modele geçtiğini bildirdi. DeepSeek-R1-Distill-Qwen-7B modelinin AIME 2024 matematik benchmark’ında %55.5 başarıyla orijinal R1’in yaklaşık %88’ine yaklaşması (model boyutu 100x küçükken) bu paradigmanın somut gücünü gösteriyor. Llama 3.2 1B Instruct modeli ise edge cihazlarda saniyede yaklaşık 50-60 token üretebilirken 405B parametreli teacher modelin GPU başına maliyeti distilled öğrencinin yaklaşık 40 katı.
Model Distillation Nedir ve Neden 2026 Standardı Oldu?
Model distillation, ilk olarak Hinton, Vinyals ve Dean’in 2015 tarihli “Distilling the Knowledge in a Neural Network” (arXiv:1503.02531) makalesinde formalize edilen bir bilgi transfer tekniği. Klasik anlamda öğretmen modelin softmax çıktılarındaki “soft labels”ı (sıcaklık parametresi T ile yumuşatılmış olasılık dağılımı) öğrenci modelin taklit etmesi temel mekanizma. Soft label’lar, hard label’ların (one-hot) aksine sınıflar arası benzerliği taşıyarak öğrenciye “dark knowledge” aktarır. 2020 sonrası transformer ölçeklenmesi, bu klasik yaklaşımı LLM’ler için en kritik sıkıştırma stratejilerinden biri haline getirdi.
2026 yılında distillation’ın bu kadar konuşulmasının üç somut sebebi var. Birincisi inference maliyeti: OpenAI’ın GPT-4o mini fiyatlandırması 1M input token için yaklaşık 0.15 USD iken GPT-4o standartında bu rakam 2.50 USD seviyesinde — yani ~17x fark. İkincisi gecikme: Gemini 2.0 Flash, Pro varyantına kıyasla yanıt süresinde yaklaşık 3x daha hızlı. Üçüncüsü mahremiyet: 7B-8B aralığındaki distilled modeller, on-premise H100 80GB veya hatta tek RTX 4090 üzerinde çalıştırılabildiği için KVKK ve veri ikametgâhı gereksinimi olan kurumlar açısından kritik bir kapı açıyor.
Distillation’ı diğer sıkıştırma tekniklerinden (quantization, pruning, low-rank decomposition) ayıran şey, model boyutunu küçültürken aynı zamanda farklı mimari ailelere geçişe izin vermesi. 405B parametreli bir Llama’yı 7B parametreli bir Qwen mimarisine “damıtabilirsiniz” — bu, quantization’da mümkün değildir. Bu mimari özgürlük, kurumsal MLOps ekiplerinin elindeki donanım kısıtına göre öğretmen seçmesini sağlar.
Distillation tek başına yeterli mi? Hayır. Genellikle quantization (FP16 → INT8 veya INT4) ve speculative decoding gibi tekniklerle birleştirilir. NVIDIA TensorRT-LLM dokümantasyonu, distillation + INT4 quantization kombinasyonunun H100 üzerinde throughput’u yaklaşık 4-5x artırdığını raporluyor. Bu yüzden 2026 üretim mimarilerinde distillation, izole bir adım değil; LLM özelleştirme ve fine-tuning ile birlikte değerlendirilen bir aşama.

Teacher-Student Mimarisi: Temel Bileşenler
Teacher-student paradigması, distillation’ın çekirdek mimarisidir. Öğretmen (teacher) genellikle önceden eğitilmiş, üst düzey doğrulukta ve donmuş ağırlıklara sahip bir modeldir. Öğrenci (student) ise daha küçük, eğitilebilir bir mimaridir. Öğrenci hem ground-truth (gerçek etiket) hem de öğretmenin tahminlerini kullanarak optimize edilir. Burada üç temel kayıp fonksiyonu kombinasyonu öne çıkar.
- Soft loss (KL divergence): Öğretmen ve öğrenci softmax dağılımları arasındaki Kullback-Leibler diverjansı. Sıcaklık parametresi T (genellikle 2-10) ile dağılım yumuşatılır.
- Hard loss (cross-entropy): Öğrencinin ground-truth etikete göre standart sınıflandırma kaybı.
- Feature matching loss: Ara katmanların hidden state’lerinin L2 veya cosine benzerlik mesafesi. Özellikle BERT-distillation ve TinyBERT ailesinde kullanılır.
- Attention transfer loss: Teacher ve student attention head’lerinin uyum kaybı. MiniLM bu yaklaşımın önemli temsilcisi.
Tüm bu kayıplar, ağırlıklı bir toplamla birleşir: L_total = α·L_soft + β·L_hard + γ·L_feat. Pratikte α genellikle 0.5-0.9, β 0.1-0.5 arasında ayarlanır. Hugging Face Transformers kütüphanesi ve PyTorch Lightning bu kayıpları için hazır implementasyonlar sunar. Production setup’ında öğretmen modelin ağırlıkları donduğu için sadece öğrenci modelin gradyanları geri yayılır; bu da öğretmenin sadece forward pass için GPU belleği tutmasını gerektirir.
Distillation Türleri: Response, Feature, Relation Tabanlı
Akademik literatürde distillation üç ana türe ayrılır. Bu sınıflandırmayı Gou et al. (2021, IJCV) “Knowledge Distillation: A Survey” makalesinde popülerleştirdi. Her türün avantajı, dezavantajı ve uygun olduğu senaryolar farklı.
| Distillation Türü | Transfer Edilen | Tipik Use Case | Avantaj | Dezavantaj |
|---|---|---|---|---|
| Response-based | Final layer logits / soft labels | Classification, çok sınıflı NLP | En basit implementasyon; teacher’ın iç yapısına bağımlı değil | Ara katman bilgisi kaybolur |
| Feature-based | Hidden states, ara katman temsilleri | BERT distillation, encoder modeller | Daha zengin sinyal; doğruluk avantajı ~%2-4 | Teacher ve student aynı layer sayısına yakın olmalı; mapping zor |
| Relation-based | Sample’lar arası ilişki (Gram matrix, similarity) | Embedding modelleri, retrieval | Geometrik yapı korunur | Hesaplama maliyeti yüksek; büyük batch gerekir |
| Self-distillation | Aynı modelin farklı epoch’ları | Düşük veri rejimleri | Teacher modele gerek yok | Daha az kazanç (~%1-2) |
| Online distillation | Eş zamanlı eğitilen iki model | Co-distillation senaryoları | Tek aşamada bitir | Eğitim instable olabilir |
LLM ekosisteminde 2024-2026 döneminde response-based distillation, özellikle reasoning modelleri için baskın yöntem olarak öne çıktı. DeepSeek-R1-Distill ailesi, R1 öğretmeninin yaklaşık 800K reasoning trace’ini synthetic data olarak kullanarak Qwen ve Llama mimarilerini damıttı. Bu yaklaşım — sıkça “rationale distillation” veya “Chain-of-Thought distillation” olarak adlandırılır — Microsoft Phi serisinde de uygulanmış durumda. Microsoft’un Phi-3 teknik raporu (arXiv:2404.14219), yüksek kalite synthetic data + öğretmen rationale’ının sadece 3.8B parametreli modeli, kendisinden 10x büyük modellerle yarışır hale getirdiğini gösteriyor.
Bu pattern, retrieval mimarileriyle birleştirildiğinde ayrı bir verim sağlar. RAG altyapısı ile damıtılmış 7B modeller, bilgi yoğunluklu kurumsal soru-cevap senaryolarında 70B modellerin %85-90 performansını yakalayabiliyor — özellikle context retrieval doğruluğu yüksek olduğunda.
Pratikte Distillation Pipeline’ı
Üretim ortamında distillation yapacaksanız tek bir HuggingFace komutu yetmez. Pipeline genellikle aşağıdaki adımlardan oluşur. Bu sıralama, Hugging Face DistilBERT eğitim örneklerinden ve Llama Factory dokümantasyonundan damıtılmış pratik bir akıştır.
- Teacher seçimi: Domain’inize uygun, evaluasyon metriklerinde tatminkâr bir model belirleyin. Türkçe NLP için Llama 3.1 70B Instruct veya Qwen2.5-72B yaygın tercih.
- Veri toplama: Öğretmenin yanıt vereceği prompt seti (genelde 100K-1M arası). Domain spesifik kurumsal veriler + open-source genel set karması.
- Synthetic data üretimi: Teacher modelden offline inference ile çıktılar (token-level logits veya tam response trace). Vllm veya TGI bu adımı hızlandırır.
- Filtre ve kalite kontrol: Halusinasyon veya yanlış reasoning içeren örneklerin elenmesi. Bir judge model (örn. Claude veya GPT-4o) ile otomatik scoring tipik.
- Student eğitimi: Soft + hard loss karışımıyla supervised fine-tuning. LoRA veya QLoRA ile efficient eğitim.
- Evaluation: Domain-specific benchmark + MMLU, HellaSwag, ARC gibi genel testler.
- Iteratif refinement: Öğrencinin zayıf olduğu kategorilerde teacher’dan ek veri üretip retrain.
Bu pipeline’da en kritik adım, synthetic data filtreleme. Microsoft Phi raporu, kalitesiz veriyle yapılan büyük ölçekli eğitimin küçük ama kürate edilmiş veriden daha kötü öğrenci ürettiğini gösteriyor. “Textbooks Are All You Need” yaklaşımı (Phi-1) bu felsefenin akademik formülasyonu.

Benchmark: Distilled vs Tam Modeller
Distillation’ın etkinliği, doğru karşılaştırma ile ölçülür. Aşağıdaki tablo, 2024-2026 döneminde yayınlanmış vendor ve bağımsız benchmark sonuçlarından derlenmiş tahmini değerleri içeriyor. Rakamlar resmi raporlardan alınmış olup setup farklılıklarından dolayı ±2-3 puan oynayabilir.
| Model | Parametre | MMLU (%) | HumanEval (%) | GSM8K (%) | Tahmini Maliyet (1M tok) |
|---|---|---|---|---|---|
| GPT-4o (teacher class) | ~1T mix | ~88.7 | ~90.2 | ~94.5 | ~2.50 USD input |
| GPT-4o mini (distilled) | Bilinmiyor | ~82.0 | ~87.2 | ~87.0 | ~0.15 USD input |
| Llama 3.1 405B | 405B | ~85.2 | ~89.0 | ~96.8 | Self-host yaklaşık 5-8 USD/saat GPU |
| Llama 3.2 3B Instruct | 3B | ~63.4 | ~37.5 | ~77.7 | Edge tek GPU veya CPU |
| DeepSeek-R1 | 671B (MoE) | ~90.8 | ~89.0 | ~96.4 | ~0.55 USD input |
| DeepSeek-R1-Distill-Qwen-7B | 7B | ~74.0 | ~55.5 | ~83.3 | Edge / single GPU |
| Phi-3.5 mini Instruct | 3.8B | ~69.0 | ~62.8 | ~86.2 | Tek GPU 16GB |
| Gemini 2.0 Flash | Bilinmiyor (distilled) | ~78.3 | ~84.0 | ~88.0 | ~0.10 USD input |
Tablodaki en çarpıcı sonuç, DeepSeek-R1-Distill-Qwen-7B’nin GSM8K (matematik reasoning) skoru: 100x küçük modelin teacher’ın %86’sına ulaşması. Bu, doğru distillation tekniğinin reasoning yeteneklerinin önemli bir bölümünü transfer edebildiğinin kanıtı. Ancak HumanEval’de düşüş daha belirgin (%89 → %55.5), çünkü kod yazma yetenekleri daha geniş context manipülasyonu gerektirir.
- Avantaj: Reasoning-yoğun task’larda distilled modeller, parametre başına en yüksek değeri sunuyor.
- Dezavantaj: Çok uzun context (≥64K) ve karmaşık tool-use senaryolarında performans düşüşü daha belirgin.
- Ne zaman seç: Latency-kritik veya maliyet-kritik kurumsal uygulamalar; KVKK gereği on-prem deployment.
- Ne zaman tercih etme: Frontier research, en üst düzey kreatif üretim, çok dilli karmaşık reasoning.
Distillation Hyperparameter’ları ve Eğitim Stratejisi
Distillation eğitimi, standard fine-tuning’den farklı hiperparametre stratejisi gerektirir. Burada öne çıkan parametreler ve önerilen aralıklar.
| Hyperparameter | Tipik Aralık | Öneri / Not |
|---|---|---|
| Temperature (T) | 2-10 | NLP için 4-6, vision için 3-5 |
| α (soft loss ağırlığı) | 0.5-0.9 | Yüksek T ile birlikte yüksek α |
| β (hard loss ağırlığı) | 0.1-0.5 | Sıfır olmamalı; aksi ground-truth drift olur |
| Learning rate | 1e-5 — 5e-5 | Student için fine-tune lr’den biraz yüksek |
| Batch size | 32-128 | GPU bellek izin verdikçe büyük tut |
| Epoch sayısı | 2-5 | Synthetic data 1M’den büyükse 2-3 yeterli |
| Warmup steps | %5-10 toplam adımın | Stable yakınsama için kritik |
| Weight decay | 0.01-0.1 | Overfitting önler |
Soft loss için sıcaklık (T) parametresi sezgisel olarak şöyle açıklanabilir: T=1 standart softmax verir, T büyüdükçe dağılım yassılaşır ve düşük olasılıklı sınıflar daha “duyulabilir” hale gelir. T=4 LLM distillation için yaygın bir başlangıç. T çok yüksek (>10) seçilirse öğrenci genel bir uniform dağılıma yaklaşır ve discriminative power kaybeder.
Eğitim donanımı tarafında, 7B parametreli bir öğrenciyi 1M örnek üzerinde QLoRA ile 3 epoch eğitmek tek bir H100 80GB üzerinde yaklaşık 36-48 saat sürer. Aynı işi full-parameter SFT ile yapmak 8x H100 cluster ve ~12 saat gerektirir. Çoğu kurumsal senaryoda QLoRA + adapter merge yaklaşımı maliyet/performans dengesinde net galip.

Distillation vs Quantization vs Pruning Karar Matrisi
Distillation, sıkıştırma araç kutusundaki tek alternatif değil. Pratikte hangi tekniği ne zaman seçmeli, bunu birlikte değerlendirmek gerekir.
| Teknik | Tipik Boyut Azaltma | Doğruluk Kaybı | Eğitim İhtiyacı | En Uygun Senaryo |
|---|---|---|---|---|
| Knowledge Distillation | 5x-100x | %3-15 | Tam yeni öğrenci eğitimi | Latency + maliyet kritik üretim |
| INT8 Quantization | 2x | %0.5-2 | Yok veya kalibrasyon | Hızlı kazanç, minimal risk |
| INT4 Quantization (GPTQ/AWQ) | 4x | %2-5 | Kısa kalibrasyon | Edge deployment |
| Structured Pruning | 1.5x-3x | %3-8 | Retraining gerek | Mimari sadeleştirme |
| Unstructured Pruning | 2x-10x (sparse) | %5-15 | Hassas fine-tune | Özel HW (sparse-tensor) |
| MoE Routing | Aktif parametre 4x-8x | ~%0 | Yeni eğitim mimarisi | Çok yetenekli geniş modeller |
Pratik bir karar çerçevesi: 405B → 70B düşüşü için distillation + INT4 birlikte, 70B → 7B için saf distillation + INT8 kombinasyonu, 7B → 1.5B için distillation + structured pruning kombinasyonu yaygın tercih. Bu karar, hem hedef donanıma hem de Service Level Objective olarak belirlenen p99 latency’ye bağlı.
Distilled modelin değerlendirilmesi, sadece akademik benchmark’larla yetinmemeli. Kurumsal use case’e özgü holdout test setleri üzerinde insan değerlendirmesi (≥100 örnek) ve guardrail davranışı ölçümü üretim güvenilirliği için kritik.
Açık Kaynak Araç Ekosistemi 2026
Distillation pipeline’ı kurmak için açık kaynak ekosistem 2024-2026 döneminde önemli ölçüde olgunlaştı. Aşağıda en aktif sürdürülen kütüphaneler ve karşılaştırması var.
| Araç | Lisans | Tipik Kullanım | GitHub Yıldız (yaklaşık) | Güçlü Yan |
|---|---|---|---|---|
| Hugging Face Transformers | Apache 2.0 | Genel-amaçlı NLP distillation | ~135K | Geniş model desteği, dokümantasyon |
| Llama Factory | Apache 2.0 | LLaMA / Qwen ailesi SFT + distillation | ~40K | Tek dosya YAML config; LoRA/QLoRA hazır |
| NVIDIA NeMo | Apache 2.0 | Kurumsal LLM eğitimi + distillation | ~12K | Megatron entegrasyonu, multi-node |
| TextBrewer | Apache 2.0 | NLP-özgü distillation framework | ~1.5K | Çoklu kayıp fonksiyonu hazır |
| DistilKit (Arcee AI) | Apache 2.0 | LLM logit-level distillation | ~700 | Cross-tokenizer distillation desteği |
| vLLM | Apache 2.0 | Teacher inference (synthetic data) | ~32K | Yüksek throughput batch generation |
Production ortamında en sık karşılaşılan stack: vLLM (teacher inference) + Llama Factory (student SFT) + DeepSpeed/FSDP (distributed training) + Weights & Biases (monitoring). Bu kombinasyon kurumsal MLOps ekiplerinin “tekerleği yeniden icat etme” maliyetini önemli ölçüde azaltıyor. Arcee AI’ın DistilKit’i, özellikle teacher ve student’ın farklı tokenizer kullandığı durumlarda (örn. Llama → Phi distillation) önemli bir boşluğu dolduruyor.
Distillation üretkenliğinizi artırmak için tool-use yetenekleri test edilirken, JSON schema uyumu ve tool seçimi doğruluğu ayrı bir benchmark olarak izlenmeli. Distillation sırasında structured output yeteneklerinin kaybı sıkça gözlenen bir sorun.
Kurumsal Senaryolar ve Maliyet Analizi
Türkiye’deki kurumsal AI ekiplerinde distillation pratiğinin iki temel itici gücü var: birinci olarak GPU bütçesi (özellikle USD kuruna bağlı), ikinci olarak veri ikametgâhı. Aşağıdaki vaka analizleri tipik kurumsal kullanımı yansıtıyor.
| Senaryo | Teacher | Student | Beklenen Aylık Maliyet (USD) | Latency p99 (ms) |
|---|---|---|---|---|
| Bankacılık chatbot (10M token/gün) | GPT-4o | Distilled 8B on-prem | ~3.500 (GPU rental) | ~450 |
| E-ticaret ürün önerisi | Claude 3.5 Sonnet | Distilled Qwen 7B | ~2.200 | ~280 |
| Hukuki doküman özetleme | Llama 3.1 405B | Distilled 13B | ~5.800 | ~620 |
| Sağlık triage asistanı (KVKK) | On-prem 70B | Distilled 7B on-prem | ~4.100 | ~380 |
| Müşteri çağrı merkezi (Türkçe) | Gemini 1.5 Pro | Distilled Mistral 7B | ~1.900 | ~310 |
Bu maliyetler tahmini ve USD/TL kuruna, GPU vendor’ına, traffic dağılımına bağlı olarak %30-50 değişebilir. Önemli olan trend: bir SaaS API üzerinden tam-boy teacher kullanmaya kıyasla, distilled öğrenciyi self-host etmek genellikle aylık 3-8x maliyet tasarrufu sağlıyor — yeter ki uptime ve GPU bakım maliyeti hesaba katılsın.
Bu noktada Ömer Önal’a danışmanlık talebiyle ulaşan kurumların ortak sorusu şu: “Distillation yatırımının ROI’si ne kadar?” Pratik bir formül: aylık inference token volume × (teacher unit cost – student unit cost) – one-time distillation eğitim maliyeti. 100M token/ay altındaki kullanımlarda ROI genelde 4-8 ayda gerçekleşir; 1B+ token/ay senaryolarında break-even 1-2 ay seviyesine düşer.

Yaygın Hatalar ve Önlemler
Distillation pratiğinde sıkça karşılaşılan altı hata ve bunların önleme stratejileri.
- Hard loss’u sıfırlamak: Sadece soft loss ile öğrenci, teacher’ın hatalarını da öğrenir. β > 0 tut.
- Tokenizer uyumsuzluğu: Teacher ve student farklı tokenizer kullanıyorsa logit mapping yapılmadan KL kullanılamaz. Çözüm: response-level distillation veya cross-tokenizer mapping.
- Synthetic data overfitting: 1M sentetik örnekle yapılan 10 epoch’luk eğitim, real-world generalization’ı düşürür. 2-3 epoch yeterli.
- Yanlış teacher seçimi: Teacher’ın kendisi domain’de zayıfsa, öğrenci hiçbir zaman iyi olamaz. Önce teacher’ı domain’de test et.
- Evaluation gap: Sadece training loss izlenirse student’ın gerçek performansı anlaşılmaz. Holdout + benchmark + human eval kombinasyonu gerekli.
- Tool-use kaybı: Distillation sırasında function calling şeması bozulabilir. Tool-use örneklerini sentetik veriye dahil et.
Bu hatalardan en sık karşılaşılanı tokenizer uyumsuzluğu. Llama 3 ailesi (BPE) ile Qwen ailesi (tiktoken benzeri) arasında geçiş yaparken DistilKit ya da kendi cross-tokenizer projeksiyon katmanınızı kurmadan KL divergence kullanmaya çalışmak loss değerinin patlaması veya NaN ile sonuçlanır.
Diğer önemli bir konu: distilled modelin prompt engineering hassasiyetinin teacher’a göre artmasıdır. Küçük modeller prompt formatına çok daha duyarlı olduğu için system prompt ve few-shot örneklerin daha titiz tasarımı gerekir.
Distillation’ın Geleceği: 2026 ve Sonrası
Distillation’ın geleceğinde üç trend belirleyici olacak. Birincisi, “specialist distillation” — küçük modellerin tek bir vertikal’de teacher’ı geçmesi. Microsoft Phi-4, tek bir reasoning task’ında çok daha büyük modelleri geçtiğini gösterdi. Bu kurumsal mikro-AI servislerinin önünü açıyor.
İkincisi, “online distillation” — teacher ve student’ın eş zamanlı eğitilmesi. Bu yaklaşım RL + distillation hibritlerinde (DeepSeek-R1 örneği) verim sağlıyor. Üçüncüsü, “modality-agnostic distillation” — vision ve language modellerinin birlikte damıtılması (Apple MM1.5, Google PaliGemma-2).
Türkiye’deki kurumsal AI ekipleri açısından somut çıkarım: 2026’da distillation, opsiyonel bir optimizasyon değil, üretim mimarisinin standart bir parçası. Kurumsal yapay zeka entegrasyonu projelerinde mimar/lider rolündeyseniz, distillation kapasitesini ekip becerisi olarak konumlandırmak; outsource etmemek stratejik bir tercih. Embedding modelleri tarafında da benzer bir distillation dalgasının başladığını (örn. Stella-1.5B, Nomic Embed Text v2) hatırlatmak gerek.
Sıkça Sorulan Sorular
Model distillation, fine-tuning’den nasıl farklı?
Fine-tuning, bir modeli yeni bir domain’e adapte ederken ağırlıklarını günceller ama modelin mimarisi ve boyutu sabit kalır. Distillation ise farklı boyutta yeni bir modeli, mevcut bir teacher’ın bilgisini kullanarak sıfırdan veya partial başlangıçtan eğitir. Pratikte ikisi birlikte de kullanılır: teacher’dan damıtılan öğrenci, sonra domain verisinde fine-tune edilir.
Distilled modeller halüsinasyon konusunda daha mı kötü?
Genelde evet, çünkü daha az parametre = daha az “world knowledge” depolama. Ancak iyi bir retrieval augmentation ve grounding stratejisi ile bu farkın büyük ölçüde kapatılabildiği akademik çalışmalarda gösterildi. RAG-augmented 7B distilled modeller, çıplak 70B modellere kıyasla bilgi yoğunluklu task’larda yaklaşık eşit doğruluk sergileyebiliyor.
Hangi GPU benim distillation projem için yeterli?
7B öğrenci + 70B teacher senaryosu için en az 1x H100 80GB (QLoRA ile) veya 4x A100 40GB cluster (full SFT için) yeterli. 13B öğrenci için H100 80GB tek başına sınırda kalır; 2x H100 önerilir. Bulutta hourly maliyet 3-12 USD aralığında değişir. Edge deployment için RunPod, Lambda Labs, CoreWeave karşılaştırması yapın.
Distilled modeli tekrar damıtabilir miyim (iterative distillation)?
Evet, ancak her iterasyonda bilgi kaybı birikir. Pratikte 2-3 seviyeden sonra net kazanç görmek zorlaşır. Bunun yerine ensemble distillation (birden çok teacher’dan tek öğrenci) veya self-distillation (aynı öğrencinin daha iyi versiyonu) genelde daha verimli. Iterative distillation reasoning model serilerinde sıkça denenir.
Distillation için ne kadar veri lazım?
Bu, domain genişliğine ve hedef doğruluğa bağlı. Dar bir vertikal için 50K-200K kaliteli synthetic örnek genelde yeterli olabilir. Genel-amaçlı bir öğrenci için 500K-2M aralığı tipik. Veri kalitesi miktardan daha önemli — Phi serisinin başarısı bunun kanıtı. Judge model ile filtrelenmiş %20 kürate veri, ham %100 verinin önüne geçer.
Sonuç
Model distillation, 2026 itibarıyla artık opsiyonel bir akademik teknik değil; kurumsal LLM stratejisinin omurgası. Latency-kritik, maliyet-kritik veya KVKK-kritik senaryolarda doğru damıtılmış 3B-8B öğrenci modeli, çoğu zaman tam-boy bir teacher API’sine göre 5-15x daha verimli sonuç verir. Karar çerçevesi netleştirildiğinde — teacher uygunluğu, synthetic data kalitesi, soft/hard loss dengesi, doğru benchmark seti — distillation, ekibinizin AI portföyünde en yüksek ROI’ye sahip optimizasyonlardan biri olur.
Eğer ekibiniz bu yolculuğa başlıyor ya da mevcut bir distillation pipeline’ında doğruluk kaybı, eğitim maliyeti veya production deployment ile ilgili tıkanma yaşıyorsanız, deneyimli bir dış göz yapı taşlarını hızlandırır. Detaylı bir değerlendirme veya pilot proje için iletişim sayfası üzerinden ulaşabilirsiniz. Agentic AI iş akışları alanında distillation entegrasyonları, kurumsal AI portföyünüze somut hız ve maliyet kazanımı katar.
Distillation, ekosistem hızlı evrilse de temelde aynı disiplini gerektiriyor: teacher seçimi, veri kalitesi, kayıp ağırlığı dengesi ve sıkı evaluasyon.
Dış kaynak referansları:










Ömer ÖNAL
Mayıs 16, 2026Yazılım danışmanlığı projelerinde sıkça karşılaştığım bir soru: “Hangi mimari hangi senaryoda öncelikli olmalı?” Cevap çoğunlukla iş hedefiyle teknik kısıtların kesiştiği noktada netleşiyor. Kurumsal AI projelerinde önce pilot çıktısının üretime taşınabilirliğini ölçen küçük bir validation framework kurmak, doğrudan büyük bütçeli implementation’a girmekten %3-4 kat daha düşük geri dönüşüm riski sağlıyor. Yorumlarınıza açığım.