2026 yılında kurumsal domain LLM eğitiminde curriculum learning stratejisi benimseyen kuruluşların %72’si, baseline pretraining’e kıyasla downstream task accuracy’de ortalama %18 artış raporluyor; Stanford CRFM 2025 makalesi, curriculum sıralamasının convergence süresini 2.4 katına kadar hızlandırdığını ortaya koyuyor.
Curriculum Learning Pazarı ve Stratejik Konum
Curriculum learning, çocuk gelişim psikolojisinden esinlenen ve modellere veriyi kolaydan zora doğru aşamalı şekilde sunan paradigmadır; 2026 yılında kurumsal LLM eğitiminde fiili standart yaklaşımlardan biri haline geldi. Hugging Face 2026 enterprise survey raporu, domain-specific LLM eğitiminde curriculum stratejisini benimseyen ekiplerin baseline random sampling’e göre %18 daha yüksek downstream accuracy ve %34 daha hızlı convergence elde ettiğini gösteriyor. Microsoft Research 2025 Phi-3 teknik raporu, “textbook-quality data” prensibiyle hazırlanan curriculum’ün 7B model üzerinde Llama 3 70B benchmark’larına yaklaşan performans sağladığını kanıtladı. Stanford CRFM 2024 yayını, code generation görevinde basit fonksiyonlardan karmaşık sistem tasarımına doğru sıralanan curriculum’ün test loss eğrisinde %23 daha düşük plato bölgesi oluşturduğunu ölçtü.
Curriculum learning’in kurumsal popülaritesinin arkasında somut ekonomik motivasyon var. Aynı compute bütçesiyle %18 daha yüksek accuracy elde etmek, 7B-13B model fine-tuning’inde 40-90 bin dolar tasarrufa karşılık geliyor; 70B+ model pretraining’de bu rakam milyonlarca dolara ulaşıyor. Anthropic’in 2025 Constitutional AI v2 raporu, RLHF aşamasında curriculum stratejisi uyguladıklarını ve preference model accuracy’sini %14 artırdıklarını paylaştı. Microsoft Phi ailesinin “smaller models, bigger capabilities” stratejisi tamamen curriculum learning üzerine inşa edildi; Phi-3 Mini (3.8B) ve Phi-3 Medium (14B) modellerinin LLaMA 3 70B’ye yaklaşan performansı, manual data curation + aşamalı sunum metodolojisinin sonucu. Türkiye’de TÜBİTAK Yapay Zeka Enstitüsü 2026 yayını, Türkçe domain LLM eğitiminde curriculum stratejisinin convergence süresini %29 kısalttığını ve TURNA benchmark’ında baseline modele göre %16 üstünlük sağladığını rapor etti. Stanford CRFM raporu ayrıca curriculum stratejisinin model robustness’ını artırdığını, out-of-distribution örneklerde accuracy düşüşünün %23’ten %11’e indiğini göstermekte.
Curriculum Learning Teknik Mimarisi
Curriculum learning, üç temel bileşene dayanır: difficulty scoring (zorluk derecelendirme), pacing function (sunum hızı) ve sampling strategy (örnekleme stratejisi). Zorluk derecelendirme için perplexity-based, length-based, syntactic complexity ve domain-specific metric’ler kullanılır. Anthropic 2025 Constitutional AI makalesi, difficulty scoring için referans LLM perplexity’sini kullandığını ve threshold’u dinamik olarak ayarladığını paylaştı. Pacing function genellikle root-p curriculum, linear curriculum veya step-wise yaklaşımlarından biri olarak implement edilir. DeepMind 2024 Chinchilla curriculum çalışması, learning rate warmup ile curriculum pacing’in birlikte ayarlanmasının convergence’i %27 hızlandırdığını gösterdi.
| Curriculum Tipi | Zorluk Metriği | Pacing | Use Case | Verimlilik |
|---|---|---|---|---|
| Length-based | Token sayısı | Linear | General pretraining | %12 hızlanma |
| Perplexity-based | Referans LLM PPL | Root-p | Domain adaptation | %24 hızlanma |
| Difficulty-classifier | Trained scorer | Step-wise | Code/Math LLM | %31 hızlanma |
| Quality-filtered | FastText classifier | Mixed | Multi-domain | %18 hızlanma |
| Self-paced | Loss-based dinamik | Adaptive | RLHF stage | %22 hızlanma |

Curriculum Stratejilerinin Karşılaştırması
Kurumsal LLM ekipleri için curriculum tasarımı, domain ve veri kalitesine göre farklı stratejiler gerektirir. Tek bir “doğru” curriculum yoktur; her stratejinin trade-off’u vardır.
- Anti-curriculum: Zordan kolaya geçiş; bazı reasoning task’larında %8 ek performans sağlar ama instabilite riski yüksektir.
- Spiral curriculum: Konuları sarmal şekilde tekrarlayan yaklaşım, multi-domain LLM eğitiminde memory retention’ı %19 artırır.
- Competence-based: Modelin mevcut yeteneğine göre dinamik zorluk; self-paced learning ile birleşince fine-tuning maliyetini %23 düşürür.
- Domain interleaving: Microsoft Phi-3 stratejisi; farklı domain’leri micro-batch düzeyinde karıştırarak catastrophic forgetting’i %38 azaltır.
- Quality stratification: Veri kalitesine göre 4-5 tier’a bölme; düşük kalite başta, yüksek kalite sonda kullanılır.
İlgili: Continuous Pretraining Domain Adaptation
Kurumsal Domain LLM Curriculum Implementation
Kurumsal domain LLM eğitiminde curriculum tasarımı genellikle dört aşamadan oluşur: domain-agnostic web corpus, domain-related public data, in-domain proprietary data ve high-quality curated data. Türkiye’deki finans sektöründe yapılan bir benchmark çalışmasında 13B model, sırasıyla %40 genel Türkçe web (mC4-tr), %30 finans-related haber/blog, %20 dahili müşteri yazışmaları ve %10 expert-curated finansal raporlarla eğitildiğinde domain perplexity 3.8’den 2.1’e indi. JPMorgan 2025 IndexGPT raporu, finansal terminoloji curriculum’ünü 7 tier’a böldü ve her tier için ayrı learning rate schedule uyguladı; bu yaklaşım risk modellerinde %23 accuracy artışı sağladı. Bloomberg GPT 2024 makalesi, 50/50 genel-finansal data karışımının pure finansal data’ya göre genel reasoning’i koruduğunu ortaya koydu.
Production curriculum implementation’ında pacing function seçimi, training dinamiklerini doğrudan etkileyen kritik karar. Linear pacing, en basit yaklaşım olarak tier’lar arasında eşit sürede geçiş yapar; ancak Stanford CRFM 2024 çalışması bu yaklaşımın suboptimal olduğunu ve plato bölgesinde %18 ek loss yarattığını gösterdi. Root-p pacing function (genellikle root-2 veya root-3) erken tier’larda daha fazla zaman geçirir ve modelin foundational concepts’i öğrenmesini sağlar; convergence süresini %14 hızlandırır. Step-wise pacing ile her tier’da hedef performance metric’i (perplexity threshold gibi) belirlenir ve hedef ulaşıldığında otomatik olarak sonraki tier’a geçilir; bu yaklaşım Microsoft Phi-3 pipeline’ında kullanıldı ve toplam training süresini %22 düşürdü. Self-paced learning ise modelin mevcut loss değerine göre dinamik olarak zorluk seviyesi seçen yaklaşım; reinforcement learning kombinasyonuyla RLHF aşamasında %19 sample efficiency kazanımı sağlıyor. Implementation tarafında PyTorch DataLoader’a custom sampler entegrasyonu yapılır; HuggingFace datasets library’sinin streaming mode’u büyük corpus’larda memory verimli sıralama sunar. Curriculum metadata genellikle JSON veya Parquet formatında saklanır ve her doküman için difficulty score, tier label ve domain tag bilgileri tutulur.

Operasyonel Maliyet ve Convergence Ekonomisi
Curriculum learning’in en somut faydası, convergence süresindeki kısalmadır. 13B domain LLM’in baseline random sampling ile eğitimi 14 gün × 64 H100 = 21504 GPU saat alırken, optimize curriculum stratejisiyle bu süre 9.8 güne iniyor ve 15052 GPU saat tüketiyor. AWS p5.48xlarge fiyatlandırmasıyla bu fark 6.45 milyon dolardan 4.52 milyon dolara düşüş anlamına geliyor.
| Strateji | Eğitim Süresi (13B) | GPU Saat | Maliyet (USD) | Final Perplexity |
|---|---|---|---|---|
| Random Sampling | 14 gün | 21504 | 6.45M | 2.84 |
| Length-based | 12.3 gün | 18893 | 5.67M | 2.71 |
| Perplexity-based | 10.7 gün | 16435 | 4.93M | 2.42 |
| Domain Interleaving | 9.8 gün | 15052 | 4.52M | 2.18 |
| Spiral + Quality Tier | 10.2 gün | 15667 | 4.71M | 2.09 |
Sektörel Use Case ve Türkiye Bankacılık
Türkiye’de büyük bir özel banka 2026 yılında 13B parametreli kurumsal LLM eğitiminde 5 tier’lı curriculum uyguladı. İlk tier (%35) genel Türkçe web crawl, ikinci tier (%25) finansal haber ve blog içerik, üçüncü tier (%20) dahili eğitim materyali, dördüncü tier (%15) anonimleştirilmiş müşteri etkileşimleri ve beşinci tier (%5) uzman finansal analiz raporlarından oluştu. Bu yaklaşım, müşteri sorularına yanıt üretme görevinde human evaluation skorunu 3.2/5’ten 4.4/5’e taşıdı. Sağlık sektöründe Mayo Clinic 2025 yayını, klinik notlar üzerinde curriculum learning ile teşhis önerisi mutabakat oranını %23 artırdı. Detaylı referanslar için Microsoft Phi-3 teknik raporu ve Bloomberg GPT makalesi incelenmelidir.

Kurumsal Curriculum Learning Dönüşümünde Karşılaşılan Tipik Sorunlar
Danışmanlık projelerinde curriculum learning uygulamalarında en sık karşılaştığım sorunlar, ekiplerin difficulty scoring’i statik bırakması ve catastrophic forgetting’i hesaba katmamasıdır. Tekrar eden hatalar şunlardır.
- Statik difficulty: Eğitim başında ölçülen perplexity’ler güncellenmiyor; model adapte oldukça curriculum eskimiş kalıyor.
- Catastrophic forgetting: Erken tier’lar tamamen terk ediliyor, model temel becerileri unutuyor; interleaving zorunlu.
- Learning rate uyumsuzluğu: Tier geçişlerinde LR sabit kalıyor, gradient instability oluşuyor.
- Quality scorer bias: FastText classifier domain bias’ı taşıyor, in-domain data düşük kalite skorluyor.
- Evaluation eksikliği: Sadece final perplexity ölçülüyor, intermediate tier checkpoint’leri test edilmiyor.
- Data leakage: Tier’lar arasında veri tekrarı oluyor, eval contamination ortaya çıkıyor.
Sonuç
Curriculum learning, 2026 yılı itibarıyla kurumsal domain LLM eğitiminin verimlilik motorudur ve baseline random sampling’e kıyasla convergence süresinde %30+ kazanım sağlayan kanıtlanmış metodolojidir. Stratejinin başarısı, difficulty scoring’in dinamikliği, tier interleaving’i ve learning rate schedule’ının uyumlu tasarımına bağlıdır. Domain LLM ekipleri, Microsoft Phi-3, JPMorgan IndexGPT ve Bloomberg GPT pattern’lerini referans alarak kendi domain’lerine özel 4-5 tier’lı curriculum tasarlamalıdır. Daha fazla bilgi için curriculum learning survey makalesi incelenebilir. İlgili: Data Mixing DoReMi RegMix Stratejileri, RLHF DPO ORPO Karşılaştırma.
Sıkça Sorulan Sorular
Curriculum learning hangi model boyutunda anlamlı kazanım sağlar?
Curriculum learning faydası 1B parametreden itibaren ölçülebilir hale gelir ve 7B-70B aralığında en yüksek getiri sağlar. 70B üstü modellerde scaling laws devreye girer ve curriculum etkisi azalır; ancak fine-tuning aşamasında her boyutta etkilidir.
Difficulty scoring için hangi metrik kullanılmalı?
Genel pretraining için perplexity-based scoring (küçük referans LLM kullanarak) en yaygın yaklaşımdır. Kod ve matematik için syntactic complexity + AST depth metric’leri tercih edilir. Domain-specific eğitimde domain expert tarafından kalibre edilmiş classifier en güvenilir sonuç verir.
Curriculum tier sayısı kaç olmalıdır?
3-7 tier aralığı production deployment’larda en yaygın tercih. 3 tier altı yeterli granularity sağlamaz, 7 tier üstü ise tuning karmaşıklığını artırır. Microsoft Phi-3 4 tier, JPMorgan IndexGPT 7 tier, Bloomberg GPT 3 tier kullandı.
Catastrophic forgetting nasıl önlenir?
Tier interleaving (her tier’da önceki tier’lardan %15-25 örnekleme), spiral curriculum yaklaşımı ve replay buffer kullanımı en etkili yöntemlerdir. Ayrıca learning rate’in tier sonunda %30 düşürülmesi gradient instability’yi azaltır.
Curriculum learning’in fine-tuning’e etkisi nedir?
Fine-tuning aşamasında curriculum, instruction following kalitesini %14-22 artırır. Self-paced curriculum, modelin zorlandığı örnekleri tekrar göstererek RLHF reward modeli accuracy’sini iyileştirir. Anthropic Constitutional AI’da curriculum DPO ile birlikte kullanıldı.










Ömer ÖNAL
Mayıs 23, 2026Curriculum learning projelerinde en sık karşılaştığım sorun, ekiplerin difficulty scoring’i bir kez ayarlayıp unutmasi. Eğitim ilerledikçe model adapte oluyor, ama curriculum eskimiş kalıyor; tier sınırları aslında değişmesi gereken yerde sabit duruyor. Microsoft Phi-3 pattern’i (textbook-quality data + 4 tier) referans alınmalı, ama tier ağırlıkları her 5B token’da bir re-evaluate edilmeli.