2026 yılında pretraining veri karışım kalitesi, model performansını ham parametre sayısından daha fazla etkiliyor; Google Research’ün DoReMi makalesi, optimize edilmiş domain ağırlıklarının baseline uniform mixing’e göre downstream task perplexity’sini %17.3 düşürdüğünü ve 8B parametreli modelin baseline 30B muadiline yaklaşmasını sağladığını ortaya koyuyor.

Data Mixing Pazarı ve Pretraining Ekonomisi

Data mixing, LLM pretraining’inde farklı veri kaynaklarının (web crawl, kitap, kod, akademik, çok dilli) hangi oranlarda karıştırılacağını belirleyen kritik tasarım kararıdır ve 2026 itibarıyla model kalitesini yöneten en güçlü kollardan biridir. Google DeepMind’ın 2023 DoReMi (Domain Reweighting with Minimax Optimization) makalesi, manuel domain ağırlıklarının optimize edilmesinin downstream task perplexity’sini %17.3 düşürdüğünü ölçtü. Microsoft Research’ün 2024 RegMix çalışması, küçük proxy modeller üzerinde 256 farklı mixing oranı denenerek optimal karışımın LM evaluation skorunu %4.5 artırdığını gösterdi. Hugging Face’in 2026 FineWeb 15T token dataset’i, web crawl + akademik + kod karışımının optimize edilmesinin Llama 3 8B sonuçlarına yaklaşan performans verdiğini kanıtladı. Common Crawl, RedPajama, The Pile, ROOTS gibi public corpora 2026 itibarıyla 20T+ token kapasitesine ulaştı ve mixing optimization endüstrinin kalite arttırma odaklı en aktif araştırma alanı haline geldi.

DoReMi ve RegMix Teknik Mimarisi

DoReMi, küçük proxy modeli (~280M parametre) kullanarak farklı domain ağırlıklarını minimax optimization ile öğrenir; reference policy ile worst-case domain’i tespit eder ve loss’u o yöne çeker. Algoritmanın iki aşaması vardır: proxy training (orijinal domain ağırlıklarıyla 280M model eğitimi) ve domain reweighting (Group DRO ile worst-case domain identification). DoReMi The Pile (22 domain) üzerinde uygulandığında C4 ağırlığını %15.4’ten %46.6’ya çıkardı ve OpenWebText2 ağırlığını %19.4’ten %4.9’a düşürdü. RegMix farklı bir yaklaşım izler: 256 farklı karışımla 1M parametre proxy modeller eğitir, downstream task accuracy’lerini ölçer ve regression model ile target model boyutu için optimal karışımı tahmin eder. Microsoft 2024 raporu, RegMix’in DoReMi’ye göre %2.3 daha yüksek performans sağladığını ve compute maliyetinin %38’i ile çalıştığını gösteriyor.

Yöntem Proxy Boyut Compute Perplexity Düşüş Production Adopsiyon
Uniform Mixing Yok 0 0% (baseline) Eski standart
Manual Heuristic Yok Düşük %3-7 RedPajama, The Pile
DoReMi 280M 2.5K GPU saat %17.3 Google PaLM 2
RegMix 1M x 256 950 GPU saat %19.6 Microsoft Phi-3
DataComp-LM 1B 4K GPU saat %21.4 Apple Foundation
Data Mixing 2026: DoReMi RegMix Pretraining Veri Karışım Stratejisi — Görsel 1
Data Mixing 2026: DoReMi RegMix Pretraining Veri Karışım Stratejisi — Görsel 1

Data Mixing Stratejilerinin Karşılaştırması

Pretraining ekibi için data mixing stratejisi seçimi, compute bütçesi ve target model boyutuna göre farklılaşır. Beş ana yaklaşım production ortamında kullanılır.

  • Uniform mixing: Tüm domain’ler eşit ağırlık, en basit ama suboptimal. Sadece bootstrap aşamasında kullanılır.
  • Manual heuristic: Domain expert’lerin kararıyla manual ayarlama. RedPajama (%67 CC, %15 C4, %5 GitHub, %4.5 Books) referans örnek.
  • DoReMi: Group DRO ile worst-case domain optimization, proxy model gerektirir. Google PaLM 2 ve LLaMA 2 pipeline’larında kullanıldı.
  • RegMix: Regression-based prediction, 256 proxy ile downstream task optimization. Microsoft Phi-3 production’da uygulandı.
  • DataComp-LM: 1B proxy modellerle 1T-scale dataset filtering optimization, Apple Foundation Models tarafından kullanılıyor.

İlgili: Continuous Pretraining Domain Adaptation

Production Implementation Pattern

Production data mixing pipeline’ı dört aşamadan oluşur: domain tagging, proxy training, optimization ve target model training. Domain tagging aşamasında FastText classifier veya domain-specific BERT modeli kullanılır; her doküman primary ve secondary domain etiketleri alır. Proxy training aşamasında 280M-1B parametreli model birden fazla mixing oranıyla eğitilir; her run 2-8 saat sürer ve toplam 50-256 farklı oran denenir. Optimization aşamasında DoReMi için Group DRO, RegMix için linear regression veya XGBoost ile target model için optimal mix tahmin edilir. Microsoft RegMix 2024 makalesi, 1M parametre proxy ile öğrenilen ağırlıkların 1B-7B target modellerde %95+ transfer edilebilirlik gösterdiğini kanıtladı. Production’da intermediate evaluation her 5B token’da bir checkpoint üzerinden yapılır ve C-Eval, MMLU, HellaSwag gibi benchmark’larla doğrulanır.

Data Mixing 2026: DoReMi RegMix Pretraining Veri Karışım Stratejisi — Görsel 2
Data Mixing 2026: DoReMi RegMix Pretraining Veri Karışım Stratejisi — Görsel 2

Operasyonel Maliyet ve Compute Ekonomisi

Data mixing optimization’ın compute maliyeti, target model training maliyetinin yanında küçük kalır ama kalite kazanımı muazzamdır. 7B target model için 1.5T token training 17M dolar tutarken DoReMi optimization 18K dolar, RegMix optimization 7K dolar ekstra maliyet getirir. Bu yatırım, downstream task perplexity’sinde %17-20 iyileşme sağlayarak target model’in bir üst sınıfa eşdeğer performans göstermesini mümkün kılar.

Strateji Optimization Maliyet Training Maliyet Toplam (USD) Quality Lift
Uniform 7B 0 17M 17M Baseline
Manual 7B 5K 17M 17.005M +%5
DoReMi 7B 18K 17M 17.018M +%17
RegMix 7B 7K 17M 17.007M +%19
DataComp-LM 7B 30K 17M 17.030M +%21

Sektörel Use Case ve Türkiye Uygulamaları

Google PaLM 2 modeli, DoReMi optimization ile 22 domain üzerinde optimize edilmiş ağırlıklar kullandı ve baseline uniform mixing’e göre MMLU skorunda %4.2 iyileşme sağladı. Microsoft Phi-3 ailesi, RegMix ile “textbook-quality data” stratejisini birleştirerek 7B model üzerinde 70B baseline performansının %85’ine ulaştı. Türkiye’de finans sektörü 2026 itibarıyla 7B-13B Türkçe domain LLM’lerinde manual heuristic + RegMix hibrit yaklaşımını tercih ediyor; %35 mC4-tr, %25 Türkçe finansal corpus, %15 İngilizce finansal, %15 kod (Türkçe yorum), %10 multilingual genel karışımı production deployment’larda en başarılı sonuçları üretiyor. Apple 2024 Foundation Models raporu, DataComp-LM ile 12T token filtering yaparak 7B model boyutunda Llama 3 8B’ye eşdeğer performans elde ettiklerini paylaştı. Detaylı referanslar için DoReMi makalesi ve RegMix makalesi incelenebilir.

Data Mixing 2026: DoReMi RegMix Pretraining Veri Karışım Stratejisi — Görsel 3
Data Mixing 2026: DoReMi RegMix Pretraining Veri Karışım Stratejisi — Görsel 3

Kurumsal Data Mixing Dönüşümünde Karşılaşılan Tipik Sorunlar

Danışmanlık projelerinde data mixing optimization uygulamalarında en sık karşılaştığım sorunlar, ekiplerin proxy model boyutunu çok küçük tutması, domain tagging’i atlaması ve evaluation contamination’a dikkat etmemesidir. Tekrar eden tuzaklar şunlardır.

  • Proxy boyutu yetersiz: 100M parametre proxy kullanılıyor, transfer 7B target’e %78 düşüyor; min 280M önerilir.
  • Domain tagging hatalı: FastText classifier overfit oluyor, multilingual corpus tek domain’e atanıyor.
  • Eval contamination: Benchmark soruları training corpus’a sızıyor, optimization metric’leri şişiyor.
  • Replay buffer eksik: Optimize ağırlıklar sabit kalıyor, training ilerledikçe re-weighting yapılmıyor.
  • Compute over-investment: 256+ proxy run yapılıyor ama marginal kazanım %0.5 altında, ROI negatif.
  • Deduplication atlama: Domain’ler arası overlap optimize edilmiyor, training’de gradient curve bozuluyor.

Sonuç

Data mixing optimization 2026 yılı itibarıyla pretraining ekonomisinin verimlilik motorudur ve %3.8’lik ek compute yatırımıyla %17-21 quality lift sağlayan kanıtlanmış metodolojidir. DoReMi ve RegMix iki ana paradigmayı temsil eder; DoReMi minimax optimization ile worst-case domain’i optimize ederken RegMix regression-based prediction ile daha verimli proxy training sunar. Apple’ın DataComp-LM yaklaşımı en yüksek quality lift’i (+%21) sağlar ancak compute maliyeti 4 katıdır. Production deployment’larda manual heuristic + RegMix hibrit yaklaşımı en pragmatik tercih olarak öne çıkar. Daha fazla bilgi için DataComp-LM makalesi incelenebilir. İlgili: Curriculum Learning Stratejisi, Megatron-LM NVIDIA Implementation.

Sıkça Sorulan Sorular

DoReMi ve RegMix arasında temel fark nedir?

DoReMi minimax optimization kullanır ve worst-case domain’i tespit ederek o yöne loss çeker; Group DRO algoritması ile çalışır. RegMix ise birden fazla mixing oranıyla küçük proxy modeller eğitir, downstream task accuracy’lerini ölçer ve regression ile target boyut için optimal karışımı tahmin eder. RegMix daha compute-efficient’tir.

Proxy model boyutu ne olmalıdır?

DoReMi için 280M parametre minimum, RegMix için 1M-100M aralığı yeterlidir. Daha küçük proxy modeller transfer accuracy’sini düşürür; çok büyük proxy ise compute maliyetini patlatır. Target model 7B-70B aralığındaysa 280M-1B proxy ideal.

Domain tagging nasıl yapılır?

FastText classifier en yaygın yöntemdir; küçük labeled set (her domain için 10K-50K örnek) ile eğitilir. Daha karmaşık taxonomy için fine-tuned BERT-base modelleri kullanılır. Apple DataComp-LM, 80+ domain için multi-label classifier kullandı.

Data mixing optimization compute maliyeti ne kadar?

7B target model için DoReMi 18K dolar (target training’in %0.1’i), RegMix 7K dolar (%0.04), DataComp-LM 30K dolar (%0.18). Quality lift %17-21 olduğundan ROI son derece pozitif.

Mixing oranları training boyunca sabit mi kalmalı?

Dynamic mixing (replay weighting) son araştırmaların gösterdiği üzere %2-4 ek quality lift sağlar. Microsoft 2025 ODM makalesi, online domain mixing ile training boyunca ağırlıkların adapt edilmesinin downstream accuracy’yi artırdığını gösterdi. Production’da intermediate checkpoint’lerde re-weighting önerilir.

Ömer ÖNAL

Yazılım Mimarı | Yapay Zeka LLC. Ölçeklenebilir SaaS, .NET Core altyapıları ve Otonom AI süreçleri inşa ediyorum. Kod değil, sistem tasarlarım.

Yorum (1)

  1. Ömer ÖNAL
    Mayıs 23, 2026

    Data mixing projelerinde gördüğüm en pahalı hata, ekiplerin 256+ proxy run yapıp marjinal kazanım %0.5 altında olmasına rağmen optimization’a devam etmesi. RegMix 80-128 run sonrası diminishing returns gösterir. Türk e-ticaret projelerinde manual heuristic + RegMix hibrit yaklaşım, saf algoritma yaklaşımına göre %18 daha pragmatik sonuçlar veriyor; domain expert’in 2 saatlik input’u 50K dolarlık compute’a denk düşüyor.

Yorum Yap

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir