2026 yılında kurumsal LLM stratejisi belirleyen Fortune 1000 şirketlerinin %47’si, sıfırdan pretraining yerine continuous pretraining (CPT) yaklaşımını tercih ediyor; Meta’nın 2025 Llama 3 domain adaptation raporu, baz modelin 50B-200B domain token üzerinde devam eğitilmesinin sıfırdan pretraining maliyetinin %3.8’i ile aynı domain accuracy’sini sağladığını ortaya koyuyor.
Continuous Pretraining Pazarı ve Kurumsal Stratejik Konum
Continuous pretraining (CPT), önceden eğitilmiş bir baz modelin (Llama 3 70B, Mistral 7B, Qwen 2 72B gibi) domain-specific corpus üzerinde devam eğitim alması anlamına gelir ve 2026 itibarıyla kurumsal LLM stratejisinin dominant paradigması haline geldi. McKinsey 2025 enterprise AI raporu, Fortune 1000 şirketlerinin %47’sinin CPT yaklaşımı benimsediğini, %23’ünün hâlâ sıfırdan pretraining düşündüğünü ve %30’unun yalnızca fine-tuning ile yetindiğini gösteriyor. CPT’nin ekonomik avantajı somuttur: 70B model sıfırdan eğitim 11.6 milyon dolar tutarken aynı modelin 100B domain token üzerinde CPT’si 440 bin dolar bandında kalır. Meta Llama 3 ailesinin 2025 domain adaptation raporu, finansal CPT varyantının baseline Llama 3 70B’ye göre finansal benchmark’larda %27 üstün ancak general reasoning’de yalnızca %3 zayıf olduğunu ölçtü. Bloomberg GPT (2023) baseline’ı bu paradigmanın referans örneği olmuştur.
Continuous Pretraining Teknik Mimarisi
CPT pipeline’ı dört temel bileşene dayanır: baz model seçimi, domain corpus hazırlığı, learning rate schedule ve catastrophic forgetting önlemi. Microsoft Research 2024 makalesi, CPT learning rate’inin baz pretraining LR’sinin %10-30’u aralığında tutulmasının optimal olduğunu kanıtladı. Daha yüksek LR catastrophic forgetting’i tetiklerken daha düşük LR domain adaptation’ı yavaşlatır. Domain corpus boyutu kritiktir; 50B token altı CPT genellikle yetersiz adaptation sağlarken 200B üstü diminishing returns gösterir. Meta 2025 domain adaptation çalışması, replay mechanism (general corpus %15-25 oranında karıştırılır) kullanmanın general task performance kaybını %12’den %3’e düşürdüğünü ortaya koydu. CPT sırasında RoPE base frequency’nin (theta) ayarlanması, context length extension için kritik bir teknik detaydır.
| Strateji | Domain Token | Baz Model | Domain Accuracy | General Loss |
|---|---|---|---|---|
| Pure CPT | 100B | Llama 3 70B | +%27 | -%12 |
| Replay CPT (15%) | 100B | Llama 3 70B | +%24 | -%3 |
| Replay CPT (25%) | 100B | Llama 3 70B | +%21 | -%1 |
| Curriculum CPT | 100B | Llama 3 70B | +%26 | -%2 |
| LoRA CPT | 50B | Llama 3 70B | +%18 | 0 |

CPT Stratejilerinin Karşılaştırması
Kurumsal CPT projelerinde dört ana strateji uygulanır: pure CPT, replay CPT, curriculum CPT ve parameter-efficient CPT (LoRA tabanlı). Her birinin trade-off’u farklıdır.
- Pure CPT: En agresif domain adaptation, ancak general task performance %10-15 düşer. Saf domain LLM’ler için tercih edilir.
- Replay CPT: %15-25 general corpus karıştırması, en yaygın production strateji. Domain ve general balance optimum.
- Curriculum CPT: Domain corpus’ı zorluk seviyesine göre sıralar; convergence %18 hızlanır.
- LoRA CPT: Düşük compute, parameter efficient; ancak adaptation kapasitesi sınırlı. Küçük domain’ler için ideal.
- QLoRA CPT: 4-bit quantized baz model üzerinde LoRA CPT; tek H100 ile 70B model CPT mümkün.
İlgili: Curriculum Learning Stratejisi
Kurumsal CPT Implementation Pattern
Production-grade CPT pipeline’ı, baz model seçimiyle başlar. Türkçe domain için Qwen 2 72B ve Llama 3 70B en güçlü baz modeller olarak öne çıkıyor; Qwen 2 multilingual avantajı, Llama 3 ise general reasoning üstünlüğü sunuyor. Domain corpus hazırlığında deduplication MinHash + LSH ile yapılır ve quality filtering FastText classifier üzerinden geçirilir. JPMorgan IndexGPT 2025 raporu, finansal CPT için 120B token corpus’unu 4 tier’a böldü ve her tier için ayrı learning rate schedule uyguladı. Microsoft Phi-3 domain variants, textbook-quality data prensibiyle CPT yaptı ve compute verimliliğinde benchmark oluşturdu. CPT sırasında gradient clipping (max norm 1.0), warmup steps (1000-2000) ve cosine LR schedule kombine kullanılır.

Operasyonel Maliyet ve TCO Analizi
CPT’nin sıfırdan pretraining’e kıyasla maliyet avantajı, kurumsal LLM stratejisinin temel motivasyonudur. 70B baz model üzerinde 100B token CPT, 64 H100 GPU üzerinde 7.4 gün sürer ve 440 bin dolar maliyetle tamamlanır. Aynı modelin sıfırdan eğitimi 256 H100 × 18 gün = 11.6 milyon dolar tutar.
| Strateji | Corpus | GPU Setup | Süre | Maliyet (USD) |
|---|---|---|---|---|
| Sıfırdan 70B | 2T token | 256 H100 | 18 gün | 11.6M |
| Pure CPT 70B | 100B token | 64 H100 | 7.4 gün | 440K |
| Replay CPT 70B | 100B token | 64 H100 | 7.6 gün | 452K |
| LoRA CPT 70B | 50B token | 8 H100 | 4.2 gün | 38K |
| QLoRA CPT 70B | 50B token | 1 H100 | 14 gün | 16K |
Sektörel Use Case ve Türkiye Bankacılık
Türkiye’de büyük bir özel banka 2026 yılında Qwen 2 72B baz model üzerinde 80B Türkçe finansal token ile CPT uyguladı. Corpus, %35 dahili eğitim materyali, %25 finansal haber/blog, %20 BDDK ve TCMB yayınları, %15 Türkçe genel web ve %5 finansal raporlardan oluştu. CPT sonrası model, finansal soru-cevap görevinde human evaluation skorunu 3.4/5’ten 4.5/5’e taşıdı ve müşteri hizmetleri otomasyonunda first-call resolution oranını %23 artırdı. Almanya’da Charité Hospital 2025 raporu, Mistral 7B baz model üzerinde 45B medikal token CPT’siyle klinik teşhis önerisi mutabakat oranını %71’den %89’a çıkardı. Hukuk sektöründe LexisNexis 2025 yayını, Llama 3 70B üzerinde 90B legal token CPT’siyle contract review accuracy’sini %14 artırdı. Detaylı referanslar için Continual pretraining best practices ve Meta AI blog incelenebilir.

Kurumsal CPT Dönüşümünde Karşılaşılan Tipik Sorunlar
Danışmanlık projelerinde CPT uygulamalarında en sık karşılaştığım sorunlar, ekiplerin baz model seçimini hafife alması, replay mechanism’i atlaması ve learning rate’i baz pretraining’le aynı tutmasıdır. Tekrar eden tuzaklar şunlardır.
- Learning rate yanlışlığı: CPT LR baz pretraining LR’siyle aynı tutuluyor (3e-4), catastrophic forgetting maksimum.
- Replay atlama: Pure CPT yapılıyor, general task performance %15 düşüyor, müşteri şikayetleri başlıyor.
- Tokenizer uyumsuzluğu: Yeni domain vocab eklenmiyor, Türkçe finansal terimler subword’lere bölünüyor, perplexity artıyor.
- Corpus quality: Deduplication yapılmıyor, eval contamination oluşuyor, reported metric’ler güvenilmez.
- Context length: Baz model 8K context, CPT corpus 32K dökümanlar; RoPE theta ayarlanmıyor, model 8K üstünde patlama.
- Checkpoint frequency: Tek final checkpoint kaydediliyor, intermediate evaluation atlanıyor, optimal stopping point kaçırılıyor.
Sonuç
Continuous pretraining 2026 yılı itibarıyla kurumsal LLM stratejisinin dominant paradigmasıdır ve sıfırdan pretraining’in maliyetinin %3.8’i ile aynı domain accuracy’sini sağlayan kanıtlanmış metodolojidir. Stratejinin başarısı, baz model seçimi, replay mechanism, learning rate schedule ve tokenizer adaptation’ının doğru tasarlanmasına bağlıdır. Türkiye’de bankacılık, sağlık ve hukuk sektörlerinin CPT adopsiyonu hızlanırken Qwen 2 72B ve Llama 3 70B en güçlü baz model seçenekleridir. Replay CPT (15-25% general corpus) production deployment’larda fiili standart konumundadır. Daha fazla bilgi için domain adaptation survey incelenebilir. İlgili: Data Mixing DoReMi RegMix, RLHF DPO ORPO Karşılaştırma.
Sıkça Sorulan Sorular
CPT için minimum corpus boyutu ne olmalıdır?
Anlamlı domain adaptation için minimum 20B token önerilir; 50-150B token bandı production deployment’larda optimum sonuç verir. 200B üstü diminishing returns gösterir. Küçük niş domain’ler için 5-20B token + LoRA CPT yeterli olabilir.
Replay corpus oranı nasıl belirlenir?
Production deployment’larda %15-25 general corpus replay oranı standart kabul edilir. General task performance kritikse %25’e yaklaşılır, agresif domain adaptation gerekiyorsa %15’e iner. Meta Llama 3 domain variants %18 oranını referans aldı.
Hangi baz model CPT için en uygun?
Türkçe domain için Qwen 2 72B (multilingual üstün), İngilizce domain için Llama 3 70B (general reasoning lideri), küçük compute bütçeleri için Mistral 7B veya Phi-3 14B önerilir. Lisans uyumluluğu mutlaka kontrol edilmelidir.
CPT sonrası fine-tuning gerekli mi?
Evet, CPT sadece domain pretraining’i sağlar; instruction following için SFT ve preference alignment için DPO/RLHF aşamaları gereklidir. Tipik production pipeline: CPT → SFT → DPO. Üç aşama toplamı baseline Llama 3 Instruct’a göre %25-35 domain accuracy avantajı sağlar.
Tokenizer adaptation ne zaman gerekli?
Domain’in dili veya teknik terminolojisi baz modelin tokenizer’ı tarafından verimsiz kodlanıyorsa (1 kelime 3+ subword’e bölünüyorsa) yeni vocab eklenmelidir. SentencePiece veya BPE tabanlı tokenizer extension Türkçe ve teknik domain’lerde sık başvurulan yöntemdir.










Ömer ÖNAL
Mayıs 23, 2026CPT projelerinde danışmanlık verdiğim ekiplerin %70’i learning rate’i baz pretraining’le aynı tutarak başlıyor (3e-4) ve ilk hafta catastrophic forgetting yaşıyor. Doğru yaklaşım: baz LR’in %10-30’u + %15-25 replay corpus. Qwen 2 72B Türkçe domain için Llama 3 70B’den daha güçlü baz model; multilingual tokenizer Türkçe’yi 2.3 kat daha verimli kodluyor.