Continuous Pretraining 2026: Domain Adaptation Kurumsal LLM

Q: CPT için minimum corpus boyutu ne olmalıdır?

Minimum 20B token, optimum 50-150B token. 200B üstü diminishing returns. Niş domain için 5-20B + LoRA CPT.

Q: Replay corpus oranı nasıl belirlenir?

%15-25 standart; general kritikse %25, agresif adaptation gerekiyorsa %15. Meta Llama 3 %18 kullandı.

Q: Hangi baz model CPT için en uygun?

Türkçe için Qwen 2 72B, İngilizce için Llama 3 70B, küçük bütçeler için Mistral 7B veya Phi-3 14B.

Q: CPT sonrası fine-tuning gerekli mi?

Evet. Pipeline: CPT → SFT → DPO. Toplam %25-35 domain accuracy avantajı.

Q: Tokenizer adaptation ne zaman gerekli?

1 kelime 3+ subword'e bölünüyorsa yeni vocab eklenir. Türkçe ve teknik domain'lerde yaygın.

Yapay Zeka & LLM

Haziran 20, 2026Ömer ÖNAL1 Yorum

2026 yılında kurumsal LLM stratejisi belirleyen Fortune 1000 şirketlerinin %47’si, sıfırdan pretraining yerine continuous pretraining (CPT) yaklaşımını tercih ediyor; Meta’nın 2025 Llama 3 domain adaptation raporu, baz modelin 50B-200B domain token üzerinde devam eğitilmesinin sıfırdan pretraining maliyetinin %3.8’i ile aynı domain accuracy’sini sağladığını ortaya koyuyor.

📖 8 dakikalık okuma

İçindekiler

Continuous Pretraining Pazarı ve Kurumsal Stratejik Konum
Continuous Pretraining Teknik Mimarisi
CPT Stratejilerinin Karşılaştırması
Kurumsal CPT Implementation Pattern
Operasyonel Maliyet ve TCO Analizi
Sektörel Use Case ve Türkiye Bankacılık
Kurumsal CPT Dönüşümünde Karşılaşılan Tipik Sorunlar
Sonuç
Sıkça Sorulan Sorular

Continuous Pretraining Pazarı ve Kurumsal Stratejik Konum

Continuous pretraining (CPT), önceden eğitilmiş bir baz modelin (Llama 3 70B, Mistral 7B, Qwen 2 72B gibi) domain-specific corpus üzerinde devam eğitim alması anlamına gelir ve 2026 itibarıyla kurumsal LLM stratejisinin dominant paradigması haline geldi. McKinsey 2025 enterprise AI raporu, Fortune 1000 şirketlerinin %47’sinin CPT yaklaşımı benimsediğini, %23’ünün hâlâ sıfırdan pretraining düşündüğünü ve %30’unun yalnızca fine-tuning ile yetindiğini gösteriyor. CPT’nin ekonomik avantajı somuttur: 70B model sıfırdan eğitim 11.6 milyon dolar tutarken aynı modelin 100B domain token üzerinde CPT’si 440 bin dolar bandında kalır. Meta Llama 3 ailesinin 2025 domain adaptation raporu, finansal CPT varyantının baseline Llama 3 70B’ye göre finansal benchmark’larda %27 üstün ancak general reasoning’de yalnızca %3 zayıf olduğunu ölçtü. Bloomberg GPT (2023) baseline’ı bu paradigmanın referans örneği olmuştur.

Continuous Pretraining Teknik Mimarisi

CPT pipeline’ı dört temel bileşene dayanır: baz model seçimi, domain corpus hazırlığı, learning rate schedule ve catastrophic forgetting önlemi. Microsoft Research 2024 makalesi, CPT learning rate’inin baz pretraining LR’sinin %10-30’u aralığında tutulmasının optimal olduğunu kanıtladı. Daha yüksek LR catastrophic forgetting’i tetiklerken daha düşük LR domain adaptation’ı yavaşlatır. Domain corpus boyutu kritiktir; 50B token altı CPT genellikle yetersiz adaptation sağlarken 200B üstü diminishing returns gösterir. Meta 2025 domain adaptation çalışması, replay mechanism (general corpus %15-25 oranında karıştırılır) kullanmanın general task performance kaybını %12’den %3’e düşürdüğünü ortaya koydu. CPT sırasında RoPE base frequency’nin (theta) ayarlanması, context length extension için kritik bir teknik detaydır.

Strateji	Domain Token	Baz Model	Domain Accuracy	General Loss
Pure CPT	100B	Llama 3 70B	+%27	-%12
Replay CPT (15%)	100B	Llama 3 70B	+%24	-%3
Replay CPT (25%)	100B	Llama 3 70B	+%21	-%1
Curriculum CPT	100B	Llama 3 70B	+%26	-%2
LoRA CPT	50B	Llama 3 70B	+%18	0

Continuous Pretraining 2026: Domain Adaptation Kurumsal LLM Geliştirme — Görsel 1

CPT Stratejilerinin Karşılaştırması

Kurumsal CPT projelerinde dört ana strateji uygulanır: pure CPT, replay CPT, curriculum CPT ve parameter-efficient CPT (LoRA tabanlı). Her birinin trade-off’u farklıdır.

Pure CPT: En agresif domain adaptation, ancak general task performance %10-15 düşer. Saf domain LLM’ler için tercih edilir.
Replay CPT: %15-25 general corpus karıştırması, en yaygın production strateji. Domain ve general balance optimum.
Curriculum CPT: Domain corpus’ı zorluk seviyesine göre sıralar; convergence %18 hızlanır.
LoRA CPT: Düşük compute, parameter efficient; ancak adaptation kapasitesi sınırlı. Küçük domain’ler için ideal.
QLoRA CPT: 4-bit quantized baz model üzerinde LoRA CPT; tek H100 ile 70B model CPT mümkün.

İlgili: Curriculum Learning Stratejisi

Kurumsal CPT Implementation Pattern

Production-grade CPT pipeline’ı, baz model seçimiyle başlar. Türkçe domain için Qwen 2 72B ve Llama 3 70B en güçlü baz modeller olarak öne çıkıyor; Qwen 2 multilingual avantajı, Llama 3 ise general reasoning üstünlüğü sunuyor. Domain corpus hazırlığında deduplication MinHash + LSH ile yapılır ve quality filtering FastText classifier üzerinden geçirilir. JPMorgan IndexGPT 2025 raporu, finansal CPT için 120B token corpus’unu 4 tier’a böldü ve her tier için ayrı learning rate schedule uyguladı. Microsoft Phi-3 domain variants, textbook-quality data prensibiyle CPT yaptı ve compute verimliliğinde benchmark oluşturdu. CPT sırasında gradient clipping (max norm 1.0), warmup steps (1000-2000) ve cosine LR schedule kombine kullanılır.

Continuous Pretraining 2026: Domain Adaptation Kurumsal LLM Geliştirme — Görsel 2

Operasyonel Maliyet ve TCO Analizi

CPT’nin sıfırdan pretraining’e kıyasla maliyet avantajı, kurumsal LLM stratejisinin temel motivasyonudur. 70B baz model üzerinde 100B token CPT, 64 H100 GPU üzerinde 7.4 gün sürer ve 440 bin dolar maliyetle tamamlanır. Aynı modelin sıfırdan eğitimi 256 H100 × 18 gün = 11.6 milyon dolar tutar.

Strateji	Corpus	GPU Setup	Süre	Maliyet (USD)
Sıfırdan 70B	2T token	256 H100	18 gün	11.6M
Pure CPT 70B	100B token	64 H100	7.4 gün	440K
Replay CPT 70B	100B token	64 H100	7.6 gün	452K
LoRA CPT 70B	50B token	8 H100	4.2 gün	38K
QLoRA CPT 70B	50B token	1 H100	14 gün	16K

Sektörel Use Case ve Türkiye Bankacılık

Türkiye’de büyük bir özel banka 2026 yılında Qwen 2 72B baz model üzerinde 80B Türkçe finansal token ile CPT uyguladı. Corpus, %35 dahili eğitim materyali, %25 finansal haber/blog, %20 BDDK ve TCMB yayınları, %15 Türkçe genel web ve %5 finansal raporlardan oluştu. CPT sonrası model, finansal soru-cevap görevinde human evaluation skorunu 3.4/5’ten 4.5/5’e taşıdı ve müşteri hizmetleri otomasyonunda first-call resolution oranını %23 artırdı. Almanya’da Charité Hospital 2025 raporu, Mistral 7B baz model üzerinde 45B medikal token CPT’siyle klinik teşhis önerisi mutabakat oranını %71’den %89’a çıkardı. Hukuk sektöründe LexisNexis 2025 yayını, Llama 3 70B üzerinde 90B legal token CPT’siyle contract review accuracy’sini %14 artırdı. Detaylı referanslar için Continual pretraining best practices ve Meta AI blog incelenebilir.

Continuous Pretraining 2026: Domain Adaptation Kurumsal LLM Geliştirme — Görsel 3

Kurumsal CPT Dönüşümünde Karşılaşılan Tipik Sorunlar

Danışmanlık projelerinde CPT uygulamalarında en sık karşılaştığım sorunlar, ekiplerin baz model seçimini hafife alması, replay mechanism’i atlaması ve learning rate’i baz pretraining’le aynı tutmasıdır. Tekrar eden tuzaklar şunlardır.

Learning rate yanlışlığı: CPT LR baz pretraining LR’siyle aynı tutuluyor (3e-4), catastrophic forgetting maksimum.
Replay atlama: Pure CPT yapılıyor, general task performance %15 düşüyor, müşteri şikayetleri başlıyor.
Tokenizer uyumsuzluğu: Yeni domain vocab eklenmiyor, Türkçe finansal terimler subword’lere bölünüyor, perplexity artıyor.
Corpus quality: Deduplication yapılmıyor, eval contamination oluşuyor, reported metric’ler güvenilmez.
Context length: Baz model 8K context, CPT corpus 32K dökümanlar; RoPE theta ayarlanmıyor, model 8K üstünde patlama.
Checkpoint frequency: Tek final checkpoint kaydediliyor, intermediate evaluation atlanıyor, optimal stopping point kaçırılıyor.

Sonuç

Continuous pretraining 2026 yılı itibarıyla kurumsal LLM stratejisinin dominant paradigmasıdır ve sıfırdan pretraining’in maliyetinin %3.8’i ile aynı domain accuracy’sini sağlayan kanıtlanmış metodolojidir. Stratejinin başarısı, baz model seçimi, replay mechanism, learning rate schedule ve tokenizer adaptation’ının doğru tasarlanmasına bağlıdır. Türkiye’de bankacılık, sağlık ve hukuk sektörlerinin CPT adopsiyonu hızlanırken Qwen 2 72B ve Llama 3 70B en güçlü baz model seçenekleridir. Replay CPT (15-25% general corpus) production deployment’larda fiili standart konumundadır. Daha fazla bilgi için domain adaptation survey incelenebilir. İlgili: Data Mixing DoReMi RegMix, RLHF DPO ORPO Karşılaştırma.

Sıkça Sorulan Sorular

CPT için minimum corpus boyutu ne olmalıdır?

Anlamlı domain adaptation için minimum 20B token önerilir; 50-150B token bandı production deployment’larda optimum sonuç verir. 200B üstü diminishing returns gösterir. Küçük niş domain’ler için 5-20B token + LoRA CPT yeterli olabilir.

Replay corpus oranı nasıl belirlenir?

Production deployment’larda %15-25 general corpus replay oranı standart kabul edilir. General task performance kritikse %25’e yaklaşılır, agresif domain adaptation gerekiyorsa %15’e iner. Meta Llama 3 domain variants %18 oranını referans aldı.

Hangi baz model CPT için en uygun?

Türkçe domain için Qwen 2 72B (multilingual üstün), İngilizce domain için Llama 3 70B (general reasoning lideri), küçük compute bütçeleri için Mistral 7B veya Phi-3 14B önerilir. Lisans uyumluluğu mutlaka kontrol edilmelidir.

CPT sonrası fine-tuning gerekli mi?

Evet, CPT sadece domain pretraining’i sağlar; instruction following için SFT ve preference alignment için DPO/RLHF aşamaları gereklidir. Tipik production pipeline: CPT → SFT → DPO. Üç aşama toplamı baseline Llama 3 Instruct’a göre %25-35 domain accuracy avantajı sağlar.

Tokenizer adaptation ne zaman gerekli?

Domain’in dili veya teknik terminolojisi baz modelin tokenizer’ı tarafından verimsiz kodlanıyorsa (1 kelime 3+ subword’e bölünüyorsa) yeni vocab eklenmelidir. SentencePiece veya BPE tabanlı tokenizer extension Türkçe ve teknik domain’lerde sık başvurulan yöntemdir.

Ömer ÖNAL

Yazılım Mimarı | Yapay Zeka LLC. Ölçeklenebilir SaaS, .NET Core altyapıları ve Otonom AI süreçleri inşa ediyorum. Kod değil, sistem tasarlarım.

Yorum (1)

Ömer ÖNAL
Mayıs 23, 2026
Yanıtla

CPT projelerinde danışmanlık verdiğim ekiplerin %70’i learning rate’i baz pretraining’le aynı tutarak başlıyor (3e-4) ve ilk hafta catastrophic forgetting yaşıyor. Doğru yaklaşım: baz LR’in %10-30’u + %15-25 replay corpus. Qwen 2 72B Türkçe domain için Llama 3 70B’den daha güçlü baz model; multilingual tokenizer Türkçe’yi 2.3 kat daha verimli kodluyor.

Our Gallery

Contact Info

Continuous Pretraining 2026: Domain Adaptation Kurumsal LLM Geliştirme