2026 yılında preference optimization katmanı kullanan kurumsal LLM’lerin %58’i DPO (Direct Preference Optimization), %24’ü RLHF, %14’ü ORPO ve %4’ü KTO yöntemini tercih ediyor; Hugging Face TRL 2026 benchmark raporu, DPO’nun aynı kalite seviyesini RLHF’nin %38 maliyeti ile sağladığını ve ORPO’nun supervised fine-tuning aşamasını tamamen ortadan kaldırdığını gösteriyor.

Preference Optimization Pazarı ve Stratejik Konum

Preference optimization, LLM’leri insan tercihlerine hizalama (alignment) sürecinin omurgasını oluşturuyor ve 2026 itibarıyla bu disiplinde dört rakip yaklaşım kurumsal pazarı paylaşıyor. OpenAI’nin 2022’de yayımladığı InstructGPT makalesiyle popülerleşen RLHF (Reinforcement Learning from Human Feedback), uzun yıllar fiili standart olarak kaldı ancak Stanford’un Mayıs 2023 DPO makalesi, aynı kalite hedefine reward model gerektirmeden ulaşılabileceğini kanıtladı. KAIST’in 2024 ORPO çalışması, SFT (Supervised Fine-Tuning) ve preference optimization’ı tek aşamada birleştirerek training pipeline’ını %42 kısalttı. Anthropic’in Constitutional AI ve Claude 3.5 modelleri, RLHF’i hâlâ kullanırken Mistral, Meta Llama 3 ve Microsoft Phi-3 DPO’yu tercih ediyor. 2026 itibarıyla preference data ekosistemi 12.4 milyar dolarlık pazara ulaştı ve domain-specific alignment ihtiyacı her sektörü kapsayacak şekilde genişledi.

RLHF, DPO ve ORPO Teknik Mimarisi

Üç yaklaşımın matematik mimarisi birbirinden farklıdır. RLHF üç aşamalı pipeline kullanır: SFT, reward model eğitimi ve PPO (Proximal Policy Optimization) ile politika optimizasyonu. DPO ise reward model’i bypass eder; preference pair’ler üzerinden doğrudan policy gradient’i hesaplar ve KL divergence’ı implicit olarak kontrol eder. ORPO bir adım daha ileri giderek SFT loss ve preference loss’u tek bir objective fonksiyonda birleştirir. Hugging Face TRL 2026 sürümünde DPO loss fonksiyonu β=0.1 default değeriyle kullanılır ve preference pair’lerde win rate %72-78 aralığında ölçülür. ORPO ise odds ratio loss kullanır ve λ=0.1 ağırlığıyla SFT objective’i preference signal ile harmanlar. Anthropic’in 2025 raporu, RLHF’in long-context alignment görevlerinde DPO’ya kıyasla %8 üstün performans sergilediğini ancak training maliyetinin 2.6 katı olduğunu gösteriyor.

Özellik RLHF (PPO) DPO ORPO KTO
Reward Model Gerekli Yok Yok Yok
Pipeline Aşaması 3 aşama 2 aşama 1 aşama 2 aşama
Preference Data Pair Pair Pair Single label
Training Stabilite Düşük Yüksek Yüksek Orta
Compute Maliyet 1.0x baseline 0.38x 0.31x 0.41x
RLHF vs DPO vs ORPO 2026: Preference Optimization Production Karşılaştırma — Görsel 1
RLHF vs DPO vs ORPO 2026: Preference Optimization Production Karşılaştırma — Görsel 1

Yöntemler Arası Karşılaştırma ve Tercih Kriterleri

Kurumsal preference optimization seçimi, veri yapısı, ekip uzmanlığı ve kalite hedefine göre farklılaşır. Her yöntemin kendine özgü avantajları ve sınırlamaları bulunur.

  • RLHF (PPO): Maksimum esneklik ve reward shaping kontrolü, ancak training instability ve high compute maliyet. Constitutional AI ve Claude pipeline’ında kullanılır.
  • DPO: Stable training, reward model gerektirmez, Llama 3, Mistral ve Phi-3’te tercih edilir. Pair data 35K-200K aralığında etkilidir.
  • ORPO: Tek aşama, SFT ile birleşik, compute %69 tasarruflu. Domain-specific küçük datasette (5K-30K pair) en iyi performans.
  • KTO: Single label (good/bad), pair gerektirmez, kullanıcı feedback’i kolay toplanır. Production telemetry verileriyle iteratif iyileştirme için ideal.
  • IPO: DPO varyantı, identity preference optimization, β kontrolü daha hassas.

İlgili: Curriculum Learning Domain LLM Stratejisi

Production-Grade Implementation Pattern

Production preference optimization deployment’ında veri kalitesi, training stability’den önce gelir. Hugging Face TRL’in 2026 sürümünde DPOTrainer, beta=0.1, max_length=2048, batch_size=4 (gradient_accumulation_steps=8) varsayılan konfigürasyonuyla kullanılır. Preference data toplama aşamasında inter-annotator agreement (IAA) skorunun 0.72 altına düşmesi tutarsız etiketleme sinyalidir ve modelin kalitesini doğrudan etkiler. Microsoft DeepSpeed Chat 2024 framework’ü, RLHF için PPO + reward model + reference model üçlüsünü 4xA100 80GB üzerinde 7B model için 18 saatte tamamlar. ORPO için Hugging Face ORPOTrainer’ın λ=0.1 varsayılan değeri çoğu domain için yeterlidir; spesifik alignment ihtiyacı varsa λ 0.05-0.3 aralığında grid search yapılır.

RLHF vs DPO vs ORPO 2026: Preference Optimization Production Karşılaştırma — Görsel 2
RLHF vs DPO vs ORPO 2026: Preference Optimization Production Karşılaştırma — Görsel 2

Operasyonel Maliyet ve Compute Ekonomisi

Üç yöntemin compute maliyeti ve kalite sonuçları, kurumsal LLM stratejisinin doğrudan parçasıdır. 7B model için RLHF tam pipeline’ı 4xA100 80GB üzerinde 18 saatte tamamlanırken DPO 6.8 saatte, ORPO 5.6 saatte sonlanıyor.

Yöntem 7B Eğitim Süresi GPU Saat Maliyet (USD) Win Rate
RLHF (PPO) 18 saat 72 438 %78
DPO 6.8 saat 27.2 165 %74
ORPO 5.6 saat 22.4 136 %73
KTO 7.4 saat 29.6 180 %71
IPO 7.1 saat 28.4 173 %72

Sektörel Use Case ve Kurumsal Uygulamalar

Anthropic’in Claude 3.5 modeli, RLHF ile Constitutional AI prensiplerine göre hizalanmış olup AI safety benchmark’larında lider konumda. Meta Llama 3 70B Instruct varyantı DPO ile eğitildi ve AlpacaEval 2.0 win rate’i %39’a ulaştı. Mistral AI Mixtral 8x22B Instruct, DPO + KTO kombinasyonu kullanıyor. Türkiye’de bankacılık sektörü 2026 itibarıyla 7B-13B Türkçe domain LLM’lerinde ORPO tercih ediyor; SFT ve preference optimization tek pipeline’da birleştiği için Garanti BBVA ve İş Bankası gibi büyük kurumların alignment maliyeti %58 düştü. Sağlık sektöründe Mayo Clinic 2025 yayını, RLHF kullanarak hekim tarafından oluşturulan preference data ile teşhis önerisi doğruluğunu %71’den %88’e taşıdı. Detaylı referanslar için DPO makalesi, ORPO makalesi ve Hugging Face TRL dokümantasyonu incelenmelidir.

RLHF vs DPO vs ORPO 2026: Preference Optimization Production Karşılaştırma — Görsel 3
RLHF vs DPO vs ORPO 2026: Preference Optimization Production Karşılaştırma — Görsel 3

Kurumsal Preference Optimization Dönüşümünde Karşılaşılan Tipik Sorunlar

Danışmanlık projelerinde preference optimization uygulamalarında en sık karşılaştığım pattern, ekiplerin veri kalitesini önemsemeden yöntem tartışmasına girmesidir. Tipik tuzaklar şunlardır.

  • Inter-annotator agreement düşük: IAA 0.72 altında, model gürültülü sinyal öğreniyor, win rate %18 düşüyor.
  • Reference model unutuluyor: DPO’da reference policy KL divergence için kritik, atlandığında reward hacking başlıyor.
  • Beta tuning eksik: Beta=0.1 default tüm domain’lere uymuyor, domain-spesifik 0.05-0.5 grid search şart.
  • Length bias: Modeller uzun cevapları tercih ediyor görünüyor, length-controlled win rate ölçülmüyor.
  • Catastrophic forgetting: Preference optimization sonrası general task performance %12 düşüyor; SFT data replay zorunlu.
  • Eval contamination: Preference data ile eval data karışıyor, reported metric’ler şişiyor.

Sonuç

RLHF, DPO ve ORPO 2026 itibarıyla preference optimization pazarını paylaşan üç ana paradigmadır ve kurumsal tercih veri yapısı, compute bütçesi ve kalite hedefine göre farklılaşır. DPO, training stability ve compute verimliliği açısından en pragmatik tercih olarak öne çıkarken ORPO single-stage pipeline’ı ile en agresif maliyet optimizasyonunu sunar. RLHF hâlâ en yüksek kalite tavanını tutuyor ancak compute maliyeti 2.6 katı. Production deployment’larda preference data kalitesi (IAA > 0.75) yöntem seçiminden önce gelir. Daha fazla bilgi için InstructGPT makalesi incelenebilir. İlgili: Continuous Pretraining Domain Adaptation, Distributed Training PyTorch FSDP.

Sıkça Sorulan Sorular

DPO ve RLHF arasında kalite farkı ne kadar?

AlpacaEval 2.0 ve MT-Bench gibi benchmark’larda DPO ve RLHF win rate farkı genellikle %2-8 aralığındadır; RLHF biraz üstün ancak compute maliyeti 2.6 katı. Anthropic Claude 3.5 gibi en üst düzey kalite hedeflerinde RLHF tercih edilir; pragmatik production deployment’larda DPO yeterli sonuç verir.

ORPO hangi senaryoda DPO’ya tercih edilmeli?

ORPO, küçük preference dataset (5K-30K pair) ve domain-specific fine-tuning senaryolarında DPO’ya tercih edilir. SFT ve preference optimization’ı tek aşamada birleştirmesi, compute %18-26 tasarruf sağlar. Büyük genel-amaçlı modellerde DPO’nun stability’si avantajlıdır.

Preference data ne kadar büyük olmalı?

Genel-amaçlı LLM alignment için 60K-200K preference pair ideal aralıktır. Domain-specific fine-tuning’de 5K-30K pair yeterli olur. Pair sayısından önce inter-annotator agreement (IAA > 0.75) ve veri çeşitliliği önemli; az ama kaliteli pair, çok ama gürültülü pair’den iyi sonuç verir.

RLHF training neden instable?

RLHF’in instability’si PPO algoritmasının reward model değerlerine duyarlılığından kaynaklanır. Reward hacking, reference policy KL divergence’ın çok düşük tutulması ve learning rate’in PPO için yüksek olması temel sebeplerdir. DeepSpeed Chat framework’ü stability için gradient clipping ve entropy bonus kullanır.

KTO hangi durumda kullanılmalı?

KTO (Kahneman-Tversky Optimization), preference pair yerine single label (good/bad/desired) kullanır. Production telemetry’den (thumbs up/down) sürekli veri toplayan iteratif iyileştirme senaryolarında ideal. Veri toplama maliyeti DPO’ya kıyasla %62 düşer.

Ömer ÖNAL

Yazılım Mimarı | Yapay Zeka LLC. Ölçeklenebilir SaaS, .NET Core altyapıları ve Otonom AI süreçleri inşa ediyorum. Kod değil, sistem tasarlarım.

Yorum (1)

  1. Ömer ÖNAL
    Mayıs 23, 2026

    RLHF, DPO ve ORPO seçiminde danışmanlık projelerinde gördüğüm pattern: ekipler veri kalitesini önemsemeden yöntem tartışmasına giriyor. Inter-annotator agreement 0.72 altındaysa hangi yöntemi seçerseniz seçin win rate %18 düşük olacak. Önce annotation guidelines’ı netleştir, sonra 5K pair pilot toplayıp DPO ile başla; RLHF’in compute maliyeti 2.6 katı, marjinal kazanım %5-8.

Yorum Yap

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir