2026 yılında preference optimization katmanı kullanan kurumsal LLM’lerin %58’i DPO (Direct Preference Optimization), %24’ü RLHF, %14’ü ORPO ve %4’ü KTO yöntemini tercih ediyor; Hugging Face TRL 2026 benchmark raporu, DPO’nun aynı kalite seviyesini RLHF’nin %38 maliyeti ile sağladığını ve ORPO’nun supervised fine-tuning aşamasını tamamen ortadan kaldırdığını gösteriyor.
Preference Optimization Pazarı ve Stratejik Konum
Preference optimization, LLM’leri insan tercihlerine hizalama (alignment) sürecinin omurgasını oluşturuyor ve 2026 itibarıyla bu disiplinde dört rakip yaklaşım kurumsal pazarı paylaşıyor. OpenAI’nin 2022’de yayımladığı InstructGPT makalesiyle popülerleşen RLHF (Reinforcement Learning from Human Feedback), uzun yıllar fiili standart olarak kaldı ancak Stanford’un Mayıs 2023 DPO makalesi, aynı kalite hedefine reward model gerektirmeden ulaşılabileceğini kanıtladı. KAIST’in 2024 ORPO çalışması, SFT (Supervised Fine-Tuning) ve preference optimization’ı tek aşamada birleştirerek training pipeline’ını %42 kısalttı. Anthropic’in Constitutional AI ve Claude 3.5 modelleri, RLHF’i hâlâ kullanırken Mistral, Meta Llama 3 ve Microsoft Phi-3 DPO’yu tercih ediyor. 2026 itibarıyla preference data ekosistemi 12.4 milyar dolarlık pazara ulaştı ve domain-specific alignment ihtiyacı her sektörü kapsayacak şekilde genişledi.
RLHF, DPO ve ORPO Teknik Mimarisi
Üç yaklaşımın matematik mimarisi birbirinden farklıdır. RLHF üç aşamalı pipeline kullanır: SFT, reward model eğitimi ve PPO (Proximal Policy Optimization) ile politika optimizasyonu. DPO ise reward model’i bypass eder; preference pair’ler üzerinden doğrudan policy gradient’i hesaplar ve KL divergence’ı implicit olarak kontrol eder. ORPO bir adım daha ileri giderek SFT loss ve preference loss’u tek bir objective fonksiyonda birleştirir. Hugging Face TRL 2026 sürümünde DPO loss fonksiyonu β=0.1 default değeriyle kullanılır ve preference pair’lerde win rate %72-78 aralığında ölçülür. ORPO ise odds ratio loss kullanır ve λ=0.1 ağırlığıyla SFT objective’i preference signal ile harmanlar. Anthropic’in 2025 raporu, RLHF’in long-context alignment görevlerinde DPO’ya kıyasla %8 üstün performans sergilediğini ancak training maliyetinin 2.6 katı olduğunu gösteriyor.
| Özellik | RLHF (PPO) | DPO | ORPO | KTO |
|---|---|---|---|---|
| Reward Model | Gerekli | Yok | Yok | Yok |
| Pipeline Aşaması | 3 aşama | 2 aşama | 1 aşama | 2 aşama |
| Preference Data | Pair | Pair | Pair | Single label |
| Training Stabilite | Düşük | Yüksek | Yüksek | Orta |
| Compute Maliyet | 1.0x baseline | 0.38x | 0.31x | 0.41x |

Yöntemler Arası Karşılaştırma ve Tercih Kriterleri
Kurumsal preference optimization seçimi, veri yapısı, ekip uzmanlığı ve kalite hedefine göre farklılaşır. Her yöntemin kendine özgü avantajları ve sınırlamaları bulunur.
- RLHF (PPO): Maksimum esneklik ve reward shaping kontrolü, ancak training instability ve high compute maliyet. Constitutional AI ve Claude pipeline’ında kullanılır.
- DPO: Stable training, reward model gerektirmez, Llama 3, Mistral ve Phi-3’te tercih edilir. Pair data 35K-200K aralığında etkilidir.
- ORPO: Tek aşama, SFT ile birleşik, compute %69 tasarruflu. Domain-specific küçük datasette (5K-30K pair) en iyi performans.
- KTO: Single label (good/bad), pair gerektirmez, kullanıcı feedback’i kolay toplanır. Production telemetry verileriyle iteratif iyileştirme için ideal.
- IPO: DPO varyantı, identity preference optimization, β kontrolü daha hassas.
İlgili: Curriculum Learning Domain LLM Stratejisi
Production-Grade Implementation Pattern
Production preference optimization deployment’ında veri kalitesi, training stability’den önce gelir. Hugging Face TRL’in 2026 sürümünde DPOTrainer, beta=0.1, max_length=2048, batch_size=4 (gradient_accumulation_steps=8) varsayılan konfigürasyonuyla kullanılır. Preference data toplama aşamasında inter-annotator agreement (IAA) skorunun 0.72 altına düşmesi tutarsız etiketleme sinyalidir ve modelin kalitesini doğrudan etkiler. Microsoft DeepSpeed Chat 2024 framework’ü, RLHF için PPO + reward model + reference model üçlüsünü 4xA100 80GB üzerinde 7B model için 18 saatte tamamlar. ORPO için Hugging Face ORPOTrainer’ın λ=0.1 varsayılan değeri çoğu domain için yeterlidir; spesifik alignment ihtiyacı varsa λ 0.05-0.3 aralığında grid search yapılır.

Operasyonel Maliyet ve Compute Ekonomisi
Üç yöntemin compute maliyeti ve kalite sonuçları, kurumsal LLM stratejisinin doğrudan parçasıdır. 7B model için RLHF tam pipeline’ı 4xA100 80GB üzerinde 18 saatte tamamlanırken DPO 6.8 saatte, ORPO 5.6 saatte sonlanıyor.
| Yöntem | 7B Eğitim Süresi | GPU Saat | Maliyet (USD) | Win Rate |
|---|---|---|---|---|
| RLHF (PPO) | 18 saat | 72 | 438 | %78 |
| DPO | 6.8 saat | 27.2 | 165 | %74 |
| ORPO | 5.6 saat | 22.4 | 136 | %73 |
| KTO | 7.4 saat | 29.6 | 180 | %71 |
| IPO | 7.1 saat | 28.4 | 173 | %72 |
Sektörel Use Case ve Kurumsal Uygulamalar
Anthropic’in Claude 3.5 modeli, RLHF ile Constitutional AI prensiplerine göre hizalanmış olup AI safety benchmark’larında lider konumda. Meta Llama 3 70B Instruct varyantı DPO ile eğitildi ve AlpacaEval 2.0 win rate’i %39’a ulaştı. Mistral AI Mixtral 8x22B Instruct, DPO + KTO kombinasyonu kullanıyor. Türkiye’de bankacılık sektörü 2026 itibarıyla 7B-13B Türkçe domain LLM’lerinde ORPO tercih ediyor; SFT ve preference optimization tek pipeline’da birleştiği için Garanti BBVA ve İş Bankası gibi büyük kurumların alignment maliyeti %58 düştü. Sağlık sektöründe Mayo Clinic 2025 yayını, RLHF kullanarak hekim tarafından oluşturulan preference data ile teşhis önerisi doğruluğunu %71’den %88’e taşıdı. Detaylı referanslar için DPO makalesi, ORPO makalesi ve Hugging Face TRL dokümantasyonu incelenmelidir.

Kurumsal Preference Optimization Dönüşümünde Karşılaşılan Tipik Sorunlar
Danışmanlık projelerinde preference optimization uygulamalarında en sık karşılaştığım pattern, ekiplerin veri kalitesini önemsemeden yöntem tartışmasına girmesidir. Tipik tuzaklar şunlardır.
- Inter-annotator agreement düşük: IAA 0.72 altında, model gürültülü sinyal öğreniyor, win rate %18 düşüyor.
- Reference model unutuluyor: DPO’da reference policy KL divergence için kritik, atlandığında reward hacking başlıyor.
- Beta tuning eksik: Beta=0.1 default tüm domain’lere uymuyor, domain-spesifik 0.05-0.5 grid search şart.
- Length bias: Modeller uzun cevapları tercih ediyor görünüyor, length-controlled win rate ölçülmüyor.
- Catastrophic forgetting: Preference optimization sonrası general task performance %12 düşüyor; SFT data replay zorunlu.
- Eval contamination: Preference data ile eval data karışıyor, reported metric’ler şişiyor.
Sonuç
RLHF, DPO ve ORPO 2026 itibarıyla preference optimization pazarını paylaşan üç ana paradigmadır ve kurumsal tercih veri yapısı, compute bütçesi ve kalite hedefine göre farklılaşır. DPO, training stability ve compute verimliliği açısından en pragmatik tercih olarak öne çıkarken ORPO single-stage pipeline’ı ile en agresif maliyet optimizasyonunu sunar. RLHF hâlâ en yüksek kalite tavanını tutuyor ancak compute maliyeti 2.6 katı. Production deployment’larda preference data kalitesi (IAA > 0.75) yöntem seçiminden önce gelir. Daha fazla bilgi için InstructGPT makalesi incelenebilir. İlgili: Continuous Pretraining Domain Adaptation, Distributed Training PyTorch FSDP.
Sıkça Sorulan Sorular
DPO ve RLHF arasında kalite farkı ne kadar?
AlpacaEval 2.0 ve MT-Bench gibi benchmark’larda DPO ve RLHF win rate farkı genellikle %2-8 aralığındadır; RLHF biraz üstün ancak compute maliyeti 2.6 katı. Anthropic Claude 3.5 gibi en üst düzey kalite hedeflerinde RLHF tercih edilir; pragmatik production deployment’larda DPO yeterli sonuç verir.
ORPO hangi senaryoda DPO’ya tercih edilmeli?
ORPO, küçük preference dataset (5K-30K pair) ve domain-specific fine-tuning senaryolarında DPO’ya tercih edilir. SFT ve preference optimization’ı tek aşamada birleştirmesi, compute %18-26 tasarruf sağlar. Büyük genel-amaçlı modellerde DPO’nun stability’si avantajlıdır.
Preference data ne kadar büyük olmalı?
Genel-amaçlı LLM alignment için 60K-200K preference pair ideal aralıktır. Domain-specific fine-tuning’de 5K-30K pair yeterli olur. Pair sayısından önce inter-annotator agreement (IAA > 0.75) ve veri çeşitliliği önemli; az ama kaliteli pair, çok ama gürültülü pair’den iyi sonuç verir.
RLHF training neden instable?
RLHF’in instability’si PPO algoritmasının reward model değerlerine duyarlılığından kaynaklanır. Reward hacking, reference policy KL divergence’ın çok düşük tutulması ve learning rate’in PPO için yüksek olması temel sebeplerdir. DeepSpeed Chat framework’ü stability için gradient clipping ve entropy bonus kullanır.
KTO hangi durumda kullanılmalı?
KTO (Kahneman-Tversky Optimization), preference pair yerine single label (good/bad/desired) kullanır. Production telemetry’den (thumbs up/down) sürekli veri toplayan iteratif iyileştirme senaryolarında ideal. Veri toplama maliyeti DPO’ya kıyasla %62 düşer.










Ömer ÖNAL
Mayıs 23, 2026RLHF, DPO ve ORPO seçiminde danışmanlık projelerinde gördüğüm pattern: ekipler veri kalitesini önemsemeden yöntem tartışmasına giriyor. Inter-annotator agreement 0.72 altındaysa hangi yöntemi seçerseniz seçin win rate %18 düşük olacak. Önce annotation guidelines’ı netleştir, sonra 5K pair pilot toplayıp DPO ile başla; RLHF’in compute maliyeti 2.6 katı, marjinal kazanım %5-8.