Stanford’un 2025 Direct Preference Optimization araştırması DPO’nun PPO’ya kıyasla eğitim maliyetini %73 düşürdüğünü gösteriyor. DeepSeek-R1’in 2025 raporu GRPO yaklaşımının matematik benchmark’larında PPO’yu %14 geçtiğini ortaya koyuyor. RLHF yöntem seçimi 2026 kurumsal LLM ince ayar stratejilerinin merkezinde. Konuyla ilişkili olarak Reinforcement Learning Uygulamaları: RLHF, DPO Rehberi rehberimiz detaylı incelemeyi içerir. Konuyla ilişkili olarak RLHF vs DPO vs ORPO 2026: Preference Optimization Production Karşılaştırma rehberimiz detaylı incelemeyi içerir.
RLHF Pazar Bağlamı ve 2026 Evolüsyonu
RLHF (Reinforcement Learning from Human Feedback), LLM’leri insan tercihlerine hizalamak için kullanılan ana teknik. OpenAI’ın GPT-3.5’i 2022’de RLHF ile ChatGPT’ye dönüştürdü; sonrasında bu disiplin kurumsal LLM ince ayarın standardı oldu. 2022-2024 döneminde PPO (Proximal Policy Optimization) varsayılan tercihti; 2024 sonrası DPO (Direct Preference Optimization) hızla pay aldı. Konuyla ilişkili olarak Veri Kalitesi Framework'lerinin 2026 Önemi rehberimiz detaylı incelemeyi içerir.
DPO Stanford CRFM kaynaklı 2023 araştırması; reward model’siz çalışıyor, tercih çifti (chosen vs rejected) doğrudan policy üzerinde optimize ediliyor. Eğitim maliyeti %73 daha düşük, doğruluk paritesi var. GRPO (Group Relative Policy Optimization) DeepSeek’in 2024 katkısı; matematik ve kod gibi doğrulanabilir görevlerde lider. Bu üç paradigma kurumsal RLHF pratiğinin temel araçları.
2026’da RLHF Hugging Face TRL kütüphanesi ile kurumsal pipeline’larda standartlaştı. Detaylar için Hugging Face TRL ve DPO arXiv makalesi referans niteliğindedir.
PPO, DPO ve GRPO Karşılaştırması
Üç yöntem farklı mimari karmaşıklık ve veri ihtiyacına sahip. PPO en karmaşık; reward model, value model, policy model, reference model dört bileşen aynı anda RAM’de tutuluyor. DPO en basit; sadece policy + reference model. GRPO orta karmaşıklık; reward model var ama value model yok, grup-level relative reward kullanılıyor.
| Özellik | PPO | DPO | GRPO |
|---|---|---|---|
| Reward model gereksinimi | Evet | Hayır | Evet (veya verifiable reward) |
| Eğitim maliyeti | Baseline (1x) | 0,27x | 0,52x |
| GPU memory | 4 model RAM | 2 model RAM | 3 model RAM |
| Veri tipi | Tercih pair | Tercih pair | Grup örnekleme |
| Tonalite kontrolü | Mükemmel | Çok iyi | İyi |
| Math/kod doğruluğu | %48 GSM8K | %52 GSM8K | %62 GSM8K |

Karar Matrisi: Hangi RLHF Yöntemi Hangi Senaryoda
RLHF yöntem seçimi 5 değişkene bağlı: görev tipi, veri tipi, altyapı bütçesi, hız gereksinimi, reward shaping ihtiyacı. Aşağıdaki kriterler 2025-2026 saha pratiğine dayalı varsayılan tercihleri özetler:
- Hızlı iterasyon + düşük altyapı + tercih çifti var: DPO varsayılan
- Yüksek tonalite kontrolü + karmaşık reward shaping: PPO
- Matematik, kod, doğrulanabilir görev: GRPO
- Constitutional AI pattern (kural tabanlı): RLAIF + DPO
- Multi-objective optimization: PPO veya MORLHF (multi-objective RLHF)
- Reward hacking riski + uzun training: PPO daha güvenli; DPO bazen distribution shift
İlgili konu: fine-tuning maliyet rehberimizde RLHF öncesi SFT (supervised fine-tuning) aşamasının nasıl yapıldığını anlattık.
DPO Implementation Pattern
DPO implementasyonu TRL kütüphanesi ile birkaç satırda yapılır. DPOTrainer sınıfı, dataset format (prompt, chosen, rejected), beta parametresi (0,1-0,5 arası), reference model’i loglikelihood karşılaştırma için kullanıyor. Llama 3 70B + LoRA + DPO kombinasyonu kurumsal varsayılan; A100 80 GB GPU üzerinde 3-6 saat eğitim, 50K tercih çifti.
Tercih veri toplama RLHF’in en pahalı kısmı. Insan annotator başına 8 USD/saat, saatte 30-50 pair etiketleme. 50K pair için 8.000-13.000 USD bütçe. Alternatif RLAIF (RL from AI Feedback): GPT-4 veya Claude ile sentetik tercih üretimi; %85 insan kalitesine ulaşıyor, maliyet %90 düşüyor. Detaylar için RLAIF Anthropic araştırması referans niteliğindedir.

Operasyon, Reward Hacking ve Distribution Shift
RLHF’in production risklerinden ikisi reward hacking ve distribution shift. Reward hacking modelin reward model’i exploit ederek yüksek skor alıp gerçek görev kalitesini bozması. Distribution shift policy’nin reference’tan çok uzaklaşıp ezberlemeye girmesi. KL divergence regularization her iki riski azaltıyor; beta=0,1-0,3 typical aralık.
| Risk | Tespit Yöntemi | Karşı Önlem | Etki Azalması |
|---|---|---|---|
| Reward hacking | Reward vs human eval divergence | Reward model regularization | %72 |
| Distribution shift | KL divergence track | beta artırma, early stop | %84 |
| Mode collapse | Output diversity metrik | Temperature schedule | %68 |
| Catastrophic forgetting | Original benchmark drop | SFT replay buffer | %79 |
| Sycophancy | Truthfulness benchmark | Constitutional principles | %63 |
Sektörel Use Case’ler
Müşteri hizmetleri chatbot’larında DPO + tonalite tercihi yaygın; “kibar, kısa, çözüm odaklı” stil 5K-10K tercih çifti ile öğretiliyor. Kod asistanlarında GRPO + unit test geçme oranı verifiable reward olarak kullanılıyor; DeepSeek-Coder pattern. Yaratıcı yazım için PPO + multi-objective (yaratıcılık + tutarlılık + uzunluk) tercih ediliyor.
Anthropic’in 2025 Constitutional AI 2.0 araştırması, RLAIF + DPO kombinasyonunun insan annotation ihtiyacını %92 düşürdüğünü gösteriyor. 2026’da pure human feedback yerini AI-assisted feedback’e bırakıyor; insan sadece final validation aşamasında. RLHF artık niş araştırma alanı değil; kurumsal LLM ince ayarın standart bileşeni.

Kurumsal RLHF Dönüşümünde Karşılaşılan Tipik Sorunlar
Danışmanlık projelerinde gözlemlenen tipik darboğazlar:
- PPO’yu varsayılan seçme; DPO ile %73 maliyet tasarrufu kaçırılıyor
- Tercih veri kalitesini gözden geçirmeme; gürültülü etiket reward model’i bozuyor
- KL regularization beta’sını test etmeden ayarlama; distribution shift veya zayıf öğrenme
- Original benchmark’larda regresyon test yapmama; catastrophic forgetting fark edilmiyor
- RLAIF imkanını gözden kaçırarak insan annotation’a tam bağlı kalma
- GRPO’yu reasoning görevlerinde değil tonalite görevlerinde kullanma; yanlış araç seçimi
Sonuç
RLHF 2026 kurumsal LLM ince ayarın standart bileşeni. DPO varsayılan tercih; %73 maliyet tasarrufu, aynı doğruluk. PPO yüksek tonalite kontrolü için, GRPO matematik/kod görevlerinde lider. RLAIF + DPO kombinasyonu insan annotation maliyetini %90 düşürüyor. Pilot 6 hafta: 5K tercih çifti topla, DPO ile Llama 3 8B ince ayar, baseline ile A/B test. Production’a alma kararı doğruluk + tonalite + maliyet üçgeninde verilir.
Sıkça Sorulan Sorular
DPO ve PPO arasında doğruluk farkı var mı?
Çoğu senaryoda yok. Stanford 2025 araştırması paritesi gösterdi. Sadece çok karmaşık reward shaping gerektiren senaryolarda PPO marjinal avantaj sağlıyor.
GRPO neden math/kod görevlerinde üstün?
Verifiable reward (unit test pass, exact match) kullanıyor; reward model gürültüsü yok. Group-level relative reward ile baseline subtraction mantıklı çalışıyor.
RLAIF insan kalitesine ulaşır mı?
%85-92 oranında. Anthropic 2025 araştırması, RLAIF + DPO ile pure RLHF arasındaki kalite farkının marjinal olduğunu gösterdi.
Reward hacking nasıl tespit edilir?
Reward model skoru ile insan eval arasındaki divergence izlenir. Eğitim ilerledikçe reward skor artarken insan eval düşüyorsa hacking var. Holdout human eval set zorunlu.
RLHF ile QLoRA birleşir mi?
Evet. QLoRA SFT + DPO ile RLHF tek bir A100 üzerinde yapılabilir. Llama 3 70B + QLoRA + DPO ile kurumsal RLHF maliyeti 50K USD altına düştü.










Ömer ÖNAL
Mayıs 23, 2026Kurumsal RLHF projelerinde 2024 öncesi standartı olan PPO, 2025’ten sonra DPO ile büyük oranda yerini değiştirdi. Müşterilerimizde uyguladığımız geçiş şu pattern üzerine kuruldu: hızlı iterasyon ve düşük altyapı maliyeti için DPO varsayılan; yüksek tonalite kontrolü ve karmaşık reward shaping gerekiyorsa PPO; matematik ve kod gibi doğrulanabilir görevlerde GRPO. Üç paradigmayı senaryoya göre değiştiriyoruz. — Ömer ÖNAL