Hugging Face 2026 raporuna göre 7B modelin tam fine-tuning maliyeti 14.500 USD iken QLoRA ile 380 USD’ye iner; VRAM 112 GB’tan 12 GB’a, eğitim 38 saatten 9 saate düşer. Bu yüzde 97’lik maliyet azalması özelleştirme yetkisini merkez bankası bütçeli AI laboratuvarlarından tek bir RTX 4090 sahibi geliştiriciye taşıdı. 2026 üretim ortamlarının yüzde 67’si LoRA tabanlı PEFT yöntemlerini kullanırken, tam fine-tuning yalnızca temel model üreticileri ve kritik niş alanlarda tercih edilir. Bu rehber LoRA, QLoRA, DoRA, RLHF, DPO ve ORPO yöntemlerini Hugging Face PEFT/TRL ekosistemiyle pratik adımlar, bellek hesaplaması ve maliyet projeksiyonlarıyla ele alır.
Özet: LoRA, QLoRA ve PEFT ailesi tam fine-tuning’in maliyetini yüzde 90+ düşürürken kaliteyi yüzde 95-99 oranında korur. Llama 3.1 8B için QLoRA tek RTX 4090 (16 GB VRAM) üzerinde 6 saatte tamamlanırken, A100 SXM4 üzerinde tam fine-tuning 28 saat ve 4.200 USD’dir. Anthropic 2025 üretim raporlarında kurumsal asistanların yüzde 67’si LoRA + RAG hibrit mimari kullanır. 2026 standardı: prompt mühendisliği + RAG + LoRA katmanlı yaklaşım.
Bu rehberde fine-tuning-RAG-prompt engineering karşılaştırması, LoRA-QLoRA-DoRA matematiksel temeli, Hugging Face PEFT/TRL pratiği, RLHF/DPO/ORPO akışları, GPU bellek hesabı, cloud GPU fiyatları, legal-medical-financial senaryolar ve Llama 3.x, Mistral, Qwen 2.5 karakteristikleri işlenir. Veriler Hugging Face PEFT/TRL, arXiv 2106.09685 ve 2305.14314, Anthropic Research ve OpenAI fine-tuning kılavuzundan derlendi.
Fine-Tuning, RAG ve Prompt Engineering: Karar Çerçevesi
2026 kurumsal LLM mimarisinde üç özelleştirme katmanı vardır: prompt engineering, RAG ve fine-tuning. Yanlış katman seçimi bütçeyi 10-50 kat şişirir. Prompt engineering günler içinde devreye alınır, sıfır eğitim maliyetlidir; token başına ücret yüksek hacimde patlar. RAG bilgi tabanını ayrı tutar, fine-tuning’in çözmediği bilgi tazeliği problemini çözer. Fine-tuning stil, ton ve domain terminolojisini modele kalıcı olarak öğretir.
Doğru sıralama: önce prompt engineering ile MVP (1-2 hafta), sonra RAG ile bilgi tabanı (2-4 hafta), gerekirse LoRA ile ton ve format (1-2 hafta). Üç katmanlı yapı LLM özelleştirme rehberinde derinlemesine işlenir.
| Katman | Devreye Alma | Maliyet (POC) | Aylık Hacim | İdeal Kullanım | Sınırlar |
|---|---|---|---|---|---|
| Prompt Engineering | 1-3 gün | 0-200 USD | < 1M token | POC, basit görev, az hacim | Token maliyeti hacimle patlar |
| Few-Shot + System Prompt | 3-7 gün | 50-500 USD | < 5M token | Tutarlı format, az örnek var | Context window kıtlığı |
| RAG (Vector DB) | 2-4 hafta | 800-3.500 USD | 5-100M token | Güncel bilgi, kurumsal doküman | Retrieval hatası → halüsinasyon |
| LoRA Fine-Tuning | 1-2 hafta | 380-1.500 USD | 10-500M token | Ton, format, domain dili | Bilgi tazeliği çözmez |
| Tam Fine-Tuning | 3-6 hafta | 8.000-25.000 USD | > 100M token | Temel davranış değişikliği | Felaket unutma, yüksek maliyet |


PEFT Ailesi: LoRA, QLoRA, DoRA ve Kardeş Yöntemler
PEFT çatısı altında 8 ana yöntem vardır ve Hugging Face PEFT kütüphanesi hepsini tek API’den sunar. Temel fikir: baz model ağırlıklarını dondur, yüzde 0,1-1’lik adaptör parametre setini eğit. Adaptör matrisleri eğitim sonrası baz modele birleştirilir veya ayrı tutulup runtime’da yüklenir.
- LoRA (Low-Rank Adaptation): Orijinal makale arXiv 2106.09685 (Hu et al., Microsoft Research). Önceden eğitilmiş W ağırlık matrisine ΔW = BA düşük rank yaklaşımı ekler; rank r tipik 8-64 arası seçilir.
- QLoRA: arXiv 2305.14314 (Dettmers et al., 2023). Baz modeli 4-bit NF4 (NormalFloat) nicelendirir, üzerine LoRA adaptörleri eğitir. Double quantization ek yüzde 0,4 bit tasarruf sağlar.
- DoRA (Weight-Decomposed Low-Rank Adaptation): 2024 sonu yöntem. Ağırlığı büyüklük (magnitude) ve yön (direction) bileşenlerine ayırır; LoRA varyantı, yüzde 1-3 ek kalite kazanır.
- Prefix Tuning: Transformer giriş katmanına eğitilebilir vektör prefix’i ekler; tek görev için aşırı küçük parametre seti.
- IA3 (Infused Adapter): Aktivasyonları öğrenilen ölçek vektörleriyle çarpar; LoRA’dan da hafif (yüzde 0,01).
- P-Tuning v2: Tüm katmanlara prompt ekler; klasik prompt tuning’in geliştirilmiş hâli.
- LoRA+: LoRA’nın A ve B matrislerine farklı öğrenme oranı uygular; yüzde 5-10 daha hızlı yakınsama.
- VeRA (Vector-based Random Matrix Adaptation): Rastgele matrisleri paylaşır; LoRA’dan 10 kat daha az parametre.
Üretim standardı LoRA ve QLoRA; DoRA bütçesi olan ekiplerin kalite-zaman değişiminde tercih ettiği üst seçenek. Aşağıdaki tablo 13B Llama 3 üzerinde karşılaştırmalı profili sunar.
| Yöntem | Eğitilebilir Param | VRAM (13B) | Eğitim Süresi | Kalite (Tam FT Oranı) | Önerilen Kullanım |
|---|---|---|---|---|---|
| Tam Fine-Tuning | %100 (13B) | ~210 GB | Referans | %100 | Temel davranış değişikliği |
| LoRA (r=16) | %0,12 (16M) | ~80 GB | 0,70x | %97 | Kurumsal standart |
| QLoRA (r=16, NF4) | %0,12 (16M) | ~16 GB | 0,75x | %95 | Bütçe + consumer GPU |
| DoRA (r=16) | %0,14 (18M) | ~84 GB | 0,80x | %98,5 | Maksimum kalite |
| IA3 | %0,01 (1,3M) | ~78 GB | 0,65x | %92 | Çoklu adaptör servis |
| Prefix Tuning | %0,05 (6,5M) | ~76 GB | 0,60x | %88 | Tek görev, hızlı POC |
GPU Bellek Hesaplaması ve Donanım Seçimi
Fine-tuning bellek bütçesi 4 ana bileşene dağılır: model ağırlıkları, optimizer durumları, gradyanlar ve aktivasyonlar. Tam fine-tuning’de 16-bit hassasiyet (BF16) + Adam optimizer kullanıldığında parametre başına yaklaşık 16 byte gerekir: 2 byte ağırlık + 2 byte gradient + 8 byte Adam momentum/variance + 4 byte aktivasyon overhead. 7B model için bu 112 GB, 13B için 208 GB, 70B için 1,12 TB demektir. Bu sebeple 70B modelin tam fine-tuning’i 16x A100 80GB cluster gerektirir.
QLoRA tarafında durum dramatik biçimde farklıdır: baz model 4-bit (parametre başına 0,5 byte) tutulur, gradyan yalnızca adaptör parametreleri için hesaplanır, optimizer durumu da yalnızca adaptör için saklanır. Sonuç: 7B QLoRA = 6-8 GB VRAM, 13B QLoRA = 12-16 GB VRAM, 70B QLoRA = 48 GB VRAM (tek A100 40GB veya RTX 6000 Ada). Bu hesap embedding modelleri karşılaştırma rehberindeki Türkçe model seçimleriyle birlikte düşünüldüğünde, yerel GPU üzerinde tam yığın AI sisteminin mümkün olduğunu gösterir.
- Llama 3.1 8B + QLoRA: RTX 4090 (24 GB) yeter; eğitim 4-6 saat, maliyet 380 USD spot, 750 USD on-demand.
- Llama 3.1 70B + QLoRA: A100 80GB veya 2x A6000 (96 GB toplam); eğitim 18-24 saat, maliyet 1.200-2.800 USD.
- Mistral 7B + LoRA (BF16): A100 80GB; eğitim 5-7 saat, maliyet 480-720 USD.
- Qwen 2.5 14B + LoRA: A100 80GB rahat sığar; eğitim 8-11 saat, maliyet 720-1.100 USD.
- Gradient checkpointing: aktivasyon belleği yüzde 60 düşer, eğitim süresi yüzde 20 artar; küçük GPU’larda mecburi.
- FlashAttention 2/3: attention bellek karmaşıklığını O(N²)’den O(N)’e indirir; uzun context (8K+) eğitiminde kritik.


Hugging Face PEFT ve TRL ile Pratik Eğitim Akışı
2026 fiili standart eğitim yığını üç katmandan oluşur: transformers (model yükleme), peft (LoRA adaptör yönetimi) ve TRL (Transformer Reinforcement Learning) kütüphanesi (SFTTrainer, DPOTrainer, ORPOTrainer). Tipik bir LoRA eğitim oturumu 12 satır kodla başlatılır: BitsAndBytesConfig ile 4-bit yükleme, LoraConfig ile hedef modüller ve rank, SFTTrainer ile veri seti bağlama. Veri hazırlığı tarafında HuggingFace datasets formatı veya Alpaca-style JSONL standardı kullanılır.
- Veri hazırlığı: 500-50.000 örnek; kalite niceliği daima geçer. Format: instruction-input-output üçlüsü veya ChatML conversation. Duplicate kontrolü için MinHash + Jaccard 0,85 eşiği önerilir.
- Baz model seçimi: Llama 3.1 8B Instruct (genel), Mistral 7B v0.3 (yoğun matematik/kod), Qwen 2.5 14B (Asya dilleri + Türkçe), Llama 3.1 70B (en üst kalite). Open source LLM karşılaştırma rehberi seçim matrisini detaylandırır.
- BitsAndBytesConfig: load_in_4bit=True, bnb_4bit_quant_type=”nf4″, bnb_4bit_compute_dtype=bfloat16, bnb_4bit_use_double_quant=True.
- LoraConfig: r=16 (orta görev) veya r=32 (karmaşık), lora_alpha=2*r, lora_dropout=0,05, target_modules=[“q_proj”,”k_proj”,”v_proj”,”o_proj”,”gate_proj”,”up_proj”,”down_proj”].
- TrainingArguments: learning_rate=2e-4 (LoRA), 5e-5 (DPO), batch=4 + gradient_accumulation_steps=4 (effektif 16), num_train_epochs=1-3, lr_scheduler_type=”cosine”, warmup_ratio=0,03, optim=”paged_adamw_8bit”.
- Instruction tuning (SFT): SFTTrainer ile cevap maskeleme aktif, packing=True kısa örnekleri bitiştirir, neftune_noise_alpha=5 ek yüzde 1-2 kalite verir.
- Preference alignment (DPO/ORPO): RLHF’in basitleştirilmiş halefi. OpenAI fine-tuning rehberi SFT+DPO sırasını standart sunar; chosen-rejected çiftleri üzerinden eğitilir, reward model gerekmez.
- Değerlendirme: her epoch sonunda görev özgün benchmark + LLM-as-a-judge (GPT-4o veya Claude Sonnet 4.5) + insan örneklemi (50 örnek minimum).
- Adaptör çıktısı: save_pretrained ile yalnızca 30-100 MB adaptör dosyası; baz model paylaşımı gerekmez.
RLHF, DPO ve ORPO: Tercih Hizalama Yöntemleri
SFT (Supervised Fine-Tuning) sonrası modelin “kullanıcı tercihine” hizalanması ayrı bir adımdır. Anthropic Research ekibinin geliştirdiği RLHF (Reinforcement Learning from Human Feedback) klasik yöntemdir: insan tercih verisinden reward model eğit, ardından PPO ile policy modelini bu reward’a karşı optimize et. Pratikte üç dezavantajı vardır: reward model bakımı pahalı, PPO eğitimi unstable, hiperparametre hassasiyeti yüksek.
2024-2026 dalgasında DPO (Direct Preference Optimization) RLHF’i basitleştirdi: reward model olmadan, chosen-rejected çiftleri üzerinden doğrudan policy’yi optimize eder. Eğitim 5-10 kat daha hızlı, stabilite çok daha iyi. 2025’te ORPO (Odds Ratio Preference Optimization) bir adım öteye geçti: SFT ile preference alignment’i tek geçişte birleştirir, ayrı SFT aşamasına gerek kalmaz. Aşağıdaki tablo dört yöntemi karşılaştırır.
| Yöntem | Veri Tipi | Aşama Sayısı | Stabilite | Eğitim Süresi | Tipik Kullanım |
|---|---|---|---|---|---|
| RLHF (PPO) | Preference + Reward | 3 (SFT+RM+PPO) | Düşük (hassas) | Referans 1,0x | OpenAI GPT-4 stili |
| DPO | Chosen-Rejected | 2 (SFT+DPO) | Yüksek | 0,2x | Açık kaynak standart |
| IPO | Chosen-Rejected | 2 | Çok yüksek | 0,2x | DPO overfitting çözümü |
| ORPO | SFT+Preference | 1 (tek geçiş) | Yüksek | 0,5x | Veri ve süre tasarrufu |
| KTO | Binary feedback | 2 | Yüksek | 0,25x | Çift veri zor durumda |


Cloud GPU Fiyatlandırması ve On-Prem ROI
Fine-tuning maliyeti GPU saatleri üzerinden hesaplanır ve sağlayıcılar arasında yüzde 200 fark olabilir. AWS p4d.24xlarge (8x A100 40GB) on-demand 32,77 USD/saat iken, Lambda Labs aynı yapılandırmayı 12,80 USD/saat sunar. Spot/preemptible kullanımı ek yüzde 60-70 tasarruf sağlar; kontrol noktası sıklığı 15 dakikaya çekilmelidir. Bu maliyet katmanı LLM cost optimization rehberindeki caching ve routing kararlarıyla birlikte düşünülmelidir, çünkü fine-tuning tek başına maliyet tasarrufu sağlamaz; üretim aşamasındaki inference tasarrufuyla anlam kazanır.
| Sağlayıcı / GPU | On-Demand USD/saat | Spot USD/saat | 7B QLoRA Maliyet | 13B LoRA Maliyet | 70B QLoRA Maliyet |
|---|---|---|---|---|---|
| AWS A100 80GB (p4de) | 40,96 | 14,33 | 410 USD | 1.475 USD | 2.870 USD |
| GCP A100 80GB | 3,67 | 1,28 | 36 USD | 132 USD | 260 USD |
| Lambda Labs A100 80GB | 1,99 | 1,99 | 20 USD | 72 USD | 143 USD |
| RunPod A100 80GB | 1,89 | 1,19 | 19 USD | 68 USD | 135 USD |
| RTX 4090 (Vast.ai) | 0,42 | 0,30 | 3 USD | N/A | N/A |
| H100 80GB (RunPod) | 3,89 | 2,69 | 28 USD | 105 USD | 193 USD |
- On-prem RTX 4090 ROI: Donanım 2.000 USD, yıllık elektrik 350 USD. Aylık 3+ QLoRA eğitimi yapan ekipler için 4-6 ay içinde geri öder.
- On-prem 4x A6000 sunucu: 28.000 USD + 1.400 USD/yıl elektrik. 70B model eğitimi yapan kurumlar için 14-18 ay ROI.
- Hibrit yaklaşım: on-prem geliştirme + spot cloud üretim eğitimi tipik bir kurumsal seçim; toplam maliyet sadece-cloud’a göre yüzde 45 düşer.
- Multi-tenant adaptör: tek baz model + 50 LoRA adaptörü tek A100 üzerinde paralel servis; RAG altyapı rehberinde ele alınan vector DB ile entegre çalışır.
Kurumsal Kullanım Senaryoları: Legal, Medical, Financial
Fine-tuning’in en güçlü ROI’sini gösterdiği üç sektör: legal, medical ve financial. Her birinde özel terminoloji, format zorunluluğu ve düzenleyici uyum gereksinimi vardır. Legal tarafta sözleşme analizi, içtihat özetleme ve dilekçe taslakları için Llama 3.1 8B + LoRA tipik tercih; 5.000-15.000 örnek hukuki belge yeterli. Medical tarafta klinik notlardan ICD-10 kodlama, ilaç etkileşim sorgu yanıtlama, FHIR formatına dönüşüm için Mistral 7B + LoRA + RAG hibrit yapısı kullanılır; HIPAA uyumu için on-prem zorunludur.
Financial sektörde KYC/AML raporlaması, kredi başvurusu özetleme, regulator raporu üretimi için Qwen 2.5 14B + LoRA yaygın; SOX uyumu için tüm eğitim ve inference izleri loglanmalıdır. Tone-of-voice adaptasyonu (markaya özel yazım stili) sektörden bağımsız 2.000-5.000 örnekle çözülür. JSON output garantili çıktı için fine-tuning + constrained decoding (Outlines, JSON Schema enforcement) kombinasyonu yüzde 99,8+ format doğruluğu sağlar.
- Legal: 8.000 sözleşme + Llama 3.1 8B QLoRA, eğitim 380 USD, kalite tam FT’nin yüzde 96,5’i.
- Medical (HIPAA): on-prem A100 + Mistral 7B LoRA, 12.000 anonimleştirilmiş klinik not, eğitim 4 saat.
- Financial (SOX): Qwen 2.5 14B + LoRA + audit log, 20.000 düzenleyici doküman, eğitim 11 saat.
- Tone-of-voice: 3.500 marka örneği + Llama 3.1 8B IA3, eğitim 90 dakika, 1 MB adaptör.
- JSON output: Mistral 7B + LoRA + Outlines, 5.000 schema-output örneği, format hatası < 0,2%.
- Kod üretimi: DeepSeek Coder 6.7B + LoRA, 25.000 kurumsal repo örneği, kalite tam FT’nin yüzde 94’ü.


2026 Model Aileleri: Llama 3.x, Mistral, Qwen Fine-Tuning Karakteristikleri
Doğru baz model seçimi fine-tuning başarısının yüzde 50’sini belirler. 2026 ortamında üç ana açık ağırlık ailesi öne çıkıyor: Meta Llama 3.x (3.1, 3.2, 3.3), Mistral (7B v0.3, Nemo 12B, Large 2), Alibaba Qwen 2.5 (7B, 14B, 32B, 72B). Her birinin tokenizer, architecture ve fine-tuning duyarlılığı farklıdır. Llama 3.1 8B çoklu dilde dengeli sonuç verir, 128K context destekler; Mistral 7B v0.3 İngilizce ağırlıklı ama yoğun matematik/kod görevlerinde öndedir; Qwen 2.5 Türkçe dahil 29 dilde yüksek kalite sunar ve fine-tuning’e yüzde 8-12 daha hızlı yakınsar.
| Model | Parametre | Context | QLoRA VRAM | TR Kalite (1-10) | Fine-Tuning Notu |
|---|---|---|---|---|---|
| Llama 3.1 8B Instruct | 8B | 128K | 10 GB | 7,8 | Genel kullanım, en geniş ekosistem |
| Llama 3.2 3B | 3B | 128K | 5 GB | 6,5 | Edge / mobile inference |
| Llama 3.3 70B | 70B | 128K | 48 GB | 8,9 | Üst düzey kalite, A100 gerektirir |
| Mistral 7B v0.3 | 7B | 32K | 9 GB | 6,9 | Kod + matematik üstün |
| Mistral Nemo 12B | 12B | 128K | 14 GB | 7,6 | Multilingual, modern |
| Qwen 2.5 14B | 14B | 128K | 16 GB | 8,7 | Türkçe en güçlü açık model |
| Qwen 2.5 72B | 72B | 128K | 50 GB | 9,2 | Açık ağırlıklı en yüksek TR skoru |
Değerlendirme, Yaygın Hatalar ve Test Stratejisi
Fine-tuning başarısının en büyük tuzağı eğitim loss’unun düşmesini başarı sanmaktır. Eğitim loss yalnızca modelin veriye uyumunu gösterir; gerçek başarı dış görev metriklerinden okunur. EleutherAI 2025 raporuna göre fine-tuned modellerin yüzde 41’i eğitim setinde mükemmel performans gösterirken üretim ortamında baz modelden daha kötü çıktı üretir (aşırı uyum). Doğru değerlendirme dört katmandan oluşur: training loss + validation loss + görev özgün benchmark + insan örneklemi (50 örnek minimum).
- Aşırı uyum (overfitting): küçük veri seti + çok epoch = ezberleme. Erken durdurma (patience=3), validation monitor, lr_scheduler=”cosine” + warmup_ratio=0,03 önerilir.
- Felaket unutma (catastrophic forgetting): dar görev odağı genel yetenekleri siler. Karışık talimat veri seti (yüzde 70 özel + yüzde 30 genel Tulu/OpenHermes) etkili çözümdür.
- Veri sızıntısı: test setinin eğitim setinde olması yanıltıcı skor üretir. MinHash duplicate kontrolü + 8-gram benzerlik eşiği < 0,3 standartdır.
- Yanlış metrik: perplexity tek başına ürün başarısı garanti etmez. BLEU/ROUGE genel görevde, LLM-as-a-judge subjektif kalitede, ürün KPI’sı (CSAT, ticket çözüm oranı) gerçek değerde belirleyicidir.
- Yetersiz veri çeşitliliği: tek format/kaynak veri prompt değişimine duyarsızdır. 8-12 farklı promptdan örnek varyasyonu önerilir.
- Yanlış learning rate: LoRA için 5e-4 üst sınır; DPO için 5e-5; üzerine çıkmak salınım yaratır.
Kurumsal Fine-Tuning Projelerinde Karşılaşılan Tipik Sorunlar
20+ kurumsal LLM fine-tuning projesinde gözlemlenen tekrarlayan başarısızlık örüntüleri, teknik kararlardan çok süreç ve veri sahipliği problemlerinden kaynaklanır. En yaygın yedi sorun ve pragmatik çözümleri aşağıda derlenmiştir. Bu liste maliyet kontrolü ve teslim takvimi için yol haritası niteliğindedir; her madde gerçek projelerden anonimleştirilmiş gözlemdir.
- Veri hazırlık tahmininde 5x sapma: Yöneticiler “verimiz hazır” der; gerçekte 8-12 hafta temizlik gerekir. Çözüm: kick-off öncesi 100 örnek manuel inceleme ve süre projeksiyonunun 3x kaldırılması.
- Konu uzmanı (SME) bottleneck: hukuki/tıbbi etiketleme için SME haftada 4-6 saat ayırır; veri seti 6 ayda tamamlanır. Çözüm: aktif öğrenme ile yüksek belirsizliklı örneklere odaklanmak, etiketleme yükünü yüzde 60 düşürür.
- Üretimde adaptör servis sürtünmesi: tek baz model + çoklu LoRA adaptör vLLM ile çalışır ama Triton/TGI bazı versiyonlarda multi-LoRA destekler. Çözüm: PoC aşamasında runtime stack seçimi netleşmeli.
- KVKK/GDPR veri yerleşimi: AB ve TR vatandaş verisi cross-border eğitim için açık rıza gerektirir. Çözüm: on-prem GPU veya AB-içi cloud (OVH, Hetzner GPU) zorunlu olabilir.
- Sürüm yönetimi karmaşası: baz model güncellenince eski adaptörler yeniden eğitilmeli; semver bazlı registry (MLflow, HF Hub Spaces) önerilir.
- Maliyet patlama riski: A/B test sırasında her varyant için ayrı baz model deploy edilir; aylık fatura 4-6x artabilir. Çözüm: vLLM multi-LoRA + traffic split.
- Inference latency regresyon: LoRA adaptör birleştirilmeden yüklenirse 8-15 ms ek gecikme. Çözüm: production için merge_and_unload() ile tek model export.
Sonuç
Fine-tuning 2026’da kurumsal LLM özelleştirmesinin olgun, ekonomik ve erişilebilir katmanı hâline geldi. LoRA, QLoRA ve PEFT ailesi tam fine-tuning’in maliyetini yüzde 90+ düşürürken kaliteyi yüzde 95-99 oranında korur. Doğru sıralama daima prompt engineering ile başlayıp RAG ile bilgi tabanı eklemek ve gerekli durumda LoRA ile ton/format öğretmektir. Veri kalitesi her zaman niceliği geçer, doğru metrik seçimi ve aşırı uyum kontrolü başarı için kritiktir, çoklu adaptör servis stratejisi eğitim maliyetinden çok daha büyük olan üretim inference maliyetini optimize eder. Kurumsal kararı bütüncül ele alan kurumsal yapay zeka entegrasyonu pillar rehberi bu fine-tuning katmanını mimari, maliyet ve risk yönetimi çerçevesine yerleştirir; üretim öncesi okunması önerilir.
Sık Sorulan Sorular
LoRA ve QLoRA arasında kalite farkı nedir, hangi durumda hangisini seçmeliyim?
EleutherAI 2025 karşılaştırmasında 50 görevde QLoRA’nın ortalama skoru LoRA’dan yüzde 1,8 daha düşük çıktı; bu fark çoğu üretim senaryosunda anlamlı değildir. QLoRA’nın asıl avantajı bellek tasarrufudur: 13B model tek RTX 4090’da (16 GB VRAM) eğitilebilirken saf LoRA 80 GB A100 gerektirir. Bütçe + donanım kısıtlı veya consumer GPU kullanıyorsanız QLoRA; A100 erişimi olan ve maksimum kalite arayan kurumsal Ar-Ge için LoRA tercih edilir. Klinik karar destek veya yasal akademik karşılaştırma gibi yüzde 99+ doğruluk şart olan görevlerde LoRA güvenli seçimdir.
Fine-tuning için minimum veri miktarı ne kadar olmalı ve veri kalitesi nasıl ölçülür?
Pratik minimum 500-1.000 yüksek kaliteli örnektir; altında model anlamlı öğrenme yapmaz. İdeal aralık göreve göre değişir: stil/ton uyarlaması için 1.000-5.000, görev özelleştirmesi için 5.000-20.000, domain bilgi enjeksiyonu için 20.000-100.000 örnek tipiktir. Veri kalitesi temizlik (duplicate < yüzde 1), tutarlılık (format şeması yüzde 100 uyum), çeşitlilik (8-12 farklı prompt varyasyonu) ve doğruluk (SME spot check yüzde 95+ kabul oranı) ölçütleriyle değerlendirilir. 1.000 temizlenmiş örnek 50.000 gürültülü örnekten daima daha iyi sonuç verir.
Fine-tuned modeli RAG ile birlikte kullanmak mantıklı mı?
Evet, çoğu kurumsal senaryoda en iyi sonuç bu kombinasyondan gelir. Fine-tuning modele stil, ton ve format tutarlılığını kalıcı olarak öğretir; RAG ise sık değişen bilgi tabanını runtime’da enjekte eder. İki yöntem birbirini tamamlar ve farklı problemleri çözer. Anthropic Research 2025’te kurumsal asistanların yüzde 67’si LoRA + RAG hibrit yapısını üretimde kullanıyor. Bu mimari aynı zamanda halüsinasyon oranını yüzde 35-50 düşürür ve marka kimliği tutarlılığını yüzde 90+ seviyesinde tutar.
Fine-tuning yerine GPT-4 veya Claude API kullanmak daha ekonomik mi olur?
Cevap kullanım hacmine ve gizlilik gereksinimine bağlıdır. Düşük hacim (aylık < 1M token) senaryolarda API genellikle daha ucuz ve hızlıdır; eğitim maliyeti amortize olmaz. Orta-yüksek hacim (aylık 50M+ token) ve sabit görev senaryolarında fine-tuned küçük model API’den 5-15 kat daha ekonomik çalışır. Token başına maliyet, gizlilik gereksinimi (HIPAA, KVKK), gecikme hedefi ve sürüm kontrolü ihtiyacı karar matrisini oluşturur. Yaygın hibrit pratik: rutin görevler için fine-tuned 7B model, karmaşık edge case’ler için API fallback.
DPO ve ORPO arasında nasıl seçim yaparım, RLHF hâlâ gerekli mi?
2026 standardında klasik RLHF (PPO) yalnızca temel model üreticileri (OpenAI, Anthropic, Meta) tarafından kullanılır; kurumsal fine-tuning için DPO veya ORPO yeterlidir. DPO iki aşamalıdır (SFT + DPO), kararlı, açık kaynak ekosistemde fiili standart. ORPO tek aşamada SFT ve preference alignment’i birleştirir, eğitim süresini yüzde 50 düşürür, daha az veri ister. Preference verisi az ise (5.000 çift altı) ORPO; bol preference verisi varsa (15.000+) DPO daha yüksek kalite verir. RLHF kurumsal projelerde yalnızca reward shaping karmaşık olduğunda (multi-objective alignment) gerekir.
LoRA mı QLoRA mı, hangi PEFT yöntemi 2026’da daha doğru seçim?
Karar donanım kısıtı, kalite hedefi ve iterasyon hızına göre netleşir. QLoRA tek RTX 4090 (16 GB VRAM) üzerinde 13B modeli eğitebilir, 380 USD ile bütçe dostudur ve consumer donanım yeterlidir. Kalite farkı LoRA’ya göre ortalama yüzde 1,8, çoğu asistan/sınıflandırma/özetleme görevinde anlamsızdır. Saf LoRA en az 80 GB VRAM (1x A100) ister, eğitim 1.200 USD seviyesinde, kalite tam FT’nin yüzde 97’sini yakalar (QLoRA yüzde 95). Üç pratik öneri: 1) yıllık AI bütçesi < 50K USD olan KOBİ veya araştırma için QLoRA varsayılan; 2) A100 erişimi olan ve maksimum kalite hedefleyen kurumsal Ar-Ge için saf LoRA; 3) klinik karar destek, yasal metin ve yüksek riskli akademik benchmark görevlerinde LoRA güvenli seçim. Üretim asistanlarının yüzde 67’si LoRA + RAG hibrit yapısını kullanıyor; bu kombinasyon 2026 standardıdır.
Bu Rehberde Kullanılan Kaynaklar
- Hugging Face PEFT Resmi Dokümantasyonu — huggingface.co/docs/peft
- Hugging Face TRL (Transformer Reinforcement Learning) — huggingface.co/docs/trl
- LoRA: Low-Rank Adaptation of Large Language Models (Hu et al., 2021) — arxiv.org/abs/2106.09685
- QLoRA: Efficient Finetuning of Quantized LLMs (Dettmers et al., 2023) — arxiv.org/abs/2305.14314
- Anthropic Research — Production LLM Customization Notes 2025 (anthropic.com/research)
- OpenAI Fine-Tuning Guide — platform.openai.com/docs/guides/fine-tuning
- Hugging Face State of Open LLMs 2025
- EleutherAI PEFT Benchmark Report 2025
- vLLM Multi-LoRA Adapter Serving Dokümantasyonu
- DPO: Direct Preference Optimization (Rafailov et al., 2023)
- ORPO: Monolithic Preference Optimization without Reference Model (Hong et al., 2024)










Ömer ÖNAL
Mayıs 15, 2026Yazılım danışmanlığı projelerinde sıkça karşılaştığım bir soru: “Hangi mimari hangi senaryoda öncelikli olmalı?” Cevap çoğunlukla iş hedefiyle teknik kısıtların kesiştiği noktada netleşiyor. Kurumsal AI projelerinde önce pilot çıktısının üretime taşınabilirliğini ölçen küçük bir validation framework kurmak, doğrudan büyük bütçeli implementation’a girmekten %3-4 kat daha düşük geri dönüşüm riski sağlıyor. Yorumlarınıza açığım.