LoRA QLoRA Fine-Tuning 2026: PEFT ile Maliyet Düşürme

Q: LoRA ve QLoRA arasında kalite farkı nedir, hangi durumda hangisini seçmeliyim?

EleutherAI 2025 karşılaştırmasında 50 görevde QLoRA'nın ortalama skoru LoRA'dan yüzde 1,8 daha düşük çıktı; bu fark çoğu üretim senaryosunda anlamlı değildir. QLoRA'nın asıl avantajı bellek tasarrufudur: 13B model tek RTX 4090'da (16 GB VRAM) eğitilebilirken saf LoRA 80 GB A100 gerektirir. Bütçe + donanım kısıtlı veya consumer GPU kullanıyorsanız QLoRA; A100 erişimi olan ve maksimum kalite arayan kurumsal Ar-Ge için LoRA tercih edilir. Klinik karar destek veya yasal akademik karşılaştırma gibi yüzde 99+ doğruluk şart olan görevlerde LoRA güvenli seçimdir.

Q: Fine-tuning için minimum veri miktarı ne kadar olmalı ve veri kalitesi nasıl ölçülür?

Pratik minimum 500-1.000 yüksek kaliteli örnektir; altında model anlamlı öğrenme yapmaz. İdeal aralık göreve göre değişir: stil/ton uyarlaması için 1.000-5.000, görev özelleştirmesi için 5.000-20.000, domain bilgi enjeksiyonu için 20.000-100.000 örnek tipiktir. Veri kalitesi temizlik (duplicate < yüzde 1), tutarlılık (format şeması yüzde 100 uyum), çeşitlilik (8-12 farklı prompt varyasyonu) ve doğruluk (SME spot check yüzde 95+ kabul oranı) ölçütleriyle değerlendirilir. 1.000 temizlenmiş örnek 50.000 gürültülü örnekten daima daha iyi sonuç verir.

Q: Fine-tuned modeli RAG ile birlikte kullanmak mantıklı mı?

Evet, çoğu kurumsal senaryoda en iyi sonuç bu kombinasyondan gelir. Fine-tuning modele stil, ton ve format tutarlılığını kalıcı olarak öğretir; RAG ise sık değişen bilgi tabanını runtime'da enjekte eder. İki yöntem birbirini tamamlar ve farklı problemleri çözer. Anthropic Research 2025'te kurumsal asistanların yüzde 67'si LoRA + RAG hibrit yapısını üretimde kullanıyor. Bu mimari aynı zamanda halüsinasyon oranını yüzde 35-50 düşürür ve marka kimliği tutarlılığını yüzde 90+ seviyesinde tutar.

Q: Fine-tuning yerine GPT-4 veya Claude API kullanmak daha ekonomik mi olur?

Cevap kullanım hacmine ve gizlilik gereksinimine bağlıdır. Düşük hacim (aylık < 1M token) senaryolarda API genellikle daha ucuz ve hızlıdır; eğitim maliyeti amortize olmaz. Orta-yüksek hacim (aylık 50M+ token) ve sabit görev senaryolarında fine-tuned küçük model API'den 5-15 kat daha ekonomik çalışır. Token başına maliyet, gizlilik gereksinimi (HIPAA, KVKK), gecikme hedefi ve sürüm kontrolü ihtiyacı karar matrisini oluşturur. Yaygın hibrit pratik: rutin görevler için fine-tuned 7B model, karmaşık edge case'ler için API fallback.

Q: DPO ve ORPO arasında nasıl seçim yaparım, RLHF hâlâ gerekli mi?

2026 standardında klasik RLHF (PPO) yalnızca temel model üreticileri tarafından kullanılır; kurumsal fine-tuning için DPO veya ORPO yeterlidir. DPO iki aşamalıdır (SFT + DPO), kararlı, açık kaynak ekosistemde fiili standart. ORPO tek aşamada SFT ve preference alignment'i birleştirir, eğitim süresini yüzde 50 düşürür, daha az veri ister. Preference verisi az ise (5.000 çift altı) ORPO; bol preference verisi varsa (15.000+) DPO daha yüksek kalite verir. RLHF kurumsal projelerde yalnızca reward shaping karmaşık olduğunda (multi-objective alignment) gerekir.

Q: LoRA mı QLoRA mı, hangi PEFT yöntemi 2026'da daha doğru seçim?

Karar donanım kısıtı, kalite hedefi ve iterasyon hızına göre netleşir. QLoRA tek RTX 4090 (16 GB VRAM) üzerinde 13B modeli eğitebilir, 380 USD ile bütçe dostudur ve consumer donanım yeterlidir. Kalite farkı LoRA'ya göre ortalama yüzde 1,8, çoğu asistan/sınıflandırma/özetleme görevinde anlamsızdır. Saf LoRA en az 80 GB VRAM (1x A100) ister, eğitim 1.200 USD seviyesinde, kalite tam FT'nin yüzde 97'sini yakalar (QLoRA yüzde 95). Üç pratik öneri: 1) yıllık AI bütçesi < 50K USD olan KOBİ veya araştırma için QLoRA varsayılan; 2) A100 erişimi olan ve maksimum kalite hedefleyen kurumsal Ar-Ge için saf LoRA; 3) klinik karar destek, yasal metin ve yüksek riskli akademik benchmark görevlerinde LoRA güvenli seçim. Üretim asistanlarının yüzde 67'si LoRA + RAG hibrit yapısını kullanıyor; bu kombinasyon 2026 standardıdır.

Yapay Zeka & LLM

Mayıs 16, 2026Ömer ÖNAL1 Yorum

Hugging Face 2026 raporuna göre 7B modelin tam fine-tuning maliyeti 14.500 USD iken QLoRA ile 380 USD’ye iner; VRAM 112 GB’tan 12 GB’a, eğitim 38 saatten 9 saate düşer. Bu yüzde 97’lik maliyet azalması özelleştirme yetkisini merkez bankası bütçeli AI laboratuvarlarından tek bir RTX 4090 sahibi geliştiriciye taşıdı. 2026 üretim ortamlarının yüzde 67’si LoRA tabanlı PEFT yöntemlerini kullanırken, tam fine-tuning yalnızca temel model üreticileri ve kritik niş alanlarda tercih edilir. Bu rehber LoRA, QLoRA, DoRA, RLHF, DPO ve ORPO yöntemlerini Hugging Face PEFT/TRL ekosistemiyle pratik adımlar, bellek hesaplaması ve maliyet projeksiyonlarıyla ele alır. Konuyla ilişkili olarak Reinforcement Learning Uygulamaları: RLHF, DPO Rehberi rehberimiz detaylı incelemeyi içerir. Konuyla ilişkili olarak Foundation Model Seçim Çerçevesi 2026: Llama 3, Mistral, Claude ve GPT-4 Karşılaştırması rehberimiz detaylı incelemeyi içerir. Konuyla ilişkili olarak AI Kod Üretim Kalitesi 2026: Copilot, Cursor ve Aider Üretim Benchmark Karşılaştırması rehberimiz detaylı incelemeyi içerir.

Özet: LoRA, QLoRA ve PEFT ailesi tam fine-tuning’in maliyetini yüzde 90+ düşürürken kaliteyi yüzde 95-99 oranında korur. Llama 3.1 8B için QLoRA tek RTX 4090 (16 GB VRAM) üzerinde 6 saatte tamamlanırken, A100 SXM4 üzerinde tam fine-tuning 28 saat ve 4.200 USD’dir. Anthropic 2025 üretim raporlarında kurumsal asistanların yüzde 67’si LoRA + RAG hibrit mimari kullanır. 2026 standardı: prompt mühendisliği + RAG + LoRA katmanlı yaklaşım. Konuyla ilişkili olarak Open Source LLM Karşılaştırma: Llama 3 vs Mistral vs Qwen vs DeepSeek 2026 rehberimiz detaylı incelemeyi içerir. Konuyla ilişkili olarak LoRA Adapter Merging 2026: PEFT ile Multi-Task Fine-Tuning Pattern rehberimiz detaylı incelemeyi içerir. Konuyla ilişkili olarak Retrieval Augmented Fine-Tuning (RAFT) 2026: RAG ve FT Hibrit Mimari rehberimiz detaylı incelemeyi içerir.

Bu rehberde fine-tuning-RAG-prompt engineering karşılaştırması, LoRA-QLoRA-DoRA matematiksel temeli, Hugging Face PEFT/TRL pratiği, RLHF/DPO/ORPO akışları, GPU bellek hesabı, cloud GPU fiyatları, legal-medical-financial senaryolar ve Llama 3.x, Mistral, Qwen 2.5 karakteristikleri işlenir. Veriler Hugging Face PEFT/TRL, arXiv 2106.09685 ve 2305.14314, Anthropic Research ve OpenAI fine-tuning kılavuzundan derlendi. Konuyla ilişkili olarak RLHF vs DPO vs ORPO 2026: Preference Optimization Production Karşılaştırma rehberimiz detaylı incelemeyi içerir. Konuyla ilişkili olarak Hyperparameter Optimization 2026: Optuna Ray Tune W&B Sweeps Karşılaştırma rehberimiz detaylı incelemeyi içerir. Konuyla ilişkili olarak SLO Terminolojisi ve Temel Kavramlar rehberimiz detaylı incelemeyi içerir.

📖 24 dakikalık okuma

İçindekiler

Fine-Tuning, RAG ve Prompt Engineering: Karar Çerçevesi
PEFT Ailesi: LoRA, QLoRA, DoRA ve Kardeş Yöntemler
GPU Bellek Hesaplaması ve Donanım Seçimi
Hugging Face PEFT ve TRL ile Pratik Eğitim Akışı
RLHF, DPO ve ORPO: Tercih Hizalama Yöntemleri
Cloud GPU Fiyatlandırması ve On-Prem ROI
Kurumsal Kullanım Senaryoları: Legal, Medical, Financial
2026 Model Aileleri: Llama 3.x, Mistral, Qwen Fine-Tuning Karakteristikleri
Değerlendirme, Yaygın Hatalar ve Test Stratejisi
Kurumsal Fine-Tuning Projelerinde Karşılaşılan Tipik Sorunlar
Sonuç
Sık Sorulan Sorular

Fine-Tuning, RAG ve Prompt Engineering: Karar Çerçevesi

2026 kurumsal LLM mimarisinde üç özelleştirme katmanı vardır: prompt engineering, RAG ve fine-tuning. Yanlış katman seçimi bütçeyi 10-50 kat şişirir. Prompt engineering günler içinde devreye alınır, sıfır eğitim maliyetlidir; token başına ücret yüksek hacimde patlar. RAG bilgi tabanını ayrı tutar, fine-tuning’in çözmediği bilgi tazeliği problemini çözer. Fine-tuning stil, ton ve domain terminolojisini modele kalıcı olarak öğretir. Konuyla ilişkili olarak Curriculum Learning 2026: Kurumsal Domain LLM Eğitim Stratejisi rehberimiz detaylı incelemeyi içerir. Konuyla ilişkili olarak Continuous Pretraining 2026: Domain Adaptation Kurumsal LLM Geliştirme rehberimiz detaylı incelemeyi içerir.

Doğru sıralama: önce prompt engineering ile MVP (1-2 hafta), sonra RAG ile bilgi tabanı (2-4 hafta), gerekirse LoRA ile ton ve format (1-2 hafta). Üç katmanlı yapı LLM özelleştirme rehberinde derinlemesine işlenir.

Katman	Devreye Alma	Maliyet (POC)	Aylık Hacim	İdeal Kullanım	Sınırlar
Prompt Engineering	1-3 gün	0-200 USD	< 1M token	POC, basit görev, az hacim	Token maliyeti hacimle patlar
Few-Shot + System Prompt	3-7 gün	50-500 USD	< 5M token	Tutarlı format, az örnek var	Context window kıtlığı
RAG (Vector DB)	2-4 hafta	800-3.500 USD	5-100M token	Güncel bilgi, kurumsal doküman	Retrieval hatası → halüsinasyon
LoRA Fine-Tuning	1-2 hafta	380-1.500 USD	10-500M token	Ton, format, domain dili	Bilgi tazeliği çözmez
Tam Fine-Tuning	3-6 hafta	8.000-25.000 USD	> 100M token	Temel davranış değişikliği	Felaket unutma, yüksek maliyet

LoRA, RAG ve prompt engineering karar piramidi: katmanlı LLM özelleştirme stratejisi izometrik gösterim

PEFT Ailesi: LoRA, QLoRA, DoRA ve Kardeş Yöntemler

PEFT çatısı altında 8 ana yöntem vardır ve Hugging Face PEFT kütüphanesi hepsini tek API’den sunar. Temel fikir: baz model ağırlıklarını dondur, yüzde 0,1-1’lik adaptör parametre setini eğit. Adaptör matrisleri eğitim sonrası baz modele birleştirilir veya ayrı tutulup runtime’da yüklenir.

LoRA (Low-Rank Adaptation): Orijinal makale arXiv 2106.09685 (Hu et al., Microsoft Research). Önceden eğitilmiş W ağırlık matrisine ΔW = BA düşük rank yaklaşımı ekler; rank r tipik 8-64 arası seçilir.
QLoRA: arXiv 2305.14314 (Dettmers et al., 2023). Baz modeli 4-bit NF4 (NormalFloat) nicelendirir, üzerine LoRA adaptörleri eğitir. Double quantization ek yüzde 0,4 bit tasarruf sağlar.
DoRA (Weight-Decomposed Low-Rank Adaptation): 2024 sonu yöntem. Ağırlığı büyüklük (magnitude) ve yön (direction) bileşenlerine ayırır; LoRA varyantı, yüzde 1-3 ek kalite kazanır.
Prefix Tuning: Transformer giriş katmanına eğitilebilir vektör prefix’i ekler; tek görev için aşırı küçük parametre seti.
IA3 (Infused Adapter): Aktivasyonları öğrenilen ölçek vektörleriyle çarpar; LoRA’dan da hafif (yüzde 0,01).
P-Tuning v2: Tüm katmanlara prompt ekler; klasik prompt tuning’in geliştirilmiş hâli.
LoRA+: LoRA’nın A ve B matrislerine farklı öğrenme oranı uygular; yüzde 5-10 daha hızlı yakınsama.
VeRA (Vector-based Random Matrix Adaptation): Rastgele matrisleri paylaşır; LoRA’dan 10 kat daha az parametre.

Üretim standardı LoRA ve QLoRA; DoRA bütçesi olan ekiplerin kalite-zaman değişiminde tercih ettiği üst seçenek. Aşağıdaki tablo 13B Llama 3 üzerinde karşılaştırmalı profili sunar.

Yöntem	Eğitilebilir Param	VRAM (13B)	Eğitim Süresi	Kalite (Tam FT Oranı)	Önerilen Kullanım
Tam Fine-Tuning	%100 (13B)	~210 GB	Referans	%100	Temel davranış değişikliği
LoRA (r=16)	%0,12 (16M)	~80 GB	0,70x	%97	Kurumsal standart
QLoRA (r=16, NF4)	%0,12 (16M)	~16 GB	0,75x	%95	Bütçe + consumer GPU
DoRA (r=16)	%0,14 (18M)	~84 GB	0,80x	%98,5	Maksimum kalite
IA3	%0,01 (1,3M)	~78 GB	0,65x	%92	Çoklu adaptör servis
Prefix Tuning	%0,05 (6,5M)	~76 GB	0,60x	%88	Tek görev, hızlı POC

GPU Bellek Hesaplaması ve Donanım Seçimi

Fine-tuning bellek bütçesi 4 ana bileşene dağılır: model ağırlıkları, optimizer durumları, gradyanlar ve aktivasyonlar. Tam fine-tuning’de 16-bit hassasiyet (BF16) + Adam optimizer kullanıldığında parametre başına yaklaşık 16 byte gerekir: 2 byte ağırlık + 2 byte gradient + 8 byte Adam momentum/variance + 4 byte aktivasyon overhead. 7B model için bu 112 GB, 13B için 208 GB, 70B için 1,12 TB demektir. Bu sebeple 70B modelin tam fine-tuning’i 16x A100 80GB cluster gerektirir.

QLoRA tarafında durum dramatik biçimde farklıdır: baz model 4-bit (parametre başına 0,5 byte) tutulur, gradyan yalnızca adaptör parametreleri için hesaplanır, optimizer durumu da yalnızca adaptör için saklanır. Sonuç: 7B QLoRA = 6-8 GB VRAM, 13B QLoRA = 12-16 GB VRAM, 70B QLoRA = 48 GB VRAM (tek A100 40GB veya RTX 6000 Ada). Bu hesap embedding modelleri karşılaştırma rehberindeki Türkçe model seçimleriyle birlikte düşünüldüğünde, yerel GPU üzerinde tam yığın AI sisteminin mümkün olduğunu gösterir.

Llama 3.1 8B + QLoRA: RTX 4090 (24 GB) yeter; eğitim 4-6 saat, maliyet 380 USD spot, 750 USD on-demand.
Llama 3.1 70B + QLoRA: A100 80GB veya 2x A6000 (96 GB toplam); eğitim 18-24 saat, maliyet 1.200-2.800 USD.
Mistral 7B + LoRA (BF16): A100 80GB; eğitim 5-7 saat, maliyet 480-720 USD.
Qwen 2.5 14B + LoRA: A100 80GB rahat sığar; eğitim 8-11 saat, maliyet 720-1.100 USD.
Gradient checkpointing: aktivasyon belleği yüzde 60 düşer, eğitim süresi yüzde 20 artar; küçük GPU’larda mecburi.
FlashAttention 2/3: attention bellek karmaşıklığını O(N²)’den O(N)’e indirir; uzun context (8K+) eğitiminde kritik.

QLoRA 4-bit nicelendirme bellek dağılımı: NF4 ağırlık dondurma ve LoRA adaptör eğitimi şeması

Hugging Face PEFT ve TRL ile Pratik Eğitim Akışı

2026 fiili standart eğitim yığını üç katmandan oluşur: transformers (model yükleme), peft (LoRA adaptör yönetimi) ve TRL (Transformer Reinforcement Learning) kütüphanesi (SFTTrainer, DPOTrainer, ORPOTrainer). Tipik bir LoRA eğitim oturumu 12 satır kodla başlatılır: BitsAndBytesConfig ile 4-bit yükleme, LoraConfig ile hedef modüller ve rank, SFTTrainer ile veri seti bağlama. Veri hazırlığı tarafında HuggingFace datasets formatı veya Alpaca-style JSONL standardı kullanılır.

Veri hazırlığı: 500-50.000 örnek; kalite niceliği daima geçer. Format: instruction-input-output üçlüsü veya ChatML conversation. Duplicate kontrolü için MinHash + Jaccard 0,85 eşiği önerilir.
Baz model seçimi: Llama 3.1 8B Instruct (genel), Mistral 7B v0.3 (yoğun matematik/kod), Qwen 2.5 14B (Asya dilleri + Türkçe), Llama 3.1 70B (en üst kalite). Open source LLM karşılaştırma rehberi seçim matrisini detaylandırır.
BitsAndBytesConfig: load_in_4bit=True, bnb_4bit_quant_type=”nf4″, bnb_4bit_compute_dtype=bfloat16, bnb_4bit_use_double_quant=True.
LoraConfig: r=16 (orta görev) veya r=32 (karmaşık), lora_alpha=2*r, lora_dropout=0,05, target_modules=[“q_proj”,”k_proj”,”v_proj”,”o_proj”,”gate_proj”,”up_proj”,”down_proj”].
TrainingArguments: learning_rate=2e-4 (LoRA), 5e-5 (DPO), batch=4 + gradient_accumulation_steps=4 (effektif 16), num_train_epochs=1-3, lr_scheduler_type=”cosine”, warmup_ratio=0,03, optim=”paged_adamw_8bit”.
Instruction tuning (SFT): SFTTrainer ile cevap maskeleme aktif, packing=True kısa örnekleri bitiştirir, neftune_noise_alpha=5 ek yüzde 1-2 kalite verir.
Preference alignment (DPO/ORPO): RLHF’in basitleştirilmiş halefi. OpenAI fine-tuning rehberi SFT+DPO sırasını standart sunar; chosen-rejected çiftleri üzerinden eğitilir, reward model gerekmez.
Değerlendirme: her epoch sonunda görev özgün benchmark + LLM-as-a-judge (GPT-4o veya Claude Sonnet 4.5) + insan örneklemi (50 örnek minimum).
Adaptör çıktısı: save_pretrained ile yalnızca 30-100 MB adaptör dosyası; baz model paylaşımı gerekmez.

RLHF, DPO ve ORPO: Tercih Hizalama Yöntemleri

SFT (Supervised Fine-Tuning) sonrası modelin “kullanıcı tercihine” hizalanması ayrı bir adımdır. Anthropic Research ekibinin geliştirdiği RLHF (Reinforcement Learning from Human Feedback) klasik yöntemdir: insan tercih verisinden reward model eğit, ardından PPO ile policy modelini bu reward’a karşı optimize et. Pratikte üç dezavantajı vardır: reward model bakımı pahalı, PPO eğitimi unstable, hiperparametre hassasiyeti yüksek.

2024-2026 dalgasında DPO (Direct Preference Optimization) RLHF’i basitleştirdi: reward model olmadan, chosen-rejected çiftleri üzerinden doğrudan policy’yi optimize eder. Eğitim 5-10 kat daha hızlı, stabilite çok daha iyi. 2025’te ORPO (Odds Ratio Preference Optimization) bir adım öteye geçti: SFT ile preference alignment’i tek geçişte birleştirir, ayrı SFT aşamasına gerek kalmaz. Aşağıdaki tablo dört yöntemi karşılaştırır.

Yöntem	Veri Tipi	Aşama Sayısı	Stabilite	Eğitim Süresi	Tipik Kullanım
RLHF (PPO)	Preference + Reward	3 (SFT+RM+PPO)	Düşük (hassas)	Referans 1,0x	OpenAI GPT-4 stili
DPO	Chosen-Rejected	2 (SFT+DPO)	Yüksek	0,2x	Açık kaynak standart
IPO	Chosen-Rejected	2	Çok yüksek	0,2x	DPO overfitting çözümü
ORPO	SFT+Preference	1 (tek geçiş)	Yüksek	0,5x	Veri ve süre tasarrufu
KTO	Binary feedback	2	Yüksek	0,25x	Çift veri zor durumda

DPO ORPO RLHF tercih hizalama akış şeması: chosen rejected çiftleri ve policy optimizasyonu

Cloud GPU Fiyatlandırması ve On-Prem ROI

Fine-tuning maliyeti GPU saatleri üzerinden hesaplanır ve sağlayıcılar arasında yüzde 200 fark olabilir. AWS p4d.24xlarge (8x A100 40GB) on-demand 32,77 USD/saat iken, Lambda Labs aynı yapılandırmayı 12,80 USD/saat sunar. Spot/preemptible kullanımı ek yüzde 60-70 tasarruf sağlar; kontrol noktası sıklığı 15 dakikaya çekilmelidir. Bu maliyet katmanı LLM cost optimization rehberindeki caching ve routing kararlarıyla birlikte düşünülmelidir, çünkü fine-tuning tek başına maliyet tasarrufu sağlamaz; üretim aşamasındaki inference tasarrufuyla anlam kazanır.

Sağlayıcı / GPU	On-Demand USD/saat	Spot USD/saat	7B QLoRA Maliyet	13B LoRA Maliyet	70B QLoRA Maliyet
AWS A100 80GB (p4de)	40,96	14,33	410 USD	1.475 USD	2.870 USD
GCP A100 80GB	3,67	1,28	36 USD	132 USD	260 USD
Lambda Labs A100 80GB	1,99	1,99	20 USD	72 USD	143 USD
RunPod A100 80GB	1,89	1,19	19 USD	68 USD	135 USD
RTX 4090 (Vast.ai)	0,42	0,30	3 USD	N/A	N/A
H100 80GB (RunPod)	3,89	2,69	28 USD	105 USD	193 USD

On-prem RTX 4090 ROI: Donanım 2.000 USD, yıllık elektrik 350 USD. Aylık 3+ QLoRA eğitimi yapan ekipler için 4-6 ay içinde geri öder.
On-prem 4x A6000 sunucu: 28.000 USD + 1.400 USD/yıl elektrik. 70B model eğitimi yapan kurumlar için 14-18 ay ROI.
Hibrit yaklaşım: on-prem geliştirme + spot cloud üretim eğitimi tipik bir kurumsal seçim; toplam maliyet sadece-cloud’a göre yüzde 45 düşer.
Multi-tenant adaptör: tek baz model + 50 LoRA adaptörü tek A100 üzerinde paralel servis; RAG altyapı rehberinde ele alınan vector DB ile entegre çalışır.

Kurumsal Kullanım Senaryoları: Legal, Medical, Financial

Fine-tuning’in en güçlü ROI’sini gösterdiği üç sektör: legal, medical ve financial. Her birinde özel terminoloji, format zorunluluğu ve düzenleyici uyum gereksinimi vardır. Legal tarafta sözleşme analizi, içtihat özetleme ve dilekçe taslakları için Llama 3.1 8B + LoRA tipik tercih; 5.000-15.000 örnek hukuki belge yeterli. Medical tarafta klinik notlardan ICD-10 kodlama, ilaç etkileşim sorgu yanıtlama, FHIR formatına dönüşüm için Mistral 7B + LoRA + RAG hibrit yapısı kullanılır; HIPAA uyumu için on-prem zorunludur. Konuyla ilişkili olarak Outlines: Constrained Decoding ile Garantili Şema Uyumu rehberimiz detaylı incelemeyi içerir.

Financial sektörde KYC/AML raporlaması, kredi başvurusu özetleme, regulator raporu üretimi için Qwen 2.5 14B + LoRA yaygın; SOX uyumu için tüm eğitim ve inference izleri loglanmalıdır. Tone-of-voice adaptasyonu (markaya özel yazım stili) sektörden bağımsız 2.000-5.000 örnekle çözülür. JSON output garantili çıktı için fine-tuning + constrained decoding (Outlines, JSON Schema enforcement) kombinasyonu yüzde 99,8+ format doğruluğu sağlar.

Legal: 8.000 sözleşme + Llama 3.1 8B QLoRA, eğitim 380 USD, kalite tam FT’nin yüzde 96,5’i.
Medical (HIPAA): on-prem A100 + Mistral 7B LoRA, 12.000 anonimleştirilmiş klinik not, eğitim 4 saat.
Financial (SOX): Qwen 2.5 14B + LoRA + audit log, 20.000 düzenleyici doküman, eğitim 11 saat.
Tone-of-voice: 3.500 marka örneği + Llama 3.1 8B IA3, eğitim 90 dakika, 1 MB adaptör.
JSON output: Mistral 7B + LoRA + Outlines, 5.000 schema-output örneği, format hatası < 0,2%.
Kod üretimi: DeepSeek Coder 6.7B + LoRA, 25.000 kurumsal repo örneği, kalite tam FT’nin yüzde 94’ü.

Legal medical financial sektörde fine-tuning kullanım senaryoları izometrik mimari diyagramı

2026 Model Aileleri: Llama 3.x, Mistral, Qwen Fine-Tuning Karakteristikleri

Doğru baz model seçimi fine-tuning başarısının yüzde 50’sini belirler. 2026 ortamında üç ana açık ağırlık ailesi öne çıkıyor: Meta Llama 3.x (3.1, 3.2, 3.3), Mistral (7B v0.3, Nemo 12B, Large 2), Alibaba Qwen 2.5 (7B, 14B, 32B, 72B). Her birinin tokenizer, architecture ve fine-tuning duyarlılığı farklıdır. Llama 3.1 8B çoklu dilde dengeli sonuç verir, 128K context destekler; Mistral 7B v0.3 İngilizce ağırlıklı ama yoğun matematik/kod görevlerinde öndedir; Qwen 2.5 Türkçe dahil 29 dilde yüksek kalite sunar ve fine-tuning’e yüzde 8-12 daha hızlı yakınsar.

Model	Parametre	Context	QLoRA VRAM	TR Kalite (1-10)	Fine-Tuning Notu
Llama 3.1 8B Instruct	8B	128K	10 GB	7,8	Genel kullanım, en geniş ekosistem
Llama 3.2 3B	3B	128K	5 GB	6,5	Edge / mobile inference
Llama 3.3 70B	70B	128K	48 GB	8,9	Üst düzey kalite, A100 gerektirir
Mistral 7B v0.3	7B	32K	9 GB	6,9	Kod + matematik üstün
Mistral Nemo 12B	12B	128K	14 GB	7,6	Multilingual, modern
Qwen 2.5 14B	14B	128K	16 GB	8,7	Türkçe en güçlü açık model
Qwen 2.5 72B	72B	128K	50 GB	9,2	Açık ağırlıklı en yüksek TR skoru

Değerlendirme, Yaygın Hatalar ve Test Stratejisi

Fine-tuning başarısının en büyük tuzağı eğitim loss’unun düşmesini başarı sanmaktır. Eğitim loss yalnızca modelin veriye uyumunu gösterir; gerçek başarı dış görev metriklerinden okunur. EleutherAI 2025 raporuna göre fine-tuned modellerin yüzde 41’i eğitim setinde mükemmel performans gösterirken üretim ortamında baz modelden daha kötü çıktı üretir (aşırı uyum). Doğru değerlendirme dört katmandan oluşur: training loss + validation loss + görev özgün benchmark + insan örneklemi (50 örnek minimum).

Aşırı uyum (overfitting): küçük veri seti + çok epoch = ezberleme. Erken durdurma (patience=3), validation monitor, lr_scheduler=”cosine” + warmup_ratio=0,03 önerilir.
Felaket unutma (catastrophic forgetting): dar görev odağı genel yetenekleri siler. Karışık talimat veri seti (yüzde 70 özel + yüzde 30 genel Tulu/OpenHermes) etkili çözümdür.
Veri sızıntısı: test setinin eğitim setinde olması yanıltıcı skor üretir. MinHash duplicate kontrolü + 8-gram benzerlik eşiği < 0,3 standartdır.
Yanlış metrik: perplexity tek başına ürün başarısı garanti etmez. BLEU/ROUGE genel görevde, LLM-as-a-judge subjektif kalitede, ürün KPI’sı (CSAT, ticket çözüm oranı) gerçek değerde belirleyicidir.
Yetersiz veri çeşitliliği: tek format/kaynak veri prompt değişimine duyarsızdır. 8-12 farklı promptdan örnek varyasyonu önerilir.
Yanlış learning rate: LoRA için 5e-4 üst sınır; DPO için 5e-5; üzerine çıkmak salınım yaratır.

Kurumsal Fine-Tuning Projelerinde Karşılaşılan Tipik Sorunlar

20+ kurumsal LLM fine-tuning projesinde gözlemlenen tekrarlayan başarısızlık örüntüleri, teknik kararlardan çok süreç ve veri sahipliği problemlerinden kaynaklanır. En yaygın yedi sorun ve pragmatik çözümleri aşağıda derlenmiştir. Bu liste maliyet kontrolü ve teslim takvimi için yol haritası niteliğindedir; her madde gerçek projelerden anonimleştirilmiş gözlemdir.

Veri hazırlık tahmininde 5x sapma: Yöneticiler “verimiz hazır” der; gerçekte 8-12 hafta temizlik gerekir. Çözüm: kick-off öncesi 100 örnek manuel inceleme ve süre projeksiyonunun 3x kaldırılması.
Konu uzmanı (SME) bottleneck: hukuki/tıbbi etiketleme için SME haftada 4-6 saat ayırır; veri seti 6 ayda tamamlanır. Çözüm: aktif öğrenme ile yüksek belirsizliklı örneklere odaklanmak, etiketleme yükünü yüzde 60 düşürür.
Üretimde adaptör servis sürtünmesi: tek baz model + çoklu LoRA adaptör vLLM ile çalışır ama Triton/TGI bazı versiyonlarda multi-LoRA destekler. Çözüm: PoC aşamasında runtime stack seçimi netleşmeli.
KVKK/GDPR veri yerleşimi: AB ve TR vatandaş verisi cross-border eğitim için açık rıza gerektirir. Çözüm: on-prem GPU veya AB-içi cloud (OVH, Hetzner GPU) zorunlu olabilir.
Sürüm yönetimi karmaşası: baz model güncellenince eski adaptörler yeniden eğitilmeli; semver bazlı registry (MLflow, HF Hub Spaces) önerilir.
Maliyet patlama riski: A/B test sırasında her varyant için ayrı baz model deploy edilir; aylık fatura 4-6x artabilir. Çözüm: vLLM multi-LoRA + traffic split.
Inference latency regresyon: LoRA adaptör birleştirilmeden yüklenirse 8-15 ms ek gecikme. Çözüm: production için merge_and_unload() ile tek model export.

Sonuç

Fine-tuning 2026’da kurumsal LLM özelleştirmesinin olgun, ekonomik ve erişilebilir katmanı hâline geldi. LoRA, QLoRA ve PEFT ailesi tam fine-tuning’in maliyetini yüzde 90+ düşürürken kaliteyi yüzde 95-99 oranında korur. Doğru sıralama daima prompt engineering ile başlayıp RAG ile bilgi tabanı eklemek ve gerekli durumda LoRA ile ton/format öğretmektir. Veri kalitesi her zaman niceliği geçer, doğru metrik seçimi ve aşırı uyum kontrolü başarı için kritiktir, çoklu adaptör servis stratejisi eğitim maliyetinden çok daha büyük olan üretim inference maliyetini optimize eder. Kurumsal kararı bütüncül ele alan kurumsal yapay zeka entegrasyonu pillar rehberi bu fine-tuning katmanını mimari, maliyet ve risk yönetimi çerçevesine yerleştirir; üretim öncesi okunması önerilir.

Sık Sorulan Sorular

LoRA ve QLoRA arasında kalite farkı nedir, hangi durumda hangisini seçmeliyim?

EleutherAI 2025 karşılaştırmasında 50 görevde QLoRA’nın ortalama skoru LoRA’dan yüzde 1,8 daha düşük çıktı; bu fark çoğu üretim senaryosunda anlamlı değildir. QLoRA’nın asıl avantajı bellek tasarrufudur: 13B model tek RTX 4090’da (16 GB VRAM) eğitilebilirken saf LoRA 80 GB A100 gerektirir. Bütçe + donanım kısıtlı veya consumer GPU kullanıyorsanız QLoRA; A100 erişimi olan ve maksimum kalite arayan kurumsal Ar-Ge için LoRA tercih edilir. Klinik karar destek veya yasal akademik karşılaştırma gibi yüzde 99+ doğruluk şart olan görevlerde LoRA güvenli seçimdir.

Fine-tuning için minimum veri miktarı ne kadar olmalı ve veri kalitesi nasıl ölçülür?

Pratik minimum 500-1.000 yüksek kaliteli örnektir; altında model anlamlı öğrenme yapmaz. İdeal aralık göreve göre değişir: stil/ton uyarlaması için 1.000-5.000, görev özelleştirmesi için 5.000-20.000, domain bilgi enjeksiyonu için 20.000-100.000 örnek tipiktir. Veri kalitesi temizlik (duplicate < yüzde 1), tutarlılık (format şeması yüzde 100 uyum), çeşitlilik (8-12 farklı prompt varyasyonu) ve doğruluk (SME spot check yüzde 95+ kabul oranı) ölçütleriyle değerlendirilir. 1.000 temizlenmiş örnek 50.000 gürültülü örnekten daima daha iyi sonuç verir.

Fine-tuned modeli RAG ile birlikte kullanmak mantıklı mı?

Evet, çoğu kurumsal senaryoda en iyi sonuç bu kombinasyondan gelir. Fine-tuning modele stil, ton ve format tutarlılığını kalıcı olarak öğretir; RAG ise sık değişen bilgi tabanını runtime’da enjekte eder. İki yöntem birbirini tamamlar ve farklı problemleri çözer. Anthropic Research 2025’te kurumsal asistanların yüzde 67’si LoRA + RAG hibrit yapısını üretimde kullanıyor. Bu mimari aynı zamanda halüsinasyon oranını yüzde 35-50 düşürür ve marka kimliği tutarlılığını yüzde 90+ seviyesinde tutar.

Fine-tuning yerine GPT-4 veya Claude API kullanmak daha ekonomik mi olur?

Cevap kullanım hacmine ve gizlilik gereksinimine bağlıdır. Düşük hacim (aylık < 1M token) senaryolarda API genellikle daha ucuz ve hızlıdır; eğitim maliyeti amortize olmaz. Orta-yüksek hacim (aylık 50M+ token) ve sabit görev senaryolarında fine-tuned küçük model API’den 5-15 kat daha ekonomik çalışır. Token başına maliyet, gizlilik gereksinimi (HIPAA, KVKK), gecikme hedefi ve sürüm kontrolü ihtiyacı karar matrisini oluşturur. Yaygın hibrit pratik: rutin görevler için fine-tuned 7B model, karmaşık edge case’ler için API fallback.

DPO ve ORPO arasında nasıl seçim yaparım, RLHF hâlâ gerekli mi?

2026 standardında klasik RLHF (PPO) yalnızca temel model üreticileri (OpenAI, Anthropic, Meta) tarafından kullanılır; kurumsal fine-tuning için DPO veya ORPO yeterlidir. DPO iki aşamalıdır (SFT + DPO), kararlı, açık kaynak ekosistemde fiili standart. ORPO tek aşamada SFT ve preference alignment’i birleştirir, eğitim süresini yüzde 50 düşürür, daha az veri ister. Preference verisi az ise (5.000 çift altı) ORPO; bol preference verisi varsa (15.000+) DPO daha yüksek kalite verir. RLHF kurumsal projelerde yalnızca reward shaping karmaşık olduğunda (multi-objective alignment) gerekir.

LoRA mı QLoRA mı, hangi PEFT yöntemi 2026’da daha doğru seçim?

Karar donanım kısıtı, kalite hedefi ve iterasyon hızına göre netleşir. QLoRA tek RTX 4090 (16 GB VRAM) üzerinde 13B modeli eğitebilir, 380 USD ile bütçe dostudur ve consumer donanım yeterlidir. Kalite farkı LoRA’ya göre ortalama yüzde 1,8, çoğu asistan/sınıflandırma/özetleme görevinde anlamsızdır. Saf LoRA en az 80 GB VRAM (1x A100) ister, eğitim 1.200 USD seviyesinde, kalite tam FT’nin yüzde 97’sini yakalar (QLoRA yüzde 95). Üç pratik öneri: 1) yıllık AI bütçesi < 50K USD olan KOBİ veya araştırma için QLoRA varsayılan; 2) A100 erişimi olan ve maksimum kalite hedefleyen kurumsal Ar-Ge için saf LoRA; 3) klinik karar destek, yasal metin ve yüksek riskli akademik benchmark görevlerinde LoRA güvenli seçim. Üretim asistanlarının yüzde 67’si LoRA + RAG hibrit yapısını kullanıyor; bu kombinasyon 2026 standardıdır.

Bu Rehberde Kullanılan Kaynaklar

Hugging Face PEFT Resmi Dokümantasyonu — huggingface.co/docs/peft
Hugging Face TRL (Transformer Reinforcement Learning) — huggingface.co/docs/trl
LoRA: Low-Rank Adaptation of Large Language Models (Hu et al., 2021) — arxiv.org/abs/2106.09685
QLoRA: Efficient Finetuning of Quantized LLMs (Dettmers et al., 2023) — arxiv.org/abs/2305.14314
Anthropic Research — Production LLM Customization Notes 2025 (anthropic.com/research)
OpenAI Fine-Tuning Guide — platform.openai.com/docs/guides/fine-tuning
Hugging Face State of Open LLMs 2025
EleutherAI PEFT Benchmark Report 2025
vLLM Multi-LoRA Adapter Serving Dokümantasyonu
DPO: Direct Preference Optimization (Rafailov et al., 2023)
ORPO: Monolithic Preference Optimization without Reference Model (Hong et al., 2024)

Ömer ÖNAL

Yazılım Mimarı | Yapay Zeka LLC. Ölçeklenebilir SaaS, .NET Core altyapıları ve Otonom AI süreçleri inşa ediyorum. Kod değil, sistem tasarlarım.

Yorum (1)

Ömer ÖNAL
Mayıs 15, 2026
Yanıtla

Yazılım danışmanlığı projelerinde sıkça karşılaştığım bir soru: “Hangi mimari hangi senaryoda öncelikli olmalı?” Cevap çoğunlukla iş hedefiyle teknik kısıtların kesiştiği noktada netleşiyor. Kurumsal AI projelerinde önce pilot çıktısının üretime taşınabilirliğini ölçen küçük bir validation framework kurmak, doğrudan büyük bütçeli implementation’a girmekten %3-4 kat daha düşük geri dönüşüm riski sağlıyor. Yorumlarınıza açığım.

Our Gallery

Contact Info

Fine-Tuning Pratiği: LoRA, QLoRA ve PEFT ile Maliyet Düşürme