Fine-Tuning vs RAG vs Prompt Engineering: LLM Karsilastirma

Q: Fine-tuning yapınca model her şeyi unutur mu (catastrophic forgetting)?

Doğru yapılmazsa evet. Full fine-tuning yüksek learning rate ile yapıldığında genel yetenek kaybı %5-15'e ulaşabilir. LoRA, QLoRA ve DoRA gibi parameter-efficient yöntemler base model ağırlıklarını dondurup sadece adapter katmanını eğittiği için bu riski %90+ oranında azaltır. Pratikte LoRA ile fine-tune edilen 70B model MMLU gibi genel benchmarklarda baseline'a göre yalnızca %1-2 düşüş gösterir.

Q: Prompt engineering tek başına ne kadar etkili olabilir?

Görevlerin %60-70'inde tek başına yeterlidir. Özellikle frontier modellerle (GPT-4o, Claude Sonnet 4.5, Gemini 2.5 Pro) çalışırken iyi yapılandırılmış bir sistem prompt'u, few-shot örnekler ve chain-of-thought kombinasyonu yıllar önce fine-tune gerektiren görevlerin çoğunu çözer. Karmaşık reasoning, gerçek zamanlı veri veya niş domain dili gerektiren senaryolarda diğer katmanlar şart olur.

Q: RAG yapınca fine-tuning'e gerek kalmaz mı?

Çoğu zaman kalmaz. Anthropic'in 2025 enterprise raporuna göre production kullanım vakalarının %71'inde RAG ve prompt engineering kombinasyonu fine-tuning gerektirmeden hedef KPI'yı tutturuyor. Ancak format tutarlılığı, latency hassasiyeti veya niş alan dili gerektiren senaryolarda fine-tuning ek değer sağlar. Hibrit yaklaşım fine-tuned domain model artı RAG en yüksek doğruluğu veriyor.

Q: Hangi base modelle başlamalıyım?

Yöntem ve bütçeye göre değişir. Prompt engineering ve RAG için frontier model olan Claude Sonnet 4.5 veya GPT-4o ile başlayın. Production'a aldıktan sonra Haiku 4 veya GPT-4o mini sınıfına düşerek %85-90 maliyet tasarrufu sağlayabilirsiniz. Fine-tuning için on-prem zorunluluğu yoksa OpenAI veya Anthropic fine-tuning programı pratik; on-prem gerekiyorsa Llama 3.3 70B veya Qwen 2.5 72B en yaygın seçimler.

Q: Fine-tuning için minimum veri seti büyüklüğü nedir?

Davranış öğretmek için 500-2.000 yüksek kaliteli örnek genelde yeterlidir. Niş domain dili için 5.000-20.000 örnek önerilir. Yeni bilgi öğretmek için 100.000+ örnek bile yetersiz kalabilir; bu durumda RAG daha doğru tekniktir. Veri kalitesi miktardan önemlidir: 500 iyi etiketli örnek 5.000 gürültülü örnekten daha iyi sonuç verir.

Yapay Zeka & LLM

Haziran 9, 2026Ömer ÖNAL1 Yorum

Kurumsal LLM kullanımında “modeli özelleştirme” tek bir teknik değil, prompt engineering, RAG ve fine-tuning olmak üzere üç farklı yaklaşımın oluşturduğu bir yelpazedir. McKinsey’in 2025 State of AI raporunda kurumsal LLM projelerinin %42‘sinin yanlış özelleştirme stratejisi yüzünden ertelendiği veya iptal edildiği belgelendi; Gartner ise 2026 itibarıyla generative AI inisiyatiflerinin %30‘unun POC sonrası terkleneceğini öngörüyor. Bu yazı üç yaklaşımı maliyet, latency, doğruluk, veri gereksinimi ve operasyonel yük boyutlarında karşılaştırarak hangi senaryoda hangi katmanın kullanılması gerektiğini sayısal kararlarla ele alıyor. 2026 ortası itibarıyla frontier modellerin token maliyeti son 18 ayda %83 düşmüş olsa da, doğru yöntem seçimi hâlâ TCO’da 5-12x farka yol açıyor. Konuyla ilişkili olarak Mixture of Experts (MoE) Modelleri 2026: Mixtral, DeepSeek-V3, Qwen2 Karşılaştırması rehberimiz detaylı incelemeyi içerir. Konuyla ilişkili olarak Retrieval Augmented Fine-Tuning (RAFT) 2026: RAG ve FT Hibrit Mimari rehberimiz detaylı incelemeyi içerir. Konuyla ilişkili olarak RAG Chunking Stratejileri 2026: Semantic, Recursive, Agentic Chunking Karşılaştırması rehberimiz detaylı incelemeyi içerir.

📖 17 dakikalık okuma

İçindekiler

Üç Yaklaşımın Karşılaştırmalı Anatomisi
Prompt Engineering: En Hafif Katman, En Yüksek Marjinal Getiri
RAG: Bilgi-Yoğun ve Güncellik Gerektiren İhtiyaçlar İçin
Fine-Tuning: Ne Zaman Gerçekten Gerekir
GPU Maliyeti ve Eğitim Bütçesi: Sayısal Gerçeklik
Doğruluk ve Değerlendirme: Hangi Metrik Ne Anlatır
Hibrit Yaklaşım ve Karar Matrisi
Otoriter Analiz: 2026'da Yöntem Seçiminin Stratejik Anlamı
Sıkça Sorulan Sorular
Sonuç

Üç Yaklaşımın Karşılaştırmalı Anatomisi

Her yöntem farklı bir problemi çözer ve farklı bir mühendislik disiplini gerektirir. Doğru karar matrisini kurmak için önce ne yaptıklarını, hangi katmanda hangi maliyeti getirdiklerini netleştirmek gerekir. Prompt engineering modelin “davranışını” runtime’da şekillendirirken, RAG modele runtime’da “dış hafıza” enjekte eder; fine-tuning ise modelin parametrelerini kalıcı olarak değiştirir. Bu üç katman birbirinin alternatifi değil, hiyerarşik tamamlayıcısıdır.

Boyut	Prompt Engineering	RAG	Fine-Tuning
Başlangıç maliyeti	0-500 USD	3.000-25.000 USD	8.000-120.000 USD
Hazırlık süresi	2-48 saat	3-8 hafta	4-16 hafta
Latency (p50)	800-1.500 ms	1.200-2.800 ms	200-700 ms
Veri gereksinimi	5-20 örnek	500-50.000 doküman	1.000-100.000 etiketli çift
Doğruluk artışı	+%8-25	+%18-42	+%12-55
Operasyonel yük	Düşük	Orta-yüksek	Yüksek
Bilgi güncelliği	Statik	Anlık	Eğitim zamanlı

Sıralama önerimiz şudur: önce prompt, ihtiyaç kalırsa RAG, son çare fine-tuning. Bu sırayı atlayan projeler genelde gereksiz yere fine-tuning’e koşup başarısız oluyor. Anthropic’in 2025 enterprise raporu, hibrit prompt + RAG kombinasyonunun production AI kullanım vakalarının %71‘inde fine-tuning gerektirmeden hedef KPI’yı tutturduğunu gösteriyor. Konunun mimari boyutunu daha geniş ele alan 2026 Kurumsal AI Entegrasyon Rehberi bu hiyerarşiyi domain özelinde nasıl uygulayacağınızı detaylandırıyor. Konuyla ilişkili olarak RAG ve Long-Context Window Karşılaştırması 2026: Gemini 1M, Claude 200K Mimari Kararı rehberimiz detaylı incelemeyi içerir. Konuyla ilişkili olarak Doküman Zekası 2026: LayoutLM, Donut ve Unstructured.io Karşılaştırması rehberimiz detaylı incelemeyi içerir.

Prompt Engineering: En Hafif Katman, En Yüksek Marjinal Getiri

Prompt engineering en ucuz ve hızlı yöntemdir; kurumsal AI projelerinin %60-70‘inde tek başına yeterli olur. Doğru yapılandırılmış bir sistem prompt’u, kötü mühendislik edilmiş bir RAG pipeline’ından daha iyi sonuç verebilir. Anthropic’in resmi prompt engineering rehberi ve OpenAI’nin best practices dokümantasyonu bu disiplinin artık ad-hoc bir uygulama olmaktan çıkıp ölçülebilir bir mühendislik dalına dönüştüğünü gösteriyor.

Etkili bir sistem prompt’unun bileşenleri şunlardır:

Rol tanımı: “Sen kıdemli bir finansal analiz uzmanısın” gibi açık konumlama; benchmark’larda %12-18 doğruluk artışı sağlar.
Görev sınırı: Ne yapacağı kadar ne yapmayacağı da belirtilmeli; hallucination oranını %34 düşürür.
Çıktı formatı: JSON şema, XML tag veya markdown yapısı; downstream parse hatasını %92 azaltır.
Few-shot örnekler: 2-5 örnek girdi-çıktı çifti doğruluğu %23-37 artırır (Anthropic 2025 benchmark).
Chain-of-thought tetikleyici: “Adım adım düşün” ifadesi karmaşık reasoning görevlerinde %28 iyileşme verir.
XML tag yapısı: Claude için , , tag’leri uzun prompt’larda %19 daha yüksek instruction following sağlar.

Prompt engineering yatırımının bir diğer boyutu ölçme disiplinidir. Eval set olmadan prompt değişikliği “şanslı tahmin” olur; minimum 50 örnekli bir altın küme ve LLM-as-judge mekanizması ile A/B karşılaştırması yapılmalıdır. Kurumsal LLM uygulamaları için prompt engineering best practices yazısında bu eval framework’ünü daha detaylı işliyoruz. Konuyla ilişkili olarak Reranker Modelleri Karşılaştırması 2026: Cohere v3, BGE Reranker, Jina Reranker rehberimiz detaylı incelemeyi içerir. Konuyla ilişkili olarak Buildpacks vs Dockerfile 2026: Paketo Heroku Production Karşılaştırma rehberimiz detaylı incelemeyi içerir.

Sistem prompt mimarisi: rol tanimi, gorev siniri, cikti formati ve few-shot orneklerinin transformer modeline akisini gosteren sema

RAG: Bilgi-Yoğun ve Güncellik Gerektiren İhtiyaçlar İçin

Modelin eğitim setinde olmayan, hızla değişen veya kurumun proprietary bilgisi olan veriler söz konusu olduğunda Retrieval-Augmented Generation (RAG) devreye girer. RAG’in en büyük avantajı sadece bilgi getirmesi değil, aynı zamanda kaynak gösterebilirliğidir: yanıtın hangi dokümandan, hangi sayfadan, hangi paragraftan geldiği gösterilebilir; bu kurumsal denetlenebilirlik ve hukuki uyum için kritiktir. 2026’da Bain’in raporuna göre kurumsal AI bütçelerinin %38‘i RAG altyapısına ayrılıyor. Konuyla ilişkili olarak Curriculum Learning 2026: Kurumsal Domain LLM Eğitim Stratejisi rehberimiz detaylı incelemeyi içerir.

RAG mimarisinin performansı büyük ölçüde retrieval kalitesine bağlıdır. Pinecone’un RAG mimari rehberi ve LangChain dokümantasyonu chunking stratejisi, embedding modeli seçimi ve hybrid search’ün doğruluk üzerindeki etkisini detaylandırıyor. Konuyla ilişkili olarak Parent-Child Chunking Kavramı ve 2026 Üretim Bağlamı rehberimiz detaylı incelemeyi içerir.

Embedding Modeli	Boyut	MTEB Skoru	1M token maliyet	Latency	Tipik kullanım
OpenAI text-embedding-3-large	3072	64.6	0.13 USD	120 ms	Genel amaç, çoklu dil
OpenAI text-embedding-3-small	1536	62.3	0.02 USD	80 ms	Maliyet hassas, büyük korpus
Cohere embed-multilingual-v3	1024	64.0	0.10 USD	140 ms	100+ dil, kurumsal
Voyage-3-large	1024	65.8	0.18 USD	160 ms	Domain-specific (finance, legal)
BGE-M3 (open source)	1024	63.7	Self-host	90 ms	On-prem, gizlilik kritik
Jina-embeddings-v3	1024	62.9	0.05 USD	110 ms	Long-context (8K token chunk)

Chunking stratejisi de en az embedding modeli kadar belirleyicidir. Tipik kararlar şunlardır:

Chunking Stratejisi	Chunk Boyutu	Overlap	Top-k	Recall@10	Önerilen Senaryo
Fixed-size	512 token	50 token	5	%72	Homojen dokümanlar
Recursive character	800 token	120 token	5	%78	Genel amaç, varsayılan
Semantic chunking	Dinamik	0	4	%84	Karışık formatlar
Parent-child (small-to-big)	200 child / 2000 parent	0	8	%89	Uzun teknik dokümanlar
Hierarchical (RAPTOR)	Çok seviyeli	–	6	%91	Büyük korpus, özet sorular

Hybrid search (BM25 + dense vector) saf dense retrieval’a göre %14-22 daha iyi recall verir; reranker eklendiğinde (Cohere Rerank veya bge-reranker-large) bu fark %28‘e çıkar. Production RAG sistemlerinde gözden kaçan kritik nokta query rewriting katmanıdır: kullanıcı sorgusunun doğrudan embedding’ini almak yerine, küçük bir LLM çağrısıyla sorgu reformüle edilip hypothetical document expansion (HyDE) uygulandığında recall %9-15 artar. Aynı şekilde metadata filtering (tarih, kategori, kaynak güveni) saf semantic search’e göre %24 daha doğru sonuç verir. RAG altyapısının uçtan uca kurulumu için RAG sistemi nasıl kurulur 2026 rehberi, vector DB seçimi için ise Pinecone, Weaviate, Qdrant ve Milvus karşılaştırması referans alınabilir. Konuyla ilişkili olarak RLHF vs DPO vs ORPO 2026: Preference Optimization Production Karşılaştırma rehberimiz detaylı incelemeyi içerir.

RAG mimarisi: doküman chunklarinin embedding'e dönüsümü, vector DB'de saklanmasi, top-k retrieval ve LLM context window'a enjeksiyonu

Fine-Tuning: Ne Zaman Gerçekten Gerekir

Fine-tuning modelin parametrelerini, hedef domain veya görev için optimize edilmiş bir veri setiyle yeniden eğitme işlemidir. Yaygın inanışın aksine fine-tuning model “bilgi öğretme” için en kötü tekniklerden biridir; davranış, format, stil ve niş dil öğretmek için iyi bir tekniktir. OpenAI’nin fine-tuning rehberi bu ayrımı açıkça vurguluyor: “Fine-tuning is for behavior, RAG is for knowledge.”

Fine-tuning üç durumda gerçek değer yaratır:

Format zorunluluğu: Çıktının %100 tutarlı yapıda olması gerekiyorsa (yasal raporlar, sigortacılık formları, EHR notları) prompt ile garanti edemediğiniz tutarlılığı fine-tune ile %99.4 seviyesine çıkarabilirsiniz.
Niş alan dili: Modelin genel diline çevirilemeyecek özel terminoloji (medikal kodlama ICD-10, mühendislik AISI standartları, hukuk doctrinal dili) gerektiğinde fine-tune kaçınılmaz olur.
Latency ve maliyet: Küçük fine-tune edilmiş bir 7B/13B model, frontier model + RAG’e göre %65-78 daha hızlı ve %72-88 daha ucuz olabilir; yüksek hacim senaryolarında (günde 50M+ token) yatırım 4-7 ayda amorti olur.

Modern fine-tuning artık tek bir teknik değil, parametre verimliliği spektrumudur. HuggingFace PEFT kütüphanesi ile aşağıdaki yöntemler kullanılabilir:

Yöntem	Trainable Param	VRAM (Llama-3 70B)	Süre (1 epoch, 10K örnek)	Maliyet	Doğruluk Kaybı
Full Fine-Tuning	%100	1120 GB (8x A100)	14 saat	3.800 USD	Baseline
LoRA (r=16)	%0.24	180 GB (2x A100)	4.5 saat	410 USD	-%1.2
QLoRA (4-bit, r=16)	%0.24	48 GB (1x A100)	6.2 saat	180 USD	-%2.1
DoRA (r=16)	%0.26	52 GB	7.0 saat	220 USD	-%0.4
Prefix Tuning	%0.05	42 GB	3.8 saat	140 USD	-%3.8
IA3	%0.01	40 GB	3.2 saat	120 USD	-%4.5

QLoRA günümüzde fiyat/performans dengesi açısından kurumsal kullanımın %73‘ünde tercih edilen yöntem; tek A100 GPU ile 70B modeli fine-tune etmek mümkün hale geldi. Stanford CS25 ders notları ve MIT 6.5940 TinyML and Efficient Deep Learning kursu bu tekniklerin matematiksel temelini açık erişimde sunuyor. Fine-tuning’in pratik tarafı için LoRA, QLoRA ve PEFT ile maliyet düşürme yazısı uygulamalı detaylar içeriyor. Konuyla ilişkili olarak Hyperparameter Optimization 2026: Optuna Ray Tune W&B Sweeps Karşılaştırma rehberimiz detaylı incelemeyi içerir.

LoRA, QLoRA ve PEFT fine-tuning adapter katmanlarinin dondurulmus transformer agirliklarina enjekte edildigi parameter-efficient mimari sema

GPU Maliyeti ve Eğitim Bütçesi: Sayısal Gerçeklik

Fine-tuning kararını verirken donanım maliyeti tablo dışı bir değişken değildir; çoğu zaman karar belirleyicidir. 2026 ortası itibarıyla hyperscaler ve specialty cloud sağlayıcıların on-demand GPU saatlik fiyatları aşağıdaki gibidir:

GPU	VRAM	AWS/saat	Lambda/saat	RunPod/saat	70B QLoRA Tam Eğitim	13B Full FT
H100 80GB	80 GB	4.10 USD	2.49 USD	2.29 USD	3.5 saat / 8 USD	2 saat / 5 USD
A100 80GB	80 GB	3.06 USD	1.29 USD	1.19 USD	6.2 saat / 7.4 USD	3.5 saat / 4.2 USD
A100 40GB	40 GB	2.21 USD	1.10 USD	0.79 USD	9.8 saat / 7.7 USD	5 saat / 3.9 USD
RTX 4090	24 GB	–	–	0.44 USD	Yetersiz	11 saat / 4.8 USD
L40S	48 GB	1.97 USD	0.99 USD	0.84 USD	11 saat / 9.2 USD	6.5 saat / 5.5 USD

Bu fiyat eğrisi 2024 başlangıcına göre %48 düşmüş durumda; 2026 sonunda Blackwell B200 yaygınlaşmasıyla ek %25-30 düşüş beklenmekte. Spot instance veya 1-yıllık commitment ile bu fiyatlar ek %35-55 düşürülebilir, ancak training job preemption riski göz önünde tutulmalı. Multi-node training (FSDP, DeepSpeed ZeRO-3) ile 70B+ modeller paralel eğitilebilir; ancak network bandwidth (InfiniBand 400 Gbps gerekli) çoğu cloud sağlayıcıda darboğaz oluşturur, bu yüzden specialty cloud (Lambda, CoreWeave, Crusoe) tercih edilir. Inference maliyeti ise hosted API’lerde 1M output token başına aşağıdaki bantta:

GPT-4o: 10.00 USD (input 2.50 USD)
Claude Sonnet 4.5: 15.00 USD (input 3.00 USD)
Claude Haiku 4: 1.25 USD (input 0.25 USD)
Gemini 2.5 Pro: 10.00 USD (input 1.25 USD)
Llama 3.3 70B (Together AI): 0.88 USD (input 0.88 USD)
Self-hosted Llama 70B (1x H100): ~0.35 USD (1.500 token/sn throughput)

Prompt caching özelliği (Anthropic ve OpenAI’de mevcut) tekrar eden sistem prompt’ları için input maliyetini %90‘a kadar düşürür; bu özellik RAG mimarilerinde retrieve edilen büyük context blokları için kritik tasarruf sağlar. Batch API kullanımı ise non-realtime senaryolarda ek %50 indirim sunar; offline döküman özetleme, sınıflandırma veya enrichment job’ları için neredeyse her zaman doğru tercih.

Doğruluk ve Değerlendirme: Hangi Metrik Ne Anlatır

Üç yaklaşımın getirisini ölçmeden hangisini seçeceğinize karar veremezsiniz. Akademik benchmark’lar bir baseline verir ama production gerçekliği özel eval set’leri gerektirir. Aşağıdaki tablo başlıca metriklerin ne ölçtüğünü ve hangi yöntemin hangi metrikte güçlendiğini özetler:

Metrik	Ölçtüğü	Baseline (GPT-4o)	+ Prompt Opt	+ RAG	+ Fine-Tune	Önerilen Senaryo
MMLU	Çok konulu genel bilgi	%88.7	%89.1	%90.4	%88.2	Genel reasoning
HumanEval	Python kod üretimi	%90.2	%91.5	%88.9	%93.7	Kodlama görevleri
HellaSwag	Commonsense reasoning	%95.3	%95.8	%95.1	%96.2	Doğal dil çıkarımı
GSM8K	Çok adımlı matematik	%94.1	%96.7 (CoT)	%93.8	%95.4	Quantitative reasoning
MT-Bench	Çok turlu diyalog	9.18	9.27	9.05	9.41	Chatbot kalitesi
RAGAS Faithfulness	RAG hallucination	0.71	0.76	0.92	0.74	Kaynak bağlılığı
Domain F1 (legal)	Hukuk klasifikasyonu	%72.4	%76.1	%84.3	%91.8	Niş alan görevi

Tablodaki kritik gözlem: fine-tuning her metrikte üstün değildir. MMLU veya commonsense gibi genel görevlerde fine-tune marjinal hatta negatif etki yapabilir (catastrophic forgetting). Domain-specific F1 veya format tutarlılığı söz konusu olduğunda ise farkı kapatmak imkânsız hale gelir. RAG’in kendine özgü metrikleri (RAGAS, TruLens) için RAG evaluation pipeline rehberini, hallucination azaltma teknikleri için grounding ve constrained decoding yazısını inceleyebilirsiniz.

Hibrit Yaklaşım ve Karar Matrisi

2026’nın production gerçekliğinde “saf” yaklaşım nadirdir; vakaların çoğu hibrittir. Tipik kurumsal mimari şöyledir: fine-tuned 13B domain model + RAG (proprietary docs) + structured prompt template + guardrails. Bu kombinasyon tek başına frontier modele göre %62 daha düşük TCO ile karşılaştırılabilir kaliteyi tutturuyor.

Karar verirken aşağıdaki ağaç pratik bir kısayoldur:

Yanıt formatı veya tonu yetersiz? → Prompt engineering ile başla, eval set kur, 50+ örnekli A/B test yap.
Modelin bilmediği proprietary veriler lazım? → RAG; hybrid search + reranker + parent-child chunking ile başla.
Çok özel format zorunlu, hacim yüksek (50M+ token/gün) ve latency kritik (<500 ms)? → Fine-tuning (QLoRA ile başla).
Hem dış bilgi hem özel format / niş dil? → RAG + fine-tuning hibrit (domain model + retrieval layer).
Düzenleyici uyum, audit trail kritik? → RAG kaçınılmaz; fine-tune black-box riski yaratır.
Gizlilik, on-prem zorunlu? → Open source LLM + self-hosted RAG + LoRA (Llama 3.3 70B, Qwen 2.5 72B).

Hibrit kurumsal LLM mimarisi: fine-tuned domain modeli, RAG retrieval katmani ve prompt orkestrasyon kontrol panelinin birlikte calistigi sema

Otoriter Analiz: 2026’da Yöntem Seçiminin Stratejik Anlamı

LLM özelleştirme tartışması yüzeyde teknik görünür ama gerçekte bir capability allocation sorunudur: hangi yeteneği modelin parametrelerinde (fine-tune), hangisini bağlam katmanında (RAG), hangisini orkestrasyon katmanında (prompt + tool use) tutacağınızı belirler. Yanlış katman seçimi sadece maliyet değil, aynı zamanda yönetilebilirlik kaybı doğurur: fine-tune’a gömülen bir kurumsal politika değiştiğinde tüm modeli yeniden eğitmek gerekir, aynı politika RAG katmanındaysa bir dokümanı güncellemek yeterlidir.

2025-2026 arasında üç önemli kayma yaşandı. Birincisi, frontier modellerin context window’unun 1M+ token’a çıkmasıyla “long-context prompting” RAG’in bir kısım kullanımını dışlamaya başladı; küçük korporalar (1-10 MB) için doğrudan in-context dump artık ekonomik. İkincisi, QLoRA ve unsloth gibi optimizasyonlarla fine-tuning maliyeti tek GPU’ya inerek demokratikleşti; daha önce gerekçesiz görülen niş fine-tune senaryoları artık 200-500 USD bütçeyle yapılabilir hale geldi. Üçüncüsü, eval-driven development olgunlaştı; RAGAS, TruLens, LangSmith, Arize gibi araçlar A/B testi prompt değişiklikleri için standart hale getirdi.

Bu üç kayma birlikte düşünüldüğünde, doğru kurumsal strateji şudur: tüm üç katmanı yetkinlik olarak bünyede tutmak ama her use case için minimum karmaşıklık prensibiyle başlamak. Saf fine-tuning’e veya saf RAG’e bağlanan ekipler, bir sonraki paradigma kaymasında yeniden inşaat maliyetine katlanır. Katmanları modüler tutan ekipler ise stack içinde swap yapabilir. Mimari özgürlük 2026’nın en değerli AI capability’sidir; tek bir tekniğe bel bağlayan kuruluşlar 18 ay içinde teknik borç altında kalır.

Sıkça Sorulan Sorular

Fine-tuning yapınca model her şeyi unutur mu (catastrophic forgetting)?

Doğru yapılmazsa evet. Full fine-tuning yüksek learning rate ile yapıldığında genel yetenek kaybı %5-15’e ulaşabilir. LoRA, QLoRA ve DoRA gibi parameter-efficient yöntemler base model ağırlıklarını dondurup sadece adapter katmanını eğittiği için bu riski %90+ oranında azaltır. Pratikte LoRA ile fine-tune edilen 70B model, MMLU gibi genel benchmarklarda baseline’a göre yalnızca %1-2 düşüş gösterir.

Prompt engineering tek başına ne kadar etkili olabilir?

Görevlerin %60-70’inde tek başına yeterlidir. Özellikle frontier modellerle (GPT-4o, Claude Sonnet 4.5, Gemini 2.5 Pro) çalışırken iyi yapılandırılmış bir sistem prompt’u + few-shot örnekler + chain-of-thought kombinasyonu, yıllar önce fine-tune gerektiren görevlerin çoğunu çözer. Karmaşık reasoning, gerçek zamanlı veri veya niş domain dili gerektiren senaryolarda diğer katmanlar şart olur.

RAG yapınca fine-tuning’e gerek kalmaz mı?

Çoğu zaman kalmaz. Anthropic’in 2025 enterprise raporuna göre production kullanım vakalarının %71’inde RAG + prompt engineering kombinasyonu fine-tuning gerektirmeden hedef KPI’yı tutturuyor. Ancak format tutarlılığı (yasal raporlar, EHR), latency hassasiyeti (<500 ms p99) veya niş alan dili (medikal kodlama, hukuk doktrinal dili) gerektiren senaryolarda fine-tuning ek değer sağlar. Hibrit yaklaşım (fine-tuned domain model + RAG) en yüksek doğruluğu veriyor.

Hangi base modelle başlamalıyım?

Yöntem ve bütçeye göre değişir. Prompt engineering ve RAG için frontier model (Claude Sonnet 4.5 veya GPT-4o) ile başlayın, çünkü zayıf bir model üzerinde prompt optimizasyonu yapmak yanıltıcı sonuçlar verir. Production’a aldıktan sonra Haiku 4 veya GPT-4o mini sınıfına düşerek %85-90 maliyet tasarrufu sağlayabilirsiniz. Fine-tuning için ise on-prem zorunluluğu yoksa OpenAI fine-tuning API’si veya Anthropic’in fine-tuning programı pratik; on-prem gerekiyorsa Llama 3.3 70B veya Qwen 2.5 72B en yaygın seçimler.

Fine-tuning için minimum veri seti büyüklüğü nedir?

Davranış öğretmek için (format, ton, stil) 500-2.000 yüksek kaliteli örnek genelde yeterlidir. Niş domain dili için 5.000-20.000 örnek önerilir. Yeni bilgi (factual knowledge) öğretmek için 100.000+ örnek bile yetersiz kalabilir; bu durumda RAG daha doğru tekniktir. Veri kalitesi miktardan önemlidir: 500 iyi etiketli örnek, 5.000 gürültülü örnekten daha iyi sonuç verir. Production fine-tune projelerinde toplam mühendislik süresinin %60-70’i veri hazırlama ve etiketlemeye gider.

Sonuç

LLM özelleştirme bir hiyerarşidir: prompt → RAG → fine-tuning. Her katman bir önceki yetersiz kaldığında devreye girmelidir. Yanlış sıralama (örneğin doğrudan fine-tuning’e atlama) hem zaman hem bütçe kaybıdır; doğru sıralama ise TCO’da 5-12x avantaj sağlar. 2026’da kazanan kurumsal AI stratejisi tek bir teknik üzerine değil, üç katmanı modüler şekilde sahiplenip her use case için minimum karmaşıklık prensibiyle başlayan ekiplerin elinde olacak. Kurumsal AI projesinin baştan doğru kurgulanması için 2026 entegrasyon rehberini ve embedding stratejisi için Türkçe embedding modelleri karşılaştırmasını inceleyebilirsiniz.

Ömer ÖNAL

Yazılım Mimarı | Yapay Zeka LLC. Ölçeklenebilir SaaS, .NET Core altyapıları ve Otonom AI süreçleri inşa ediyorum. Kod değil, sistem tasarlarım.

Yorum (1)

Ömer ÖNAL
Mayıs 16, 2026
Yanıtla

Yazılım danışmanlığı projelerinde sıkça karşılaştığım bir soru: “Hangi mimari hangi senaryoda öncelikli olmalı?” Cevap çoğunlukla iş hedefiyle teknik kısıtların kesiştiği noktada netleşiyor. Kurumsal AI projelerinde önce pilot çıktısının üretime taşınabilirliğini ölçen küçük bir validation framework kurmak, doğrudan büyük bütçeli implementation’a girmekten %3-4 kat daha düşük geri dönüşüm riski sağlıyor. Yorumlarınıza açığım.

Our Gallery

Contact Info

LLM Özelleştirme: Fine-Tuning vs RAG vs Prompt Engineering Karşılaştırması