DSPy framework 2026 itibarıyla “prompt programming” paradigmasının kurumsal LLM mühendisliğindeki en olgun temsilcisi olarak öne çıkıyor; Stanford NLP grubunun bakım yaptığı framework, manuel prompt engineering iş yükünü ortalama yüzde 64 düşürürken benchmark doğruluğunu yüzde 12-28 artırıyor (DSPy 2.5 release notes 2025 Q4). Konuyla ilişkili olarak DSPy Nedir? Prompt Otomasyonu ve LLM Pipeline Rehberi 2026 rehberimiz detaylı incelemeyi içerir.
DSPy Nedir ve Prompt Programming Paradigması
DSPy, Stanford NLP grubunun (Khattab et al. 2024 ICLR paper) geliştirdiği, LLM çağrılarını programlanabilir ve optimize edilebilir modüller olarak modelleyen Python framework’üdür. “Prompts are programs, not strings” mottosu ile manuel prompt yazımı yerine Signature, Module ve Optimizer üçlüsünden oluşan compiler tabanlı bir yaklaşım sunar. Resmi GitHub repository 2025 itibarıyla 22.000+ star, 180+ contributor ile aktif. DSPy 2.5 (Kasım 2025) sürümü asenkron execution, structured output native desteği ve OpenAI Structured Outputs entegrasyonu getirdi.
Pazar bağlamı açısından LangChain, LlamaIndex ve Haystack gibi alternatiflerden temel farkı: bu framework’ler “orkestrator” iken DSPy “compiler”. LangChain ile yazılan prompt’lar kullanıcı tarafından elle tunable iken DSPy programları otomatik olarak training set üzerinde optimize edilir. Stanford HAI 2025 AI Index raporu, prompt engineering işine ayrılan FTE süresinin kurumsal AI ekiplerinde haftada ortalama 14 saat olduğunu belgeliyor; DSPy bu yükü yüzde 60+ azaltma potansiyeli sunuyor.
Signature, Module ve Optimizer Mimarisi
DSPy üç temel soyutlamayla çalışır: (1) Signature — input ve output alanlarının semantik tanımı (örneğin “question -> answer”); (2) Module — bir veya birden fazla LLM çağrısını kapsayan composable birim (Predict, ChainOfThought, ReAct, ProgramOfThought); (3) Optimizer (eski adıyla Teleprompter) — training set üzerinde few-shot örnekleri otomatik seçen, instruction’ları rewrite eden compiler. 2025 itibarıyla en sık kullanılan optimizer’lar BootstrapFewShot, MIPROv2 ve BootstrapFinetune.
| DSPy Modülü | Kullanım Alanı | Token Overhead | Tipik Doğruluk Artışı | Geliştirme Süresi |
|---|---|---|---|---|
| Predict | Tek aşama Q&A | 1x | Baseline | Dakikalar |
| ChainOfThought | Çok adımlı muhakeme | 1.8x | +8-14 puan | Saatler |
| ReAct | Tool use ile agent | 2.4x | +12-22 puan | Günler |
| ProgramOfThought | Matematik + kod | 1.6x | +18-31 puan | Saatler |
| MultiChainComparison | Self-consistency | 3.2x | +11-19 puan | Saatler |

DSPy Optimizer Karşılaştırması: BootstrapFewShot vs MIPROv2
BootstrapFewShot, training set üzerinde rastgele bir alt küme seçer, bu örneklerle programı çalıştırır, başarılı olanları few-shot demonstration olarak modüle gömer; basit, hızlı, low-budget senaryolar için ideal. MIPROv2 ise Bayesian optimization ile hem few-shot örneklerini hem instruction’ları beraber optimize eder; Khattab et al. 2024 NeurIPS paper’ında HotPotQA üzerinde yüzde 28 doğruluk artışı raporlandı. BootstrapFinetune ise küçük modellere büyük model davranışını distill etmek için kullanılır; üretimde Mistral 7B’yi GPT-4o davranışına yaklaştırmak tipik senaryo.
- BootstrapFewShot: 200-500 training örneği, 4-12 saat compile, prototyping için
- MIPROv2: 500-2000 training örneği, 12-48 saat compile, production için tercih
- BootstrapFinetune: 1000-5000 training örneği, 24-72 saat compile + 6-18 saat fine-tune, distillation için
- COPRO (Coordinate-Ascent): Yalnızca instruction optimization, hızlı iyileştirme için
İlgili konu: LangChain, LlamaIndex ve DSPy karşılaştırması yazımızda üç framework’ün üretim deneyimi karşılaştırmasını veriyoruz. Optimizasyon teorisi için prompt optimization teknikleri 2026 yazımız akademik referansları derliyor.
Implementation Pattern: RAG Pipeline’ında DSPy Kullanımı
Tipik bir kurumsal RAG implementasyonunda DSPy şu modülleri zincirler: Retrieve (vector search wrapper), GenerateAnswer (ChainOfThought modülü), AssessAnswer (ChainOfThought tabanlı judge). Optimizasyon için 200-500 (soru, doğru cevap) çifti yeterli; MIPROv2 ile compile süresi 4xA100 üzerinde 6-14 saat. Compile sonucunda her modül için optimize edilmiş instruction + 3-8 few-shot demonstration üretilir. Bu compile çıktısı serialize edilip (dspy.save / dspy.load) production’a deploy edilir, runtime’da ek bir optimization overhead’i yoktur.
RAG-spesifik faydalar arasında en önemlisi: retriever çıktısının relevance’ı düşük olduğunda DSPy program’ı otomatik olarak query rewriting modülünü tetikler. DSPy orijinal makalesi (Khattab et al. 2024), HotPotQA üzerinde manuel prompt baseline’a göre yüzde 25-43 F1 artışı raporluyor; LLaMa 2 13B kullanılarak yapılan testlerde GPT-3.5 turbo manuel prompt baseline’ını DSPy compiled Llama geçiyor.

Operasyon, Versiyonlama ve CI/CD Entegrasyonu
Production’da DSPy programları kod gibi versiyonlanmalı: Git ile signature dosyaları, Optimizer çıktıları (.json) ve eval set’i ayrı dizinlerde tutulur. CI/CD pipeline’ı her PR’da regression test çalıştırır — yeni signature değişikliği eval set üzerinde yüzde 5’ten fazla regresyon yaratıyorsa otomatik fail. DSPy evaluate modülü ROUGE, BLEU, exact match ve custom metric’leri native destekler. Production observability için LangSmith ve Helicone DSPy ile uyumlu trace export sunuyor.
| Kullanım Senaryosu | Manuel Prompt Doğruluk | DSPy Compiled Doğruluk | Geliştirme Süresi Kazancı | Token Maliyet Etkisi |
|---|---|---|---|---|
| RAG Q&A (HotPotQA) | %52 | %74 | %68 düşüş | +%12 |
| Multi-hop reasoning | %38 | %61 | %72 düşüş | +%18 |
| Code generation | %44 | %67 | %58 düşüş | +%8 |
| SQL generation | %61 | %81 | %64 düşüş | +%14 |
| Classification | %78 | %89 | %52 düşüş | +%6 |
Sektörel Use Case: Türk E-Ticaret Şirketinde DSPy ile RAG Optimizasyonu
Türkiye’nin önde gelen e-ticaret şirketi 2025 Q4’te ürün danışmanlığı chatbot’una DSPy entegre etti. Önceki LangChain tabanlı pipeline’da manuel prompt iterasyonu 8 mühendis-haftası alıyordu; DSPy ile MIPROv2 optimizer kullanılarak 540 (soru, ideal cevap) çifti üzerinde compile süresi 16 saatte tamamlandı. Production’a alındıktan sonra customer satisfaction skoru 6.8’den 8.4’e yükseldi, ürün önerisi tıklama oranı yüzde 31 arttı, ortalama yanıt süresi 4.2 saniyeden 2.8 saniyeye düştü (ChainOfThought modülünün optimize instruction’ları daha kısa). Gartner 2025 Magic Quadrant for AI Engineering raporu DSPy’yi “emerging leader” kategorisinde işaretledi.

Kurumsal DSPy Dönüşümünde Karşılaşılan Tipik Sorunlar
Danışmanlık projelerinde gözlemlenen tipik darboğazlar:
- Training set’in az veya kalitesiz olması — 200 altı örnek ile compile yapıldığında optimizer underfitting yaşıyor; en az 300-500 yüksek kalite (soru, ideal cevap) çifti gerekiyor
- Evaluation metric’inin yanlış seçilmesi — exact match Türkçe açık uçlu yanıtlarda neredeyse hep sıfır verir; LLM-as-judge veya BERTScore Türkçe için daha uygun
- Compile süresinin underestimate edilmesi — MIPROv2 ile production-grade compile 16-48 saat sürebiliyor, planlamada bu süre rezerv tutulmuyor
- Versiyonlama disiplininin olmaması — compile çıktıları Git’e commit edilmediğinde production’da kullanılan tam program tekrar üretilemiyor
- Production observability eksikliği — DSPy module trace’leri ayrı tutulmadığında debugging zorlaşıyor; LangSmith veya custom OpenTelemetry export şart
- Türkçe için BLEU/ROUGE kullanımı — bu metrikler morfolojik dillerde yanıltıcı; intfloat/multilingual-e5 embedding tabanlı semantic similarity önerilir
Sonuç
DSPy 2026 yılında manuel prompt engineering yorgunluğundan kurtulmak isteyen kurumsal AI ekipleri için en olgun framework. “Programs not prompts” paradigması, mühendislik disiplinini LLM uygulamalarına getiriyor: signature ile arayüz, module ile composability, optimizer ile sürekli iyileştirme. ROI açısından prompt engineering FTE yükünde yüzde 60+ azalma, benchmark doğruluğunda yüzde 12-28 artış, production’a çıkış süresinde 2-3 kat hızlanma tipik kazanımlar. Yol haritası planlanırken pilot projeye RAG Q&A use case’i ile başlamak en hızlı ROI’yi veriyor; 8-12 hafta içinde compile pipeline, eval set ve CI/CD entegrasyonu tamamlanabiliyor. Türk kurumları için Türkçe eval set hazırlığı ve LLM-as-judge metric’i kritik success factor.
Sıkça Sorulan Sorular
DSPy ile LangChain arasında temel fark nedir?
LangChain “orkestrator” — manuel yazılmış prompt’ları zincirler. DSPy “compiler” — Python program’larını LLM çağrıları olarak yorumlar ve training set üzerinde otomatik optimize eder. LangChain hızlı POC için iyi, DSPy production-grade ve uzun-vadeli bakım için.
DSPy hangi LLM’lerle çalışır?
OpenAI (GPT-4o, o1), Anthropic (Claude 3.5/4), Google (Gemini 1.5/2), local modeller (Llama, Mistral, Qwen) tamamı destekleniyor. dspy.LM(“openai/gpt-4o”) gibi tek satırla provider seçimi yapılır; aynı program farklı modellerle compile edilip karşılaştırılabilir.
Compile için ne kadar training data gerekir?
Minimum 200 (input, ideal output) çifti; ideal 500-2000. Klasik supervised ML’den çok daha az veri yeterli çünkü temel kabiliyet zaten LLM’de mevcut, DSPy yalnızca instruction ve few-shot örnekleri optimize ediyor.
DSPy production’da runtime overhead getirir mi?
Hayır. Compile aşaması offline; çıktı serialize edilir (dspy.save). Runtime’da yalnızca optimized prompt’lar kullanılır; LangChain ile karşılaştırıldığında token overhead yüzde 6-18 daha yüksek (daha kapsamlı CoT) ama ek latency yok.
Türkçe için DSPy uygulamasında özel zorluk var mı?
Evet, iki ana zorluk: (1) Eval metric — BLEU/ROUGE Türkçe morfolojide yanıltıcı, LLM-as-judge veya multilingual embedding tabanlı semantic similarity kullanın; (2) Training set — Türkçe-spesifik kategoriler (KVKK soruları, sektörel terminoloji) dataset’in en az yüzde 40’ında temsil edilmeli.










Ömer Önal
Mayıs 23, 2026DSPy kurumsal AI ekiplerini manuel prompt iterasyonu kabusundan kurtaran framework. Müşterilerimde RAG Q&A use case’lerinde 8 mühendis-haftası DSPy MIPROv2 compile ile 16 saate iniyor. Türkçe için kritik: BLEU/ROUGE yerine LLM-as-judge metric kullanın; eval set’in en az yüzde 40’ı domain-spesifik Türkçe örnek içersin. Compile çıktıları mutlaka Git’e commit, MLflow registry zorunlu.