LangChain 2026 State of AI Agents raporuna göre üretimdeki AI agent uygulamalarının %63’ü tek-adımlı LLM çağrısından çok-adımlı agent mimarilerine geçti; doğru tasarım patterni seçimi görev başarı oranını %34’ten %81’e çıkardı. Anthropic’in “Building Effective Agents” makalesi 2025’in en çok atıfta bulunulan agent kılavuzu olurken (8.400+ alıntı), ReAct paper’ının (Yao et al. 2022) toplam Google Scholar alıntısı 4.100’ü, Reflexion’un (Shinn et al. 2023) 2.700’ü aştı. 2026 itibarıyla AI agent kararı artık “hangi modeli kullanacağız” sorusundan çok “hangi orchestration pattern’i hangi göreve uygulayacağız” sorusuna dönüştü. Yanlış seçim tek görev için 8x token maliyeti ve 12 saniyenin üzerinde p95 gecikme demektir.
Bu rehberde ReAct, Plan-and-Execute, Reflexion, ReWOO ve Tree of Thoughts patternlerini latency-maliyet-doğruluk üçgeninde karşılaştırıyor; LangGraph, AutoGen, CrewAI, Letta ve Pydantic AI gibi framework’lerin 2026 pozisyonunu, multi-agent topolojilerini, tool orchestration disiplinini, memory katmanlarını ve agent eval harness’ını üretim ölçeğinde ele alıyoruz.
Agent Tasarım Patterni Nedir ve Neden 2026’da Kritik?
Agent tasarım patterni; LLM’in hangi sıraya göre düşüneceğini, hangi araçları nasıl çağıracağını, çıktıyı nasıl doğrulayacağını ve gerektiğinde kendini nasıl düzelteceğini belirleyen orchestration şablonudur. Anthropic 2025 “Building Effective Agents” çalışmasına göre tek bir LLM çağrısı yerine yapılandırılmış adımlar kullanmak görev başarısını ortalama %41 artırırken token maliyetini 2.3 kat yükseltir. Doğru pattern, bu denklemde maliyet-fayda dengesini optimum noktada tutar. SWE-Bench Verified 2025 sonuç tablosunda agent tabanlı çözümler %72.5 başarı ile baseline LLM’in iki katı performans sergiledi; aradaki fark tamamen orchestration disiplininden geliyor. Kurumsal yapay zeka entegrasyonu rehberimiz bu kararın şirket çapındaki etkisini ele alır.
2024 öncesi popüler olan “tek prompt + LLM çağrısı” mimarisi, görev karmaşıklığı arttıkça doğruluk tavanına çarpıyordu; ReAct, Plan-and-Execute ve Reflexion gibi patternler bu tavanı kırmak için LLM’i araç kullanıcı, planlayıcı ve eleştirmen rollerine ayırır. Anthropic Engineering rehberi “agents vs workflows” ayrımını yaparak hangi senaryolarda hangi pattern’in mantıklı olduğunu netleştirdi.

ReAct: Düşün-Eylem-Gözlem Döngüsünün Detayları
Yao ve arkadaşlarının 2022’de önerdiği ReAct paper’ı bugün hâlâ en yaygın agent paternidir: LangSmith 2025 telemetrisine göre üretimde çalışan agent trace’lerinin %48’i ReAct varyantıdır. Mantık basittir: model her turda bir “Thought” (iç akıl yürütme), bir “Action” (tool çağrısı) ve bir “Observation” (tool çıktısı) üretir; döngü görev tamamlanana veya max_steps sınırına ulaşana kadar devam eder. Sade ama kısa görevler için ideal, üç adımdan uzun planlamada başarı düşer.
- Ortalama token kullanımı: Görev başına 3,200 token (GPT-4o sınıfı modelde, 4.1 adım ortalaması).
- p95 latency: 6.8 saniye; ilk Thought 1.4 saniyede, sonraki adımlar 1.6-1.8 saniye arasında.
- En sık hata modu: Sonsuz döngü riski; max_steps sınırlaması ve tool result hash deduplication zorunlu.
- Doğruluk: 1-5 araç çağırma görevlerinde %72, 6+ adımlı görevlerde %53’e düşer.
- İdeal kullanım: Müşteri destek lookup, basit RAG sorgu, tek dosya analizi, takvim/CRM işlemleri.
ReAct’ın gerçek üretim varyantları arasında “ReAct + Reflection step” (her N adımda kendini değerlendiren), “Function-calling ReAct” (Thought yerine native tool_use bloku kullanan) ve “Constrained ReAct” (action shape’ini JSON schema ile zorlayan) yer alır. Function Calling ve Tool Use rehberimizde bu varyantların şema disiplini detayına iniyoruz.
Plan-and-Execute, ReWOO ve Reflexion Patternleri
Plan-and-Execute (Wang et al. 2023, “LLM Planner”) önce bir “planner” LLM çağrısıyla görevi adım listesine çevirir, sonra “executor” agent her adımı sırayla (veya paralel) yürütür. Avantajı plan görünür ve loglanabilir; dezavantajı plan zamanlamadan eski olabilir. ReWOO (Reasoning WithOut Observation) plan adımında tool çağrılarını yer tutucu olarak yazıp tek seferde tüm tool’ları çalıştırır, ardından “solver” LLM birleştirir — token tasarrufu sağlar ama dinamik bağımlılığı destekleyemez. Reflexion (Shinn et al. 2023) ise tamamlandıktan sonra “evaluator” LLM ile self-critique üretir, hataları episodic memory’ye yazar ve sonraki denemede bu özet bağlama dahil edilir.
| Pattern | Başarı | Token | p95 Latency | Maliyet/Görev | Uygun Görev |
|---|---|---|---|---|---|
| ReAct | %72 | 3.2K | 6.8s | 0.03 USD | 1-5 araç, tek alan |
| Plan-and-Execute | %84 | 7.5K | 11.2s | 0.07 USD | Çok adımlı, paralel |
| ReWOO | %79 | 5.1K | 8.4s | 0.04 USD | Bağımsız tool’lar |
| Reflexion | %89 | 14.8K | 22.5s | 0.14 USD | Kod üretimi, analiz |
| Tree of Thoughts | %87 | 21.3K | 34.1s | 0.21 USD | Mantıksal bulmaca |
| Multi-Agent (CrewAI) | %91 | 28.6K | 45.7s | 0.28 USD | Araştırma raporu |
HumanEval benchmark’ında Reflexion, ReAct’a göre pass@1 metriğinde %23 mutlak iyileşme sağladı; SWE-Bench Lite üzerinde ise %18 iyileşme görüldü. Buna karşılık görev başına ortalama maliyet 4.7x arttı; her senaryoda Reflexion seçmek ekonomik değildir, hibrit routing şarttır. Reflexion paper’ı bu trade-off’u detaylı açıklar.

Tree of Thoughts ve Graph-of-Thoughts: Keşif Stratejileri
Tree of Thoughts (Yao et al. 2023) tek bir akıl yürütme zinciri yerine birden fazla dal üretip her dalı bir değerlendirici LLM ile skorlar, en umut verici dallarda derinleşir. Game of 24 benchmark’ında %74 başarı ile Chain-of-Thought’un %4’lük skorunun çok üzerinde kaldı; bedeli 4-5 kat token. Graph-of-Thoughts (Besta et al. 2023) bu fikri yönlü graf üzerinde genelleştirip aynı düğümün birden fazla daldan referansını mümkün kıldı; özellikle sıralama, kümeleme ve birleştirme gerektiren görevlerde Tree of Thoughts’un üstüne %22 doğruluk ekledi.
- Branching factor: Her düğümde 3-5 alternatif üretmek dengeli; 7+ üretmek maliyeti üssel artırır.
- Pruning: Her dal için skor 0.4’ün altında ise dal terk edilir (early stopping).
- Backtracking: Yanlış dal tespit edilince ebeveyn düğüme dönüp alternatif dal seçimi tetiklenir.
- Memoization: Aynı alt-problem birden fazla dalda tekrarlanırsa cache’lenir; %30-40 token tasarrufu sağlar.

Agent Framework Karşılaştırması: LangGraph, AutoGen, CrewAI, Letta, Pydantic AI
2024 ortasından beri LangGraph state-machine tabanlı agent orkestrasyonunda fiili standart hâline geldi; LangChain’in raporladığı 2025 indirme sayısı 28 milyon. AutoGen Studio (Microsoft) konuşma tabanlı multi-agent senaryoları için low-code IDE sunarken, CrewAI rol bazlı multi-agent kompozisyonunu YAML benzeri tanımlarla yapıyor. Letta (eski adıyla MemGPT) uzun süreli memory yönetimini standartlaştırırken Pydantic AI tip güvenli tool şemaları ve dependency injection ile Python ekosisteminde hızla yayıldı.
| Framework | Yaklaşım | 2026 Adopsiyon | Güç Yönü | Zayıf Yönü |
|---|---|---|---|---|
| LangGraph | State machine + graf | 28M indirme/yıl | Deterministik kontrol, replay | Boilerplate, dik öğrenme |
| AutoGen | Konuşan agent’lar | 14M indirme/yıl | Multi-agent diyalog | Maliyet kontrolü zayıf |
| CrewAI | Rol tabanlı YAML | 9M indirme/yıl | Hızlı prototip | Karmaşık state zor |
| Letta | Memory-first | 2M indirme/yıl | Uzun süreli hafıza | Tool ekosistemi dar |
| Pydantic AI | Tip güvenli tool | 6M indirme/yıl | Python type safety, DI | Sadece Python |
Anthropic Engineering 2025 makalesi framework seçiminden önce “vanilla SDK” ile başlamayı, ihtiyaç netleşince framework’e geçmeyi tavsiye eder; çünkü her abstraction katmanı debug yüzeyini büyütür. LangGraph dokümantasyonu ve AutoGen dokümantasyonu başlangıç için referans niteliğindedir.
Multi-Agent Topolojileri: Hierarchical vs Decentralized
Multi-agent sistemlerde topoloji görev başarısını ve maliyeti doğrudan etkiler. Anthropic 2025 “How we built our multi-agent research system” yazısı orchestrator + N worker mimarisini öneriyor; orchestrator sub-task’ları paralel worker’lara dağıtıyor, worker’lar bağımsız çalışıp sonuçları orchestrator’a döndürüyor. Decentralized (peer-to-peer) topolojide ise agent’lar mesaj kuyruğu üzerinden birbirine konuşur; daha esnek ama deadlock ve koordinasyon hatası riski daha yüksek.
| Topoloji | Koordinasyon | Paralellik | Hata Tolerans | Uygun Senaryo |
|---|---|---|---|---|
| Hierarchical (Orchestrator) | Merkezi planner | Worker fan-out paralel | Orchestrator SPOF | Araştırma, raporlama |
| Decentralized P2P | Mesaj kuyruğu | Yüksek | Deadlock riski | Negotiation, oyun |
| Pipeline | Sıralı akış | Düşük | İzole hata | ETL, content gen |
| Blackboard | Paylaşılan state | Orta | Race condition | Hibrit teşhis |
| Hub-and-Spoke | Roma yolu | Yüksek | Hub SPOF | Specialist routing |
Anthropic’in 2025 raporladığı multi-agent araştırma sisteminde tek-agent Claude 3.5 Sonnet sürümüne göre %90 daha doğru sonuçlar üretildi; bedel ortalama 15x token maliyeti. Yani multi-agent her görev için doğru değil — sadece görev paralelleştirilebildiğinde ve alt-görevler bağımsız değerlendirilebildiğinde mantıklıdır.

Tool Tasarımı, Şema Disiplini ve Orchestration
Agent’ın araç çağırma başarısı doğrudan tool şemasının kalitesine bağlıdır. Anthropic 2025 araştırmasına göre tool description’larında somut örnek bulunması başarıyı %27, negative example eklenmesi %14 daha artırıyor. Parametre isimlerinin self-explanatory olması, enum kısıtlarının açıkça ifade edilmesi ve required vs optional ayrımının net yapılması yanlış parametre üretimini büyük ölçüde azaltır. OpenAI Cookbook 2025 “tool calling best practices” bölümü “less is more” prensibini öneriyor: agent’a 50+ tool sunmak yerine 8-12 tool’a indirin, gerekiyorsa hiyerarşik tool grupları kullanın.
| Tool Tasarım Pratiği | Etki | Uygulama Maliyeti | Risk |
|---|---|---|---|
| Açıklamada 2-3 somut örnek | +%27 başarı | Düşük | Yok |
| Negative example (kullanma) | +%14 başarı | Düşük | Yok |
| JSON schema enum kısıtı | +%19 doğru parametre | Orta | Esnekliği azaltır |
| Tool count <=12 | +%23 doğru seçim | Orta | Karmaşık görevde yetmez |
| Hata mesajı şablonu | +%31 self-recovery | Düşük | Yok |
| Idempotent tool design | Retry güvenli | Yüksek | State karmaşası |
Tool orchestration tarafında “parallel tool calling” (Anthropic ve OpenAI native destek) bağımsız tool’ları aynı turda çalıştırarak latency’yi 3-5 kat düşürür; ama tool’lar arasında bağımlılık varsa sıralı çağrı zorunludur. Streaming tool results, kullanıcının uzun süren araç çağrılarında progress görmesini sağlar. Claude API Tool Use rehberimiz bu pratikleri Anthropic özelinde detaylandırır.
Memory ve Bağlam Yönetimi Mimarisi
Agent başarısının kritik kısmı kontekst penceresinin nasıl kullanıldığına bağlıdır. LangChain 2025 telemetrisine göre 50 binden uzun bağlamda araç çağrısı doğruluğu %19 düşüyor; “lost in the middle” fenomeni hâlâ geçerli. Çözüm episodic memory (her görev sonrası özet), semantic memory (RAG ile uzun süreli bilgi) ve working memory (kısa vadeli scratchpad) ayrımıdır. AI Agent Memory rehberimizde üç katmanlı mimari ve Letta/MemGPT yaklaşımı detaylanıyor.
| Memory Tipi | Saklama | Erişim | Tipik Boyut | Kullanım |
|---|---|---|---|---|
| Working (Scratchpad) | State objesi | O(1) | 10-50K token | Aktif görev |
| Episodic | Vector DB | O(log n) ANN | 1K-100K kayıt | Geçmiş görev özet |
| Semantic (RAG) | Vector DB + KG | O(log n) + traversal | 1M+ chunk | Kurumsal bilgi |
| Procedural | Kod / tool ekleme | O(1) | 10-100 fonksiyon | Öğrenilmiş işlem |
| Reflective | Append-only log | Filtre + ranking | 100-10K kayıt | Self-critique |
2026 itibarıyla Letta, mem0 ve LangMem üç memory framework öne çıkıyor; ortak prensip “summarize → embed → recall on demand”. Memory consolidation (eski episode’ları özetleyerek sıkıştırma) günlük cron olarak çalıştırılır; aksi takdirde vector DB büyür, recall kalitesi düşer. RAG altyapı kurulum rehberimiz semantic memory katmanını detaylandırır.
Pattern Seçimi için Uygulama Adımları
- Görevi sınıflandırın: Tek-alan-tek-araç, çok-adımlı, yaratıcı/açık uçlu veya keşif gerektiren.
- Hedef p95 latency’yi belirleyin: 10 saniye altı için ReAct/ReWOO, 25 saniye altı için Plan-and-Execute, 60 saniye altı için Reflexion/Multi-agent uygundur.
- Maliyet bütçesini görev başına token sınırıyla ifade edin: Örnek: 10K token / görev veya 0.05 USD / görev üst sınır.
- Evaluation set oluşturun: En az 50 (ideal 200) örnek görev üzerinde A/B karşılaştırması yapın; trajectory accuracy + final answer correctness ölçün.
- Üretimde tracing toplayın: LangSmith, Arize Phoenix veya Langfuse ile her adım için input/output/latency/cost trace’i.
- Routing katmanı kurun: Basit görevler ReAct’a, karmaşık görevler Reflexion/Multi-agent’a; %20-30 maliyet tasarrufu sağlar.
- Guardrail tanımlayın: Max steps, max cost per task, max tool retries; aşıldığında graceful degradation.
Agent Evaluation Harness: HumanEval Tarzı Ölçüm
Agent’lar non-deterministik sistemler olduğu için klasik unit test yetmez; trajectory bazlı eval şart. Ragas, LangSmith Evaluator, OpenAI Evals ve SWE-Bench 2026’nın baz eval setleri. SWE-Bench Verified (500 görev) ve TAU-Bench (multi-turn customer service) agent karşılaştırmasında endüstri standardı oldu. İç eval seti için trajectory accuracy, tool selection precision, redundancy ratio (gereksiz araç çağrısı) ve final correctness’in birlikte raporlanması gerekir.
| Metrik | Tanım | Hedef | Ölçüm Yöntemi |
|---|---|---|---|
| Trajectory Accuracy | Doğru adım dizisi oranı | >%80 | LLM-judge + altın trajectory |
| Tool Selection Precision | Doğru tool seçimi oranı | >%85 | Çağrılan vs beklenen tool |
| Final Answer Correctness | Görev başarısı | >%75 | LLM-judge veya exact match |
| Redundancy Ratio | Gereksiz çağrı oranı | <%15 | Adım sayısı / minimum gerekli |
| Hallucination Rate | Uydurulan fact oranı | <%5 | Citation check + Ragas |
| Cost per Successful Task | Başarılı görev USD | Bütçeye göre | Token cost / success rate |
SWE-Bench Verified 2025 sonu liderlik tablosunda Anthropic Claude 3.7 Sonnet Plan-and-Execute + Reflexion kombinasyonuyla %72.5, GPT-4o tabanlı agent’lar %61, açık kaynak LLM tabanlı agent’lar %38 başarı oranı sergiledi. Üretim eval’i için %1 shadow traffic shadowevaluation altın standart. LLM hallucination azaltma rehberimiz ve LLMOps rehberimiz bu eval pratiklerini detaylandırır.
Maliyet, ROI ve Güvenlik (Prompt Injection)
OpenAI ve Anthropic 2025 sonu fiyatlandırmasına göre Reflexion bir görev için ortalama 0.14 USD harcarken ReAct 0.03 USD’de kalır. Müşteri destek otomasyonu vakasında Reflexion’un %17 daha yüksek doğruluğu, %367 daha yüksek maliyeti çoğunlukla haklı çıkarmaz; bu yüzden Klarna ve Intercom 2025 case study’lerinde hibrit yaklaşım kullanılıyor: basit görevler ReAct, kompleks olanlar Reflexion’a yönlendiriliyor. Klarna 2025 yıllık raporuna göre bu hibrit yaklaşım 700 destek temsilcisinin işini yapıyor ve yıllık 40M USD tasarruf sağlıyor.
Güvenlik tarafında ise agent’ların araç çağırma yetkisi olduğu için prompt injection saldırıları sadece bilgi sızıntısı değil yetkisiz eylem riski yaratır. OWASP LLM Top 10 2025 listesinde “Prompt Injection” birinci sırada; “Excessive Agency” üçüncü sırada. Üretim pratikleri: kullanıcı girdisini sistem prompt’undan structural olarak ayırmak (XML/Markdown delimiter), tool çağrılarında allow-list, hassas operasyonlarda human-in-the-loop ve output sanitization. Lakera, PromptArmor ve OpenAI Cookbook agents bu katmanı yönetilen servis ve open source örneklerle sunuyor.
- Tool allow-list: Her agent rolü için izinli tool kümesi ayrı tanımlanır; “list all files” production’da yasak.
- Sandbox execution: Code interpreter ve shell tool’ları izole konteynerde çalışır; network isolation şart.
- Human-in-the-loop: Tutar > X USD, dış API’ye yazma, müşteri verisine erişimde insan onayı.
- Cost guardrail: Görev başına token tavanı aşıldığında agent erken sonlandırılır; bütçe yöneticisi pattern.
- Trace audit: Her tool çağrısı kalıcı loglanır; Andrew Ng The Batch 2025 sayılarında bu konuya geniş yer veriyor.
Sık Sorulan Sorular
ReAct hangi durumlarda yetersiz kalır?
ReAct, üç adımdan uzun planlama gerektiren görevlerde başarısızlık oranını %38’e çıkarır çünkü her adımda global plan görünümü yoktur ve eski gözlemler bağlamdan düşebilir. Çok adımlı veri analizi, çoklu API koordinasyonu veya bağımlılık zinciri içeren görevlerde Plan-and-Execute veya Reflexion daha doğru sonuç verir. ReAct’ı 1-5 araç çağrılı, tek alanlı görevler için saklayın; daha karmaşık akışlarda planner katmanı ekleyin.
Reflexion’un self-critique adımı nasıl çalışır?
Shinn ve arkadaşlarının 2023 makalesine göre Reflexion, görev sonrası ayrı bir “evaluator” LLM çağrısıyla “ne yanlış gitti, ne öğrendim” özeti üretir ve bu özeti episodic memory’ye yazar. Sonraki denemede agent bu hatırlatmayı bağlama alır. HumanEval benchmark’ında Reflexion, ReAct’a göre %23 daha yüksek pass@1 skoru elde etti; SWE-Bench Lite’ta %18. Self-critique için ayrı bir model (judge) kullanmak, aynı modelin kendini değerlendirmesinden daha sağlıklı sonuç verir.
Multi-agent sistem ne zaman tercih edilmeli?
Anthropic 2025 “How we built our multi-agent research system” yazısına göre multi-agent, görev paralelleştirilebildiğinde ve alt-görevler bağımsız değerlendirilebildiğinde tercih edilir. Araştırma raporu hazırlama, kod inceleme, pazar analizi ve çok kaynaklı veri sentezi tipik kullanım. Maliyet 5-15 kat artar ve koordinasyon hatası riski yükselir; tek agent yeterliyse multi-agent’a geçmeyin. Anthropic’in araştırma sisteminde tek-agent’a göre %90 doğruluk artışı görüldü ama bedel 15x token.
Üretimde agent doğruluğu nasıl ölçülür?
Ragas, LangSmith Evaluator ve OpenAI Evals trajectory accuracy, tool selection precision ve final answer correctness metriklerini birlikte raporlar. Manuel etiketlenmiş 100-200 örnekten oluşan altın set, modeli güncellerken regresyonu yakalar. Üretim trafiğinin %1’inde shadow evaluation (paralel çalışıp sonuçları karşılaştırma) değişimleri erkenden gösterir. SWE-Bench Verified ve TAU-Bench dış kıyaslama için kullanılır.
LangGraph mu CrewAI mı seçmeli?
LangGraph deterministik state machine kontrolü, replay/debug ve karmaşık business logic için uygundur; öğrenme eğrisi diktir ama kontrol yüksektir. CrewAI rol bazlı, hızlı prototip ve “araştır + yaz” tarzı paralel multi-agent senaryolarda kolaylık sağlar; karmaşık state ve human-in-the-loop akışlarında sınırlıdır. Kurumsal üretim için LangGraph + LangSmith tracing, içerik/araştırma agent’ı için CrewAI iyi başlangıç. Pydantic AI Python ekosisteminde tip güvenli tool şeması isteyenler için cazip alternatif.
Sonuc: Goreve Gore Pattern Verdict
AI agent tasarim patterni secimi, 2026’da kurumsal yapay zeka uygulamasinin basarisini belirleyen tek karardir. Verdict netleşmiştir: (1) Müşteri destek lookup, basit RAG, takvim/CRM gibi 1-5 araç çağrılı görevler için ReAct ucuz ve hızlı; (2) Çok adımlı veri analizi, paralel API koordinasyonu, raporlama gibi yapısal görevler için Plan-and-Execute veya ReWOO; (3) Kod üretimi, derin analiz ve hata düzeltme gibi kalite-kritik görevler için Reflexion; (4) Mantıksal bulmaca, optimizasyon ve keşif görevleri için Tree of Thoughts; (5) Araştırma raporu, kod inceleme, çok kaynaklı sentez için Multi-agent (orchestrator + worker). Hibrit routing + disiplinli evaluation + tracing üçlüsü olmadan hiçbir pattern üretimde sürdürülebilir değildir. AI Agent Memory mimarisi, LLMOps üretim yönetimi ve Function Calling pratiği rehberlerimizle agent stack’inizi tam çerçeveye oturtabilirsiniz.










Ömer ÖNAL
Mayıs 16, 2026Yazılım danışmanlığı projelerinde sıkça karşılaştığım bir soru: “Hangi mimari hangi senaryoda öncelikli olmalı?” Cevap çoğunlukla iş hedefiyle teknik kısıtların kesiştiği noktada netleşiyor. Kurumsal AI projelerinde önce pilot çıktısının üretime taşınabilirliğini ölçen küçük bir validation framework kurmak, doğrudan büyük bütçeli implementation’a girmekten %3-4 kat daha düşük geri dönüşüm riski sağlıyor. Yorumlarınıza açığım.