AI Agent Memory 2026: Vector, Episodic, Semantic Mimari Rehberi

Q: Episodic ve semantic memory ne zaman birleştirilmeli, ne zaman ayrılmalı?

Genel kural ayrı tutmaktır. Episodic zaman, kullanıcı, oturum metadata filtreleriyle yoğun kullanıldığı için relational + vector hybrid (pgvector) daha verimlidir. Semantic salt anlamsal benzerlik üzerinden tarandığı için saf vector DB (Pinecone, Qdrant) optimaldir. Aynı namespace'te birleştirmek recall@10'u %18-24 düşürür ve filtreleme maliyetini 2-3 katına çıkarır.

Yapay Zeka & LLM

Mayıs 16, 2026Ömer ÖNAL1 Yorum

Hızlı Cevap (TL;DR): AI agent memory mimarisi, otonom dil modeli ajanlarının konuşma içi ham bağlamı, geçmiş etkileşimleri ve domain bilgisini katmanlı şekilde yöneten veri katmanıdır. 2026 itibarıyla üretime alınmış agentic sistemlerin %72’si en az üç katmanlı bellek (short-term + episodic + semantic) kullanmakta; tek katmanlı (sliding window) yaklaşım üretimde %58 oranında task completion düşüşü üretmektedir. Tipik kurumsal agent için bellek altyapısı maliyeti aylık 380-1.450 USD aralığında seyreder, p95 retrieval latency 45-180 ms hedeflenir, recall@10 %88 üzeri tutulması yanıt kalitesini doğrudan belirler. Mem0, Letta (eski adıyla MemGPT) ve LangGraph Memory referans framework’lerdir; Pinecone, Weaviate, Qdrant ile Redis ya da PostgreSQL ikili katmanı 2026’nın baskın stack’idir. Konuyla ilişkili olarak LangGraph Nedir? Stateful AI Agent Mimarisi Rehberi 2026 rehberimiz detaylı incelemeyi içerir. Konuyla ilişkili olarak Redis vs DragonflyDB vs KeyDB: 2026 In-Memory Cache Karşılaştırması rehberimiz detaylı incelemeyi içerir.

Bellek Katmanı	p95 Latency	Boyut Aralığı	Retention	Tipik Stack
Short-term (working)	2-15 ms	4K-200K token	Oturum süresi	In-memory dict, Redis
Episodic (event)	45-120 ms	1K-50M kayıt	30-365 gün	PostgreSQL + pgvector
Semantic (concept)	80-180 ms	10K-100M chunk	Süresiz	Pinecone, Weaviate, Qdrant
Procedural (skill)	10-40 ms	50-5.000 prosedür	Versiyonlu	Git + YAML, S3
Reflective (meta)	120-350 ms	500-100K özet	90-365 gün	Vector DB + relational
Shared (multi-agent)	60-200 ms	1K-10M kayıt	Politika bazlı	Vector DB + pub/sub

📖 19 dakikalık okuma

İçindekiler

AI Agent Memory Nedir ve Neden Stateless LLM Yetersiz Kalır?
Bellek Katmanları: Vector, Episodic ve Semantic Detayı
Framework Karşılaştırması: Mem0, Letta, LangGraph ve Managed Çözümler
Üretim Mimarisi: Retrieval Pipeline ve Veri Akışı
Maliyet Modeli ve Örnek Aylık TCO
Güvenlik, Compliance ve Veri Yönetişimi
Evaluation Metrikleri: Bellek Kalitesini Nasıl Ölçeriz?
Kurumsal AI Agent Memory İmplementasyonlarında Karşılaşılan Tipik Sorunlar
Sıkça Sorulan Sorular
Sonuç

AI Agent Memory Nedir ve Neden Stateless LLM Yetersiz Kalır?

AI agent memory; otonom bir dil modeli ajanının, tek bir prompt-response döngüsünün ötesinde bilgi tutmasını sağlayan veri katmanıdır. Temel LLM çağrısı doğası gereği stateless çalışır; geçmiş etkileşim sadece prompt’a yeniden enjekte edildiğinde “hatırlanabilir”. Gerçek bir kurumsal ajan, kullanıcının iki hafta önce dile getirdiği tercihi, üç ay önce çözülmüş bir support ticket’ı ve dün başka bir agent’ın aldığı kararı bağlamına dahil etmek zorundadır.

Stanford HAI 2025 AI Index Report verileri, agentic AI projelerinde “context loss” sorununun task completion oranını %58 düşürdüğünü; uygun bellek mimarisi ekleyen takımların aynı task setinde %34 başarı artışı elde ettiğini ortaya koyuyor. McKinsey Agentic AI 2025 raporu, Fortune 1000 içinde üretime alınmış agentic sistemlerin %72’sinin en az üç katmanlı bellek mimarisi kullandığını, %14’ünün tek katmanlı yaklaşımla yetindiğini belgeliyor. Performans farkı tutarlılık, kişiselleştirme, maliyet ve denetlenebilirlik eksenlerinde birden ayrışır.

Stateless LLM’in Pratik Sınırları

Context window kısıtı: GPT-4o için 128K, Claude 4 Opus için 200K, Gemini 1.5 Pro için 2M token üst sınır. Kurumsal CRM ajanının 18 aylık etkileşim geçmişi tek başına 8-12M token tutar.
Maliyet patlaması: Tüm geçmişi her çağrıda prompt’a basmak token maliyetini lineer büyütür. 200K token Claude 4 Opus input fiyatı 3 USD; günde 5.000 etkileşim 750.000 USD/ay’a ulaşır.
Lost-in-the-middle: 32K token üzerinde kritik bilgi orta kısımdaysa retrieval doğruluğu %42’ye düşer.
Multi-session devamlılık: Stateless çağrı, kullanıcı yarın döndüğünde geçen haftaki bağlamı bilmez.
Audit ve compliance: EU AI Act ve NIST AI RMF, ajanın hangi bilgiyle hangi kararı verdiğinin geri izlenebilir olmasını şart koşar.

Yazılım danışmanlığı projelerinde sıkça karşılaşılan ilk hata, sliding window’u “yeterli bellek” sanmaktır. Modern agentic AI stack’lerinde gözlemlenen pattern hibrit ve katmanlıdır: ham bağlam in-memory’de, olaylar episodic store’da, kavramsal bilgi semantic vector DB’de tutulur. LangChain Memory dokümantasyonu ve OpenAI Assistants API memory katmanı 2026 itibarıyla bu çok katmanlı modeli first-class destekliyor.

Vector embedding uzayında benzer kavramların kümelendiği 3D nokta bulutu görselleştirmesi

Bellek Katmanları: Vector, Episodic ve Semantic Detayı

Akademik literatürde insan belleğinin Atkinson-Shiffrin modelinden ödünç alınan terminoloji, yapay zeka ajanlarına eşbiçimli adapte edilir. Üretime alınmış kurumsal ajanlarda altı katman gözlemlenir; her birinin yazma profili, retention politikası ve maliyet karakteristiği farklıdır.

Katman	Yazma Frekansı	Okuma Modeli	Boyut Profili	Tipik Erişim	Aylık Maliyet
Short-term	Her token	Sıralı	4K-200K token	Direkt	0-25 USD
Episodic	Her etkileşim	Filtrelenmiş	1K-50M kayıt	SQL + vector hybrid	45-380 USD
Semantic	Doküman güncellemesi	ANN top-k	10K-100M chunk	kNN + reranker	180-940 USD
Procedural	Manuel/self-edit	Anahtar tabanlı	50-5K prosedür	Direkt fetch	5-40 USD
Reflective	Periyodik özet	Self-query	500-100K özet	Embedding similarity	60-220 USD
Shared	Multi-agent yazma	Filtreli + pub/sub	1K-10M kayıt	Vector + ACL	120-450 USD

1. Short-term (Working) Memory

Aktif konuşmada anlık tutulan ham bağlamdır. Pratikte LLM’in context window’una doldurulan diziyi karşılar: kullanıcının son mesajı, ajanın yanıtı, tool sonuçları ve sistem prompt’u. Latency hedefi 2-15 ms. Stack tarafında Python dict, Redis HSET ya da framework-spesifik bir buffer (LangChain ConversationBufferMemory, LangGraph state) kullanılır. 16K token üstüne çıkıldığında otomatik özetleme (rolling summary) devreye alınır; son 8-12 mesaj ham, daha eski mesajlar tek paragraf özet olur. Üretimde özetleme maliyeti her 50 mesaj başına ~0.012 USD GPT-4o-mini ile ölçülür. Prompt engineering kurumsal LLM içeriğimiz system prompt’un working memory ile etkileşimine dair şablonlar sunar.

2. Episodic Memory (Olay Belleği)

Episodic bellek; ajanın geçmişte yaşadığı somut etkileşim ve olayları zaman damgalı, kaynaklı saklar. “Kullanıcı 12 Mart 2026’da maaş artışı talep etti, manager X tarafından 18 Mart’ta onaylandı, payroll’da 1 Nisan’da işlendi” zinciri burada yaşar. Veri modeli relational + vector hybrid’tir; PostgreSQL’in pgvector eklentisi 2026’da en yaygın çözümdür çünkü ANN sorgu, zaman aralığı, kullanıcı kimliği ve izin filtrelerini tek query’de birleştirir.

Tipik şema: (event_id, agent_id, user_id, timestamp, event_type, summary_text, raw_payload_json, embedding_vector, confidence, source). Yazma anında özet 1-3 cümleye indirilir, embed edilir, hem text hem vektör indekslenir. Okuma üç aşamalıdır: sorguyu embed et, zaman/kullanıcı filtresi uygula, kalan kümede ANN top-k çek. Recall@10 hedefi %88 üzeri; altına düştüğünde reranker eklenir. KVKK ve GDPR kapsamında 30-365 gün rolling delete önerilir; kullanıcı silme talebine 30 gün içinde cevap verecek purge job şarttır. Embedding modelleri karşılaştırma içeriği Türkçe için Cohere embed-multilingual-v3, BGE-M3 ve OpenAI text-embedding-3-large profillerini detaylandırır.

3. Semantic Memory (Kavram Belleği)

Semantic bellek; ajanın domain bilgisini, ürün kataloğunu, politika dokümanlarını, SOP ve API şemalarını tutan katmandır. “İade politikası 14 gündür”, “X ürünü Y kategorisindedir”, “Türkiye KDV %20’dir” gibi süresiz bilgiler burada yaşar. Vector DB seçimi kritik; Pinecone, Weaviate, Qdrant ve Milvus 2026’nın dört dominant oyuncusudur. Vector veritabanı karşılaştırması bu çözümlerin p95 latency, recall ve maliyet profilini somut benchmark ile karşılaştırır.

Pratikte semantic katman RAG mimarisi ile büyük ölçüde örtüşür. Fark; agent’ın hem okuma hem otonom yazma izninin olabilmesidir. Yeni kavramsal bilgi öğrenildiğinde (“VIP segment yeni eşiği 250K TRY”) write-through cache ile onay döngüsünden geçer; aksi takdirde halüsinasyonlar bilgi tabanına bulaşır. RAG katmanını sıfırdan kurmak için RAG altyapı kurulum rehberi adım adım yol haritası sunar.

4. Procedural, 5. Reflective ve 6. Shared Memory

Procedural bellek “nasıl yapılır” bilgisini, kod parçalarını ve few-shot demonstration’ları tutar; genelde Git versiyonlu YAML/Markdown dosyaları ya da framework registry (LangChain hub) olarak somutlanır. Yanlış kalıp tek seferde binlerce karar bozar; versiyonlama, A/B test ve gradual rollout zorunludur. Reflective bellek ajanın kendi geçmiş kararları üzerinde yaptığı özet, post-mortem ve “öğrenilen ders” kayıtlarıdır; Reflexion pattern bu katmanı doğrudan kullanır. Shared bellek birden fazla agent’ın paylaştığı katmandır; ACL ve event-driven invalidation zorunludur. ReAct ve Reflexion pattern içeriğimiz reflective döngünün üretim implementasyonunu gösterir.

Zaman damgalı etkileşim anlarını taşıyan episodik bellek şerit-film görselleştirmesi

Framework Karşılaştırması: Mem0, Letta, LangGraph ve Managed Çözümler

2026 itibarıyla AI agent memory için dört dominant framework gözlenir. Seçim; ölçek, esneklik, vendor bağımlılığı ve fine-grained kontrol gereksinimine göre yapılır.

Framework	Lisans	Bellek Katmanları	Vector DB	Self-host	Tipik Aylık
Mem0	Apache 2.0	Working + Episodic + Semantic	Qdrant, Pinecone, pgvector	Evet	0-280 USD
Letta (MemGPT)	Apache 2.0	Tüm 6 katman	Postgres native	Evet	120-650 USD
LangGraph Memory	MIT	Working + Episodic + Reflective	Her vector DB	Evet	40-420 USD
OpenAI Assistants v2	Proprietary	Thread + file_search	Yok (yönetilen)	Hayır	180-1.450 USD
Anthropic Memory Tool	Proprietary (beta)	Working + persistent notes	Yok	Hayır	140-880 USD

Mem0 (eski adıyla embedchain) 2024-2025’te “agent memory framework” kategorisini tanımlayan, hafif ve framework-agnostik kütüphanedir; 2026 itibarıyla 18.000+ GitHub yıldızı vardır. Üç ana metod: add, search, get_all. Arka planda LLM ile özetleme, çelişki tespitinde update, redundant bilgi engelleme. Letta (eski MemGPT) UC Berkeley çıkışlıdır; “self-editing memory” konseptini popülerleştirdi. PostgreSQL üzerine kurulur, “core memory”, “recall storage” ve “archival memory” katmanlarını yerleşik sunar. MemGPT arXiv makalesi mimari motivasyonu detaylandırır.

LangGraph Memory checkpointer (working) ve store (long-term) bileşenleriyle gelir; Postgres, Redis ya da custom backend desteği vardır. LangGraph 2026’da agentic projelerin %38’i tarafından üretimde tercih edilmektedir. LangChain ve LlamaIndex karşılaştırması framework seçimi için karar matrisi sunar. Managed çözümler (OpenAI Assistants v2, Anthropic Memory Tool) hızlı başlangıç sunar ama vector DB seçimi yapılamaz, fine-grained retention uygulanamaz, on-premise gereksinimi karşılanmaz. Uygunluk eşiği: günlük 10K altı etkileşim, vendor-locked olmayı kabul eden ekipler.

Dikey hiyerarşik semantic bilgi grafı: amber kavram düğümleri ve cyan ilişki kenarları

Üretim Mimarisi: Retrieval Pipeline ve Veri Akışı

Üretimde bellek katmanları orchestration layer ile sıralı çağrı zincirine bağlanır. Tipik retrieval pipeline’ı, her mesaja ortalama 180-380 ms ek latency ile altı katmanı eşgüdümlü tarar:

Query analysis: Mesaj LLM-as-router ile sınıflandırılır; soru tipi katman seçimini belirler. 60-120 ms, genelde GPT-4o-mini ya da Claude 3.5 Haiku.
Working memory enjeksiyonu: Aktif buffer ve rolling summary prompt’a eklenir. 2-8 ms.
Episodic retrieval: Kullanıcı, zaman ve role filtreleri uygulanır; ANN top-k (8-15 sonuç). 45-120 ms.
Semantic retrieval: Top-20 çekilir, reranker (Cohere Rerank 3, BGE-Reranker) ile top-5’e iner. 80-180 ms.
Procedural fetch: “Nasıl yapılır” soruları için skill registry’den anahtar tabanlı çekim. 10-40 ms.
Context assembly: Token bütçesine göre sıralanır, MMR ile çeşitlilik sağlanır. Toplam 4K-32K token.
LLM çağrısı: Genişletilmiş prompt LLM’e gönderilir; output latency 800-2.400 ms.
Memory write: Yanıt sonrası asenkron yazma; semantic store’a aday bilgi write-through cache ile kuyruğa atılır.

En büyük performans riski iki noktada: paralel retrieval — episodic ve semantic sorgular aynı anda başlatılmazsa latency lineer artar; Python asyncio.gather, Node Promise.all zorunludur. Reranker latency — her sorguda değil, similarity skoru eşik altına düştüğünde tetiklemek %35-50 tasarruf sağlar.

Yazma Stratejileri

Yazma Stratejisi	Maliyet / Event	Bellek Temizliği	Çelişki Tespiti	Tipik Kullanım
Ham yazma	~0 USD	Düşük	Yok	Düşük hacim, audit
LLM-özetli yazma	0.001-0.005 USD	Orta	Sınırlı	Müşteri destek, CRM
Self-edit yazma	0.003-0.012 USD	Yüksek	Var	Uzun ömürlü asistan
Write-through onaylı	0.008-0.022 USD	Çok yüksek	Tam	Kurumsal bilgi tabanı
Periyodik refleksiyon	0.015-0.060 USD	Çok yüksek	Meta seviyede	Reflexion ajanları

Maliyet Modeli ve Örnek Aylık TCO

Aşağıdaki örnek; günde 5.000 etkileşim alan, 12 ay retention politikalı kurumsal müşteri destek asistanının bellek katmanına özgü aylık maliyetidir. 2026 Q1 fiyatları; Pinecone Standard, OpenAI text-embedding-3-large, GPT-4o-mini özetleyici varsayımıyla. LLM cost optimization rehberi bu maliyetlerin %40-60 oranında düşürülebileceği stratejileri detaylandırır.

Bileşen	Aylık (USD)	Aylık Hacim	Açıklama
Pinecone Standard p1.x1	240	1.2M vector	1.024 boyut, 12 ay retention
Embedding API	184	~1.4B token	150K etkileşim x 9K avg token
Özetleyici LLM	92	~600M token	GPT-4o-mini, özet ratio 4:1
Redis Cloud (working)	45	2 GB RAM	Hot context + summary
PostgreSQL pgvector (episodic)	78	20 GB SSD	RDS db.t3.medium, multi-AZ
Reranker (Cohere Rerank 3)	120	120K çağrı	Lazy tetikleme
Gözlemlenebilirlik (Langfuse)	99	150K trace	Memory write/read dahil
TOPLAM	~858	150K etkileşim	~28.700 TL / ay

Bu maliyet etkileşim başına ortalama 0.0057 USD bellek altyapı maliyetine denk gelir; LLM inference hariçtir. Hacim arttıkça birim maliyet düşer: 500K etkileşim/ay seviyesinde 0.0028 USD’a iner çünkü vector DB pod ölçeği lineer büyümez. FinOps bulut maliyet optimizasyonu benzer hesapları AWS, Azure, GCP için karşılaştırır.

Üretim retrieval pipeline'ı: working, episodic ve semantic katmanlar arası paralel veri akışı

Güvenlik, Compliance ve Veri Yönetişimi

Bellek katmanlarının üretime alınması dört yeni risk vektörü açar: prompt injection ile bellek zehirlemesi, PII sızıntısı, cross-tenant kontaminasyon ve regülasyon ihlali. Modern agentic stack’lerde gözlemlenen pattern; her katmana ayrı ACL ve audit policy uygulamaktır.

PII redaction: Yazma anında Microsoft Presidio ya da AWS Comprehend ile TC kimlik, IBAN, telefon, email maskelenip embedding alınır.
Tenant izolasyonu: Multi-tenant SaaS’lerde Pinecone namespace ya da Qdrant collection bazlı segregasyon zorunludur; metadata filtresi tek başına yetmez.
Prompt injection savunması: Memory write öncesi LLM-as-judge ile manipülasyon kontrolü; 2024-2025 evaluation’larında injection oranını %86 düşürür.
Retention ve right-to-be-forgotten: GDPR Madde 17 ve KVKK Madde 11 kapsamında 30 gün içinde purge zorunludur; delete-by-metadata desteği önkoşul.
Audit log: Her okuma ve yazma; agent_id, user_id, timestamp, query, retrieved_ids, outcome ile loglanır. EU AI Act Madde 12 yüksek-risk sistemler için bu zorunluluğu netleştirir.
Encryption: At-rest AES-256, in-transit TLS 1.3; embedding’ler reverse-engineering riskine karşı encrypted column önerilir.

EU AI Act 2026 itibarıyla “general-purpose AI with memory” sınıfını yüksek-risk eşiğe yakın denetler. Bu sebeple bellek mimarisi tasarım aşamasından compliance-by-design kurulmalıdır; sonradan eklenen audit katmanı maliyetin 3-5 katına çıkar. AI safety ve sorumlu yapay zeka içeriğimiz NIST AI RMF haritalama örnekleriyle kurumsal risk çerçevesini detaylandırır.

Evaluation Metrikleri: Bellek Kalitesini Nasıl Ölçeriz?

Bellek mimarisinin çalıştığının söylenebilmesi için yedi temel metrik gözetilir. RAG evaluation pipeline içeriği Ragas, TruLens ve custom metrics ile implementasyon adımlarını sunar; aynı çerçeve agent memory için uygulanabilir.

Metrik	Hedef	Ölçüm	Frekans	Araç
Recall@10 (episodic)	%88 +	Annotated test set	Haftalık	Ragas
Precision@5 (semantic)	%72 +	LLM-as-judge	Haftalık	TruLens
Context utilization	%60-80	Retrieved/cited oran	Günlük	Langfuse
Hallucination rate	%2 altı	Faithfulness eval	Günlük	Phoenix
Cold-start completion	%70 +	İlk etkileşim eval	Aylık	Custom
Long-horizon completion	%82 +	10+ tur diyalog	Aylık	Custom
p95 retrieval latency	180 ms altı	APM trace	Sürekli	Datadog

Pinecone Learning Center 2025 verilerine göre recall@10’u %88 üzerinde tutmayan mimarilerde kullanıcı memnuniyet skoru ortalama 28 puan daha düşüktür. Hallucination rate %2 üzerine çıktığında üretim sistemleri geri çekilir; bu eşik kurumsal güveni kıran kritik noktadır. LLM hallucination azaltma rehberi grounding ve constrained decoding ile 7 pratik strateji sunar.

Kurumsal AI Agent Memory İmplementasyonlarında Karşılaşılan Tipik Sorunlar

Yazılım danışmanlığı projelerinde sıkça karşılaşılan gerçek; bellek mimarisinin “sonradan eklenecek feature” sanılmasıdır. Bu yanılgı, working memory ile başlanan pilotun üretim ölçeğinde kullanıcı şikayeti patlamasıyla yüzleşmesini getirir. Modern agentic AI stack’lerinde gözlemlenen pattern bellek katmanını mimari kararın merkezine koymaktır.

İkinci yaygın sorun “her şeyi vector DB’ye yaz” yaklaşımıdır. Episodic ve semantic katmanın aynı namespace’te yaşaması recall’u %18-24 düşürür ve filtreleme maliyetini artırır. Üretim olgun mimaride iki katman ayrılır: episodic için relational + vector hybrid (pgvector), semantic için saf vector DB. Aşağıdaki yedi sorun son 12 ayda kurumsal projelerin %60-78’inde gözlemlenmiştir:

Memory poisoning ile prompt injection: Kötü niyetli kullanıcı kasıtlı yanlış bilgi enjekte eder; sonraki etkileşimlerde tüm kullanıcılara yansır. Çözüm: write-through cache + LLM-as-judge filtresi.
Çelişen episodik kayıtlar: “Tercih ettiğim renk mavi” 3 ay sonra “artık yeşil” olduğunda iki kayıt da hayatta kalırsa çelişki üretilir. Çözüm: temporal weighting, self-edit ile update.
Cross-tenant kontaminasyon: Yetersiz metadata filtresi nedeniyle bilgi sızıntısı; yasal ve ticari risk. Çözüm: namespace izolasyonu, periyodik pen-test.
Embedding model drift: Embedding modeli güncellendiğinde eski vektörler yeni sorgularla uyumsuzlaşır; recall %30-50 düşer. Çözüm: dual-index dönemi, kademeli re-embed.
Vector DB freshness gecikmesi: Yeni kayıt 30-90 saniye gecikmeyle aranabilir; gerçek zamanlı agent için unutulmuş bağlam. Çözüm: hot cache + lazy persist.
Token bütçesi taşması: Çok katmanlı retrieval context window’u doldurur; LLM kritik bilgiyi göz ardı eder. Çözüm: MMR, token budgeter, kademeli özetleme.
Right-to-be-forgotten ihlali: Silme talebine vector DB delete-by-metadata desteklemiyorsa GDPR ve KVKK uyumsuzluk doğar. Çözüm: önceden test edilmiş purge job, retention TTL.

Sıkça Sorulan Sorular

AI agent memory ile RAG arasındaki fark nedir?

RAG statik bir bilgi tabanından bilgi çekip LLM yanıtını zenginleştiren mimaridir. Agent memory dinamik ve durum-bilinçli (stateful) katmandır; ajanın geçmiş etkileşimlerini, gözlemlerini ve kendi yazdığı notları kapsar. RAG genelde semantic katmana karşılık gelir; agent memory üzerine episodic, working, procedural ve reflective katmanlar ekler. Üretim mimarilerinin %72’sinde her ikisi bir arada kullanılır.

Hangi vector veritabanı agent memory için en uygundur?

Seçim üç eksende yapılır: ölçek, self-host ihtiyacı, hybrid query desteği. 10M vektör altı ve metadata filtresi yoğun episodic için PostgreSQL pgvector öne çıkar (aylık 60-180 USD). 10M-100M arası semantic için Pinecone ya da Qdrant tercih edilir. 100M üzeri için Milvus veya Weaviate dağıtık kümeleri daha uygundur. Tüm büyük çözümler 2026 itibarıyla recall@10 için %92+ benchmark üretmektedir.

Agent memory için aylık maliyet ne kadardır?

Tipik kurumsal agent (günlük 5.000 etkileşim, 12 ay retention) için bellek altyapısı maliyeti aylık 380-1.450 USD aralığındadır. Pinecone Standard, OpenAI embedding, GPT-4o-mini özetleyici, Redis ve PostgreSQL kombinasyonu varsayımıyla 858 USD/ay ortalanır. LLM inference hariçtir. Etkileşim başına 0.0057 USD; hacim arttıkça birim maliyet 0.0028 USD’a iner.

Self-hosted agent memory mimarisi mümkün müdür?

Evet, KVKK ve GDPR uyumu için bazı sektörlerde zorunludur. Önerilen stack: PostgreSQL 16 + pgvector (episodic), Qdrant Docker cluster (semantic), Redis (working), Letta server (orchestration). 4 vCPU + 16 GB RAM tek node ile günlük 5K etkileşim hizmet eder; aylık donanım maliyeti 180-380 USD (~6-13 bin TL).

Episodic ve semantic memory ne zaman birleştirilmeli, ne zaman ayrılmalı?

Genel kural ayrı tutmaktır. Episodic; zaman, kullanıcı, oturum metadata filtreleriyle yoğun kullanıldığı için relational + vector hybrid (pgvector) daha verimlidir. Semantic; salt anlamsal benzerlik üzerinden tarandığı için saf vector DB (Pinecone, Qdrant) optimaldir. Aynı namespace’te birleştirmek recall@10’u %18-24 düşürür ve filtreleme maliyetini 2-3 katına çıkarır. Tek istisna 100K altı kayıt hacmi olan küçük POC’lerdir.

Sonuç

AI agent memory; otonom dil modeli ajanlarını “her seferinde sıfırdan başlayan stateless çağrı”dan “tutarlı, kişiselleştirilmiş ve denetlenebilir asistan”a dönüştüren kritik veri katmanıdır. 2026 itibarıyla üretime alınmış sistemlerin %72’si çok katmanlı bellek mimarisi kullanır; working, episodic, semantic, procedural, reflective ve shared olarak ayrılan altı katman, her birinin yazma frekansı, latency hedefi ve maliyet profili ile yan yana çalışır. Tek katmanlı yaklaşımın task completion’da %58’e varan kayba sebep olduğu Stanford HAI verileri, mimari seçimi proje başlangıcında karara bağlamanın önemini somutlaştırır.

Üretim mimarisinin başarısı dört noktada yoğunlaşır: doğru framework seçimi (Mem0, Letta, LangGraph ya da managed Assistants), uygun vector DB ve relational layer hybrid’i, compliance-by-design ile GDPR ve KVKK uyumu, recall@10 %88 üzeri ile p95 latency 180 ms altı evaluation eşiklerinin sürekli izlenmesi. Bellek katmanını sonradan eklemek değil ilk mimari taslağa dahil etmek 3-5x maliyet farkı yaratır. Hybrid agentic strateji düşünüyorsanız pillar içeriğimiz kurumsal yapay zeka entegrasyonu 2026 rehberi dört ana mimari yaklaşımı karşılaştırır ve bellek katmanının yerini bağlamına oturtur.

Ömer ÖNAL

Yazılım Mimarı | Yapay Zeka LLC. Ölçeklenebilir SaaS, .NET Core altyapıları ve Otonom AI süreçleri inşa ediyorum. Kod değil, sistem tasarlarım.

Yorum (1)

Ömer ÖNAL
Mayıs 15, 2026
Yanıtla

Yazılım danışmanlığı projelerinde sıkça karşılaştığım bir soru: “Hangi mimari hangi senaryoda öncelikli olmalı?” Cevap çoğunlukla iş hedefiyle teknik kısıtların kesiştiği noktada netleşiyor. Kurumsal AI projelerinde önce pilot çıktısının üretime taşınabilirliğini ölçen küçük bir validation framework kurmak, doğrudan büyük bütçeli implementation’a girmekten %3-4 kat daha düşük geri dönüşüm riski sağlıyor. Yorumlarınıza açığım.

Our Gallery

Contact Info

AI Agent Memory: Vector, Episodic ve Semantic Hafıza Mimarisi