AI Ajan Belleği Nedir ve Neden Mimarinin Kalbidir?
AI ajan belleği, bir yapay zeka ajanının geçmiş etkileşimleri, öğrendiği gerçekleri ve görev bağlamını oturumlar arasında saklayıp geri çağırma yeteneğidir. Doğrudan yanıt şudur: ajan belleği üç katmanda tasarlanır. Kısa vadeli bellek aktif konuşma bağlamını (LLM bağlam penceresi) tutar; çalışma belleği mevcut görevin ara sonuçlarını yönetir; uzun vadeli bellek kalıcı bilgiyi vektör veya grafik veritabanında saklar. Bellek olmayan bir ajan her oturumda sıfırdan başlar ve kişiselleşemez; bellek mimarisi, ajanı tek seferlik bir sohbet botundan zaman içinde öğrenen bir asistana dönüştüren temel unsurdur.
2026’da üretken yapay zeka ajanlarının kurumsal benimsenmesi hızlandıkça, bağlam penceresinin sınırları belirgin bir darboğaz oluşturur. En geniş bağlam pencereleri bile (1 milyon token) bir kurumun tüm bilgi tabanını veya bir kullanıcının aylarca süren etkileşim geçmişini tutamaz. Üstelik bağlam penceresini doldurmak hem maliyeti hem gecikmeyi doğrusal artırır. Bu nedenle akıllı bellek mimarisi, neyin bağlama gireceğine seçici biçimde karar veren bir yönetim katmanı gerektirir.
Bellek mimarisi tasarımının teorik temeli insan bilişsel psikolojisinden gelir. Stanford’un Generative Agents çalışması, ajanların inandırıcı davranış sergilemesi için yalnızca anlık bağlamın değil, geçmiş deneyimlerin yansıtılması (reflection) ve önem-tabanlı geri çağırmanın gerekli olduğunu ortaya koydu. Bu araştırma, modern ajan bellek mimarilerinin kavramsal omurgasını oluşturur: ajan deneyimleri biriktirir, periyodik olarak bunlardan üst düzey çıkarımlar (reflection) üretir ve gerektiğinde en alakalı belleği geri çağırır. Bu döngü, ajanı pasif bir yanıtlayıcıdan zaman içinde tutarlı bir kişiliğe ve hafızaya sahip bir aktöre dönüştürür.

Bellek Türleri ve Görevleri
İnsan bilişinden esinlenen ajan bellek modeli, farklı bellek türlerini farklı amaçlarla kullanır. Aşağıdaki tablo her bellek türünü, saklama süresini ve tipik depolama mekanizmasını gösterir.
| Bellek Türü | İçerik | Saklama Süresi | Depolama | Erişim Hızı |
|---|---|---|---|---|
| Kısa vadeli (bağlam) | Aktif konuşma | Oturum boyu | LLM bağlam penceresi | Anlık |
| Çalışma belleği | Görev ara sonuçları | Görev boyu | RAM / state nesnesi | Anlık |
| Epizodik bellek | Geçmiş olaylar/etkileşimler | Kalıcı | Vektör DB | 10-50 ms |
| Semantik bellek | Gerçekler, tercihler | Kalıcı | Vektör + grafik DB | 10-80 ms |
| Prosedürel bellek | Beceriler, araç kullanımı | Kalıcı | Kod / şablon deposu | Anlık |
Bu ayrım pratikte şu anlama gelir: bir kullanıcının “vejetaryenim” demesi semantik belleğe (kalıcı tercih), geçen hafta verdiği bir sipariş epizodik belleğe (olay), bir API’yi nasıl çağıracağı ise prosedürel belleğe yazılır. Ajan yeni bir görevde her birini farklı stratejiyle geri çağırır.
Bu dört türün ayrı ayrı yönetilmesi sadece akademik bir tasnif değildir; her birinin depolama ve geri çağırma maliyeti birbirinden keskin biçimde ayrışır. Epizodik bellek hacim olarak en hızlı büyüyen katmandır, çünkü her etkileşim potansiyel bir olay kaydıdır; bu nedenle en agresif çürüme ve özetleme politikası bu katmana uygulanır. Semantik bellek ise küçüktür ama en yüksek değeri taşır: bir kurumsal asistanda kullanıcının rolü, departmanı ve kalıcı tercihleri yalnızca birkaç yüz kayıttan oluşabilir, ancak bu kayıtlar neredeyse her yanıtta gereklidir. Prosedürel bellek genellikle hiç vektör deposuna girmez; araç tanımları, fonksiyon şemaları ve sık kullanılan iş akışları kod veya şablon olarak tutulur ve sürüm kontrolüne tabidir. Üretim ekipleri bu dört katmanı tek bir depoda karıştırdığında geri çağırma doğruluğu hızla düşer; doğru tasarım her türü kendi deposunda ve kendi yaşam döngüsüyle yönetir.
- Kısa vadeli bellek sınırlıdır ve dikkatle bütçelenir; bağlam penceresi token bütçesi gibi yönetilir.
- Epizodik bellek “ne zaman ne oldu” sorularına yanıt verir; zaman damgası ve kaynak meta verisi taşır.
- Semantik bellek tekrar eden gerçekleri özetleyerek depolar; çakışan bilgileri uzlaştırır.

Kısa Vadeli Bellek: Bağlam Penceresi Yönetimi
Kısa vadeli bellek doğrudan LLM bağlam penceresinde yaşar ve en kıt kaynaktır. Konuşma uzadıkça eski mesajların ne yapılacağına karar vermek gerekir. Dört temel strateji vardır ve çoğu üretim sistemi bunları birleştirir.
| Strateji | Yöntem | Bilgi Kaybı | Maliyet | Uygunluk |
|---|---|---|---|---|
| Kayan pencere | Son N mesajı tut | Yüksek | Düşük | Kısa görevler |
| Özetleme | Eskiyi özetle | Orta | Orta (ek LLM çağrısı) | Uzun konuşmalar |
| Vektör geri çağırma | İlgili geçmişi getir | Düşük | Orta | Büyük geçmiş |
| Hibrit | Özet + geri çağırma | En düşük | Yüksek | Üretim ajanları |
Hibrit yaklaşım, son birkaç mesajı ham olarak tutar, daha eski konuşmayı özetler ve gerektiğinde uzun vadeli bellekten ilgili parçaları vektör araması ile geri çağırır. Bu, bağlam penceresini hem doldurmadan hem de kritik bilgiyi kaybetmeden korur. Özetleme aşaması ek bir LLM çağrısı gerektirir ancak bağlam token tasarrufu çoğunlukla bu maliyeti telafi eder. Bağlam yönetimi maliyetini ölçmek için LLM gözlemlenebilirliği pratikleri kritik öneme sahiptir.
Bağlam penceresi yönetiminin maliyet boyutu çoğu ekibin tahmin ettiğinden büyüktür. Çoğu sağlayıcının fiyatlandırmasında giriş token’ı, çıkış token’ından daha ucuz olsa da, her istekte taşınan bağlam doğrudan tekrarlanan bir maliyettir. 50 turluk bir konuşmada, kayan pencere yerine tüm geçmişi taşıyan naif bir tasarım, ilk mesajı 50 kez yeniden gönderir; bu, hem maliyeti hem ilk-token gecikmesini (TTFT) doğrusal artırır. Özetleme stratejisi bu büyümeyi logaritmik düzeye çeker: her on mesajda bir özet üretilir ve ham geçmiş atılır. Üretim ölçümleri, hibrit stratejiye geçen ekiplerin tipik olarak bağlam token tüketimini %40-70 bandında düşürdüğünü gösterir; bu tasarruf, özetleme için harcanan ek LLM çağrısının maliyetini birkaç tur içinde geçer. Prompt önbelleği (prompt caching) devreye girdiğinde sabit sistem talimatı ve özet bloğu önbellekten okunur, böylece tekrarlanan bağlamın maliyeti büyük ölçüde sıfıra yaklaşır.
Çalışma belleği, kısa ve uzun vadeli bellekten farklı bir rol üstlenir: mevcut görevin ara durumunu tutar. Çok adımlı bir görevde (örneğin bir kullanıcı talebini birden çok araç çağrısıyla yerine getirme) ajan, her adımın sonucunu çalışma belleğinde biriktirir ve nihai yanıtı oluştururken bunları birleştirir. Çalışma belleği genellikle bir durum nesnesi (state object) veya geçici bir yapıda tutulur ve görev tamamlanınca temizlenir. Çalışma belleğinin doğru yönetimi, ajanın bir görevin ortasında bağlamı kaybetmesini ve adımları tekrar etmesini önler. İyi tasarlanmış bir ajan, çalışma belleğini kısa vadeli bağlamdan ayrı tutarak her ikisinin de net sınırlarla yönetilmesini sağlar.

Uzun Vadeli Bellek: Vektör ve Grafik Tasarımı
Uzun vadeli bellek, ajanın oturumlar arası bilgisini kalıcı bir depoda tutar. İki ana depolama paradigması vardır: vektör tabanlı semantik geri çağırma ve grafik tabanlı ilişkisel geri çağırma. Vektör belleği “buna benzer ne hatırlıyorum?” sorusuna, grafik belleği “X ile Y nasıl ilişkili?” sorusuna yanıt verir.
Üretim sistemlerinde her ikisi birlikte kullanılır. Bir kullanıcı tercihi vektör olarak embedlenir ve aynı zamanda bir bilgi grafiğinde “kullanıcı → tercih eder → vejetaryen” düğümü olarak saklanır. Mem0 gibi açık kaynak bellek katmanları ve LangChain bellek soyutlamaları bu hibrit yaklaşımı standartlaştırır. Vektör deposu seçimi için vektör veritabanı karşılaştırması doğrudan ilgilidir.
İki paradigmanın somut bir senaryoda nasıl ayrıştığını görmek tasarım kararını netleştirir. “Kullanıcının en sevdiği yemeklerle ilgili daha önce ne konuştuk?” sorusu saf bir benzerlik sorgusudur ve vektör belleği bunu milisaniyeler içinde mükemmel yanıtlar. Buna karşılık “Bu kullanıcının yöneticisi kim ve o yönetici hangi projelerden sorumlu?” sorusu çok adımlı bir ilişki gezintisi gerektirir; vektör benzerliği bu zinciri kuramaz, ama grafik belleği düğümler arasında iki üç adım yürüyerek kesin yanıtı üretir. Üretim ekipleri bu nedenle giriş katmanında bir niyet sınıflandırması yapar: sorgu ilişkisel mi, anlamsal mı? Bu sınıflandırma, doğru deponun sorgulanmasını sağlayarak hem gecikmeyi hem maliyeti düşürür. Embedding modeli seçimi de geri çağırma kalitesini doğrudan etkiler; düşük boyutlu bir embedding daha hızlı ama daha kaba, yüksek boyutlu bir embedding daha doğru ama daha pahalıdır.
İki depolama paradigmasının güçlü ve zayıf yanları net biçimde ayrışır. Aşağıdaki tablo vektör ve grafik belleği üretim kriterleri ekseninde karşılaştırır.
| Kriter | Vektör Bellek | Grafik Bellek | Hibrit |
|---|---|---|---|
| Sorgu tipi | Benzerlik | İlişkisel | Her ikisi |
| “Buna benzer ne?” sorusu | Mükemmel | Zayıf | Mükemmel |
| “X ile Y nasıl bağlı?” | Zayıf | Mükemmel | Mükemmel |
| Kurulum karmaşıklığı | Düşük | Orta-yüksek | Yüksek |
| Geri çağırma hızı | 10-80 ms | 5-120 ms | Değişken |
| Ölçeklenebilirlik | Yüksek | Orta | Yüksek |
Bellek Yazma ve Bellek Çürümesi
Her etkileşim belleğe yazılmamalıdır; aksi halde depo gürültüyle dolar ve geri çağırma doğruluğu düşer. Önemli olaylar bir LLM tarafından filtrelenip özetlenerek yazılır. Ayrıca eski ve artık geçerli olmayan bilgiler için bir bellek çürümesi (memory decay) politikası gerekir: zaman damgasına göre eski kayıtlar arşivlenir veya zayıflatılır. Çelişen bilgiler (kullanıcı tercihini değiştirdiğinde) uzlaştırılır; en güncel kayıt önceliklenir.
Bellek yazma kararının kalitesi, geri çağırma kalitesini doğrudan belirler. Çöp giren bir bellekten çöp çıkar: önemsiz sohbet parçaları belleğe yazılırsa, sonraki geri çağırmalarda bunlar gerçek bilgiyle yarışır ve ajanın yanıtlarını seyreltir. Bu nedenle yazma aşamasında bir önem skorlaması yapılır; örneğin bir kullanıcının kalıcı tercihi yüksek önem alırken, “teşekkürler” gibi geçici bir mesaj hiç yazılmaz. İleri seviye sistemler ayrıca çelişki tespiti uygular: yeni bir bilgi mevcut bir kayıtla çelişiyorsa (kullanıcı önce “kahve severim” sonra “artık kahve içmiyorum” dediyse), eski kayıt güncellenir veya geçersiz işaretlenir. Bu uzlaştırma mekanizması olmadan ajan, çelişen bilgileri aynı anda doğru sayarak tutarsız davranır.
- Etkileşimi değerlendir: belleğe değer mi? (önem filtresi)
- Türü belirle: epizodik mi, semantik mi, prosedürel mi?
- Var olan bilgiyle çakışma kontrolü yap ve uzlaştır.
- Embedle, meta veri (zaman, kaynak, güven skoru) ekle ve yaz.
Bellek Geri Çağırma Stratejileri ve Üretim Mimarisi
Geri çağırma, bellek mimarisinin performansını belirleyen aşamadır. Saf vektör benzerliği çoğu zaman yetersizdir; üretim ajanları çok sinyalli bir geri çağırma kullanır. Bu strateji benzerlik skorunu güncellik (recency), önem (importance) ve kullanım sıklığıyla harmanlar. Stanford’un generative agents araştırması bu üç faktörlü skorlamanın gerçekçi davranış için kritik olduğunu gösterdi.
Saf benzerliğin neden yetersiz kaldığını bir örnek netleştirir. Bir kullanıcı “geçen ay konuştuğumuz proje ne durumda?” diye sorduğunda, salt anlamsal benzerlik proje hakkındaki tüm geçmiş kayıtları aynı ağırlıkta getirir; oysa kullanıcının kastettiği son ve en önemli güncellemedir. Güncellik sinyali son kayıtları öne çıkarır, önem sinyali kritik kararları sıradan sohbetten ayırır. Bu üç sinyali harmanlamadan ajan, ilgili ama eskimiş veya önemsiz bilgiyi öne çıkararak yanıltıcı yanıtlar üretir. Bu nedenle olgun ajan mimarileri geri çağırmayı tek boyutlu bir benzerlik sorgusu değil, çok kriterli bir sıralama problemi olarak ele alır.
Pratik bir geri çağırma boru hattı şu adımları izler: kullanıcı sorgusu embedlenir, vektör deposundan en yakın K kayıt çekilir, bu kayıtlar güncellik ve önem skoruyla yeniden sıralanır (re-ranking) ve yalnızca en üst birkaç tanesi bağlam penceresine enjekte edilir. Bu yaklaşım, hem token bütçesini korur hem de en ilgili bilgiyi önceliklendirir. Geri çağırma kalitesi düzenli olarak değerlendirilmeli ve gürültülü kayıtlar budanmalıdır.
Geri çağırma skorlama faktörleri ve ağırlıkları uygulamaya göre ayarlanır. Aşağıdaki tablo üç temel sinyalin rolünü ve tipik ağırlık aralığını özetler.
| Sinyal | Ne Ölçer | Tipik Ağırlık | Hesaplama | Risk |
|---|---|---|---|---|
| Benzerlik (similarity) | Anlamsal yakınlık | %40-60 | Kosinüs mesafesi | Eskiyi öne çıkarır |
| Güncellik (recency) | Ne kadar yeni | %20-35 | Zaman bozunumu | Önemliyi gömebilir |
| Önem (importance) | Olayın değeri | %15-30 | LLM puanı | Öznel |
| Kullanım sıklığı | Erişim sayısı | %5-15 | Sayaç | Yankı odası |
Bu çok sinyalli skorlamanın maliyeti ve gecikmesi RAG tabanlı geri çağırma hatlarıyla yakından ilişkilidir; her ikisi de doğru chunking ve re-ranking ister.

Tipik Sorunlar ve Çözümleri
Ajan bellek mimarisi kurarken ekipler tekrar eden zorluklarla karşılaşır. Aşağıdaki maddeler en yaygın sorunları ve doğrudan çözümlerini özetler.
- Bellek şişmesi (memory bloat): Her şey kaydediliyor, geri çağırma gürültüye boğuluyor; önem filtresi ve özetleme ile yalnızca değerli kayıtlar yazılır.
- Çelişen bilgiler: Kullanıcı tercihini değiştirdiğinde eski kayıt kalıyor; zaman damgalı uzlaştırma ile en güncel bilgi önceliklenir.
- Bağlam penceresi taşması: Geri çağrılan kayıtlar bağlamı dolduruyor; re-ranking sonrası yalnızca en üst K kayıt enjekte edilir.
- Yavaş geri çağırma: Vektör araması büyük kolleksiyonda yavaşlıyor; metadata filtreleme ve kuantizasyon ile hızlandırılır.
- Gizlilik sızıntısı: Hassas kişisel veri kalıcı belleğe yazılıyor; PII maskeleme ve kullanıcı bazlı izolasyon uygulanır.
- Eskiyen bilgi: Güncelliğini yitirmiş kayıtlar yanıtları bozuyor; bellek çürümesi politikasıyla arşivlenir.
Üretimde Gizlilik, Çok Kiracılık ve Değerlendirme
Bellek mimarisi prototipten üretime geçtiğinde teknik tasarımın ötesinde üç operasyonel boyut belirleyici hale gelir: gizlilik izolasyonu, çok kiracılık (multi-tenancy) ve bellek kalitesinin sürekli değerlendirilmesi. Çok kullanıcılı bir asistanda her kullanıcının belleği kesin biçimde izole edilmelidir; bir kullanıcının kişisel tercihi başka bir kullanıcının geri çağırmasında asla görünmemelidir. Bu izolasyon genellikle vektör deposunda kullanıcı kimliğine göre metadata filtrelemesiyle veya kullanıcı başına ayrı namespace/koleksiyonla sağlanır. Metadata filtrelemesi daha az altyapı gerektirir ama her sorguya bir filtre eklemeyi unutmak ciddi bir sızıntı riski doğurur; namespace izolasyonu daha güvenlidir ama binlerce kullanıcıda yönetim yükü artar.
Gizlilik tarafında, kalıcı belleğe yazılan kişisel veri (PII) düzenleyici yükümlülükler doğurur. Bir kullanıcının “unutulma hakkı” talebinde bulunması, o kullanıcıya ait tüm bellek kayıtlarının hem vektör hem grafik deposundan silinebilmesini gerektirir; bu silme yeteneği baştan tasarlanmazsa sonradan eklemek son derece pahalıdır. Bu nedenle olgun sistemler her bellek kaydına kullanıcı kimliği, kaynak ve oluşturma zamanı meta verisini zorunlu olarak ekler. Hassas alanlar (kimlik numarası, sağlık verisi) yazma aşamasında maskelenir veya hiç yazılmaz.
Belki en sık ihmal edilen boyut, bellek kalitesinin ölçülmesidir. Bir ajan haftalarca çalıştıktan sonra deposunda binlerce kayıt birikir; bu kayıtların ne kadarının gerçekten doğru geri çağrıldığı ölçülmezse, sistem sessizce bozulur. Olgun ekipler bir değerlendirme (eval) hattı kurar: bilinen sorgu-beklenen kayıt çiftlerinden oluşan bir test seti üzerinde geri çağırma isabet oranını (recall) ve ilgisiz kayıt oranını (precision) düzenli ölçer. Bu metrikler düştüğünde gürültülü kayıtlar budanır, skorlama ağırlıkları yeniden ayarlanır. Aşağıdaki liste üretime geçişte doğrulanması gereken temel kontrol noktalarını özetler.
- Kullanıcı izolasyonu: Her sorgu kullanıcı kimliğiyle filtrelenir; çapraz kullanıcı sızıntısı testle doğrulanır.
- Silme yeteneği: Tek bir kullanıcının tüm belleği vektör ve grafik deposundan atomik silinebilir.
- Geri çağırma değerlendirmesi: Recall ve precision düzenli ölçülür, eşik altına düşünce alarm üretilir.
- Maliyet bütçesi: Kullanıcı başına aylık embedding ve bağlam token tüketimi izlenir.
- Gecikme bütçesi: Geri çağırma P95 gecikmesi yanıt süresi bütçesinin küçük bir dilimi içinde tutulur.
Sonuç
AI ajan bellek mimarisi, ajanı tek seferlik bir araçtan zaman içinde öğrenen bir asistana dönüştüren temel tasarım kararıdır. Kısa vadeli, çalışma ve uzun vadeli bellek katmanlarını net biçimde ayırmak, her birini doğru depolama ve geri çağırma stratejisiyle yönetmenin önkoşuludur. Bağlam penceresini hibrit özet-ve-geri-çağırma yaklaşımıyla bütçelemek, uzun vadeli belleği vektör ve grafik depolamayla harmanlamak ve çok sinyalli (benzerlik, güncellik, önem) geri çağırma kullanmak, üretim kalitesinde bir ajanın belkemiğini oluşturur. Önem filtresi, çelişki uzlaştırma ve bellek çürümesi politikaları olmadan bellek hızla bir yüke dönüşür; iyi tasarlanmış bellek ise ajanı gerçekten akıllı kılan unsurdur.
Sıkça Sorulan Sorular
Kısa vadeli ve uzun vadeli ajan belleği arasındaki fark nedir?
Kısa vadeli bellek LLM bağlam penceresinde yaşar ve yalnızca aktif oturumun konuşmasını tutar; oturum bitince kaybolur. Uzun vadeli bellek vektör veya grafik veritabanında kalıcı olarak saklanır ve oturumlar arası bilgiyi (tercihler, geçmiş olaylar, beceriler) korur. Üretim ajanları ikisini hibrit olarak kullanır.
Her etkileşimi belleğe kaydetmeli miyim?
Hayır. Her şeyi kaydetmek depoyu gürültüyle doldurur ve geri çağırma doğruluğunu düşürür. Bir önem filtresi ile yalnızca değerli olaylar ve gerçekler, gerektiğinde özetlenerek yazılır. Bu hem maliyeti hem de geri çağırma kalitesini iyileştirir.
Vektör mü grafik bellek mi kullanmalıyım?
İkisi farklı sorulara yanıt verir ve üretimde birlikte kullanılır. Vektör belleği benzerlik temelli geri çağırma için (buna benzer ne hatırlıyorum), grafik belleği ilişkisel sorgular için (X ile Y nasıl bağlı) idealdir. Hibrit kullanım en zengin bağlamı sağlar.
Bağlam penceresi büyüdükçe belleğe gerek kalmaz mı?
Hayır. En geniş bağlam pencereleri bile bir kurumun tüm bilgi tabanını veya aylarca süren etkileşim geçmişini tutamaz. Üstelik bağlamı doldurmak maliyeti ve gecikmeyi doğrusal artırır. Seçici bellek yönetimi, geniş bağlam pencerelerinde dahi gerekli kalır.
Bellek çürümesi (memory decay) neden gereklidir?
Güncelliğini yitirmiş veya çelişen bilgiler ajanın yanıtlarını bozar. Bellek çürümesi politikası, zaman damgasına göre eski kayıtları arşivler veya zayıflatır ve en güncel bilgiyi önceliklendirir. Bu, belleğin zamanla güvenilir kalmasını sağlar.










Ömer ÖNAL
Haziran 5, 2026Ajan projelerinde en sık gördüğüm hata, her etkileşimi körlemesine belleğe yazmak. Birkaç hafta sonra geri çağırma gürültüye boğuluyor ve ajan saçmalamaya başlıyor. Önem filtresi ve bellek çürümesi politikası belleğin en az depolama kadar önemli iki ayağıdır. Bağlam penceresi büyüsün diye beklemeyin; seçici bellek yönetimi 1 milyon token’da bile maliyeti ve gecikmeyi kurtaran şeydir.