Microsoft’un 2-3 Haziran 2026’da düzenlediği Build konferansında manzara netleşti: yapay zeka artık sohbet eden bir asistan değil, kendi başına plan yapan, karar veren ve sizin adınıza araçları çalıştıran bir ajan (agent). MAI-Thinking-1’den Microsoft 365 Copilot Agent Mode’a, masaüstünü uçtan uca izleyen Scout ajanından Windows Agent Framework’e kadar duyuruların ortak paydası tekti: otonomi. Ama bu otonomi devriminin görünmeyen bir bedeli var ve faturası şimdiden kesiliyor.

O fatura, adı çoğu Türk yöneticinin gündeminde bile olmayan bir saldırıya ait: prompt injection. 2026’da bu saldırı, izole bir “modeli kandırma” oyunundan, koca bir otonom iş akışını ele geçiren çok adımlı bir tehdide dönüştü. OWASP’ın Büyük Dil Modeli Uygulamaları için LLM01 — yani 1 numaralı — açığı olarak işaretlediği prompt injection, agentic çağda artık tek bir sohbeti değil, bağlı tüm sistemleri tehdit ediyor. Bu yazıda saldırının anatomisini, 2026’nın gerçek rakamlarını ve sahada işe yarayan 6 katmanlı savunmayı ele alıyorum.

Agentic AI'ın Karanlık Yüzü: Prompt Injection 2026'da Nasıl Agent Ele Geçirmeye Dönüştü? - gorsel 1
Agentic AI'ın Karanlık Yüzü: Prompt Injection 2026'da Nasıl Agent Ele Geçirmeye Dönüştü? - gorsel 1

Prompt Injection Tam Olarak Nedir ve Neden 2026’da Patladı?

Prompt injection, bir saldırganın dil modeline verilen talimatların arasına kendi kötü niyetli komutlarını sızdırması demek. Klasik yazılım güvenliğindeki SQL injection’a benzetebilirsiniz: orada veritabanı komutuyla kullanıcı verisi karışır, burada ise sistemin talimatıyla dış dünyadan gelen içerik karışır. Modelin temel zaafı şu: “Bu cümle bana verilen bir emir mi, yoksa işlemem gereken bir veri mi?” ayrımını güvenilir biçimde yapamaz.

2024 ve 2025’te bu daha çok akademik bir endişeydi. Çünkü model sadece metin üretiyordu; “tüm önceki talimatları yok say” deseniz bile en kötü ihtimalle uygunsuz bir cevap alıyordunuz. 2026’da denklem değişti. Artık model, e-posta gönderebilen, veritabanına yazabilen, kod çalıştırabilen, başka ajanları tetikleyebilen bir agent‘ın beyni. Aynı kandırma cümlesi, artık gerçek dünyada eylem doğuruyor. İşte bu yüzden 2026, prompt injection’ın “teorik risk”ten “ölçülen kayıp”a geçtiği yıl oldu.

Rakamlar bu kırılmayı net gösteriyor. Wiz Research, kurumsal AI sistemlerine yönelik belgelenmiş prompt injection denemelerinde 2025’in 4. çeyreğinde yıllık bazda %340’lık bir artış kaydetti; başarılı saldırılar ise %190 arttı. OWASP GenAI Security Project prompt injection’ı üst üste ikinci kez listenin zirvesine yerleştirdi. Cisco’nun 2026 AI Güvenliği raporu ise denetlenen üretim AI dağıtımlarının %73’ünde prompt injection zafiyeti buldu — yani canlıdaki her dört AI sisteminden üçü açık.

İzole Saldırıdan Çok Adımlı Ele Geçirmeye: Anatomi

Agentic AI’ın saldırıyı tehlikeli kılan özelliği şu: tek bir manipüle edilmiş çıktı, bir zincirin ilk halkası olabiliyor. Saldırgan ajanın planlamasını ele geçirir, yetkili bir tool çağrısını tetikler, kötü niyetli talimatı hafızaya kalıcı olarak yazar ve saldırıyı bağlı sistemlere yayar. Buna goal hijacking (hedef kaçırma) deniyor — ajanın bütün amacını yeniden yönlendirme.

Saldırı türlerini ve 2026’daki tezahürlerini şöyle ayırabiliriz:

Saldırı Türü Nasıl Çalışır Agentic Çağda Etkisi
Doğrudan injection Kullanıcı girişine “önceki tüm talimatları yok say” gibi komut gömme Rol oynatma ile kısıtlama atlatma, sistem promptu sızdırma
Dolaylı (indirect) injection Web sayfası, belge, e-posta, kod yorumu gibi dış içeriğe talimat saklama Ajan içeriği okurken zehirlenir; kullanıcı hiçbir şey yapmaz
Hafıza zehirleme Ajanın oturumlar arası hafızasına kalıcı kötü talimat yazma Saldırı oturum bitince de yaşar, tekrar tekrar tetiklenir
RAG zehirleme Vektör veritabanına özenle hazırlanmış sahte belgeler ekleme Belirli sorgulara sistem hep saldırganın istediği cevabı döner
Hedef kaçırma (goal hijacking) Çok ajanlı bir hattın tüm amacını yeniden yönlendirme Saldırı downstream ajanlara ve paylaşılan hafızaya yayılır

En sinsisi dolaylı injection. Çünkü mağdur hiçbir hata yapmaz: ajanınıza “şu siteyi özetle” veya “gelen kutumu kontrol et” dersiniz, ajan da o sayfada/e-postada gizlenmiş görünmez talimatı okuyup uygular. Google’ın web izleme ekibi, web içeriğine gömülü kötü niyetli prompt injection yüklerinde Kasım 2025–Şubat 2026 arası %32’lik bir artış ölçtü. Mart 2026’da ise Unit 42 araştırmacıları, canlı ticari platformlarda ilk büyük ölçekli dolaylı injection saldırılarını belgeledi — reklam onay denetimini atlatma ve sistem promptu sızdırma dahil.

Agentic AI'ın Karanlık Yüzü: Prompt Injection 2026'da Nasıl Agent Ele Geçirmeye Dönüştü? - gorsel 2
Agentic AI'ın Karanlık Yüzü: Prompt Injection 2026'da Nasıl Agent Ele Geçirmeye Dönüştü? - gorsel 2

Bu Teori Değil: Gerçek Olaylar

2025-2026’da yaşanan vakalar, riskin laboratuvardan çıktığını gösteriyor:

  • Devin AI: Araştırmacılar, kodlama ajanına talimat vererek sunucu portlarını internete açtırmayı, erişim token’larını dış uç noktalara sızdırmayı ve komuta-kontrol (C2) zararlısı kurdurmayı gösterdi.
  • Sıfır-tık IDE saldırısı: Bir Google Docs dosyası, bir AI kodlama ajanını kötü niyetli bir MCP sunucusuna bağlanmaya tetikledi. Ajan saldırgan tarafından yazılmış talimatları aldı, bir Python yükünü çalıştırdı ve geliştirici sırlarını topladı. Kullanıcı tek bir tuşa bile basmadı.
  • Reklam moderasyonu atlatma (Aralık 2025): Injection yükleri, reddetmek için tasarlanmış sistemlere reklamları onaylattı.

Belki de en çok konuşulması gereken veri, ölçeğin kendisi. Halka açık bir kırmızı takım (red-teaming) testinde araştırmacılar 1,8 milyon prompt injection denemesi başlattı; 60.000’den fazlası politika ihlaline yol açmayı başardı — yaklaşık %3,3’lük bir başarı oranı. Tek bir saldırı için %3,3 düşük görünebilir; ama otonom ajanlar günde milyonlarca işlem yaptığında bu oran kümülatif bir felakete dönüşür.

Sayılarla Konuşalım: Başarı Oranı Denemeyle Katlanıyor

Sektörün uzun süredir tahmin ettiği ama ölçemediği şeyi, Anthropic kendi sistem kartında rakama döktü. Anthropic‘in verilerine göre, koruma olmadan GUI tabanlı bir ajana yöneltilen tek bir prompt injection denemesi %17,8 oranında başarılı oluyor. Ama saldırgan ısrar ederse durum çok daha kötü: 200’üncü denemede ihlal oranı korumasız sistemlerde %78,6’ya, korumalı sistemlerde bile %57,1’e çıkıyor.

Bu rakam tek başına savunma felsefesini özetliyor: prompt injection’ı tamamen “engellemek” gerçekçi bir hedef değil. Hedef, başarı olasılığını düşürmek, başarılı bir saldırının etki yarıçapını (blast radius) daraltmak ve saldırıyı tespit edilebilir kılmaktır. İşletme tarafında bilanço da bunu doğruluyor:

Metrik Değer Kaynak / Bağlam
Prompt injection denemesi artışı (YoY) %340 Wiz Research, 2025 Ç4
Üretim AI dağıtımlarında zafiyet %73 Cisco State of AI Security 2026
Tek deneme başarı oranı (korumasız) %17,8 Anthropic sistem kartı
200. deneme başarı oranı (korumasız) %78,6 Anthropic sistem kartı
AI ihlallerinde prompt manipülasyonu payı %30+ 2026 ihlal raporları
Erişim kontrolü olmayan AI ihlali ort. maliyeti 5,72M $ IBM 2025 Veri İhlali Raporu
Kapsamlı AI güvenlik kontrolüyle tasarruf 1,9M $/ihlal IBM 2025 Veri İhlali Raporu

IBM’in 2025 Veri İhlali Maliyeti raporundaki bir bulgu özellikle çarpıcı: AI modeli veya uygulaması ihlali yaşayan kuruluşların %97’si, olay anında uygun AI erişim kontrollerine sahip değildi. Yani sorun çoğu zaman karmaşık bir zafiyet değil, hiç var olmayan bir kontrol.

6 Katmanlı Savunma: Sahada İşe Yarayan Yaklaşım

Tek bir filtre prompt injection’ı durdurmaz. 2026’nın konsensüsü derinlemesine savunma (defense in depth): her katman ayrı ayrı atlatılabilir, ama hepsini birden geçmek katlanarak zorlaşır. NIST AI Risk Management Framework ve OWASP’ın agentic uygulamalar için ayrı Top 10 listesi de bu mimari yaklaşımı öneriyor.

Agentic AI'ın Karanlık Yüzü: Prompt Injection 2026'da Nasıl Agent Ele Geçirmeye Dönüştü? - gorsel 3
Agentic AI'ın Karanlık Yüzü: Prompt Injection 2026'da Nasıl Agent Ele Geçirmeye Dönüştü? - gorsel 3
  1. Giriş doğrulama: Desen tespiti, LLM tabanlı sınıflandırıcılar, kaynak izin listeleme (allowlisting) ve içerik tipi doğrulama. Dış içeriği asla doğrudan “güvenilir talimat” muamelesi görmeden işleme.
  2. Çıktı/eylem doğrulama (Guardian pattern): Ajanın planladığı eylemi, çalıştırmadan önce ayrı bir doğrulama modeli inceler. “Bu e-postayı bu adrese göndermek mantıklı mı?” sorusunu bağımsız bir bekçi sorar.
  3. En az yetki (least privilege): Her göreve özel kapsam, her tool’a özel profil, root düzeyinde çalıştırma yok. Ajanınıza ihtiyacı olandan tek bir yetki bile fazla vermeyin.
  4. Sandbox izolasyonu: Ağ çıkış (egress) filtreleme, dosya sistemi izolasyonu, süreç sınırlama, geçici (ephemeral) ortamlar. Ele geçirilen ajan, kafesten dışarı çıkamasın.
  5. Yapısal ayrım (CaMeL yaklaşımı): Güvenilir sorgular için ayrı bir “ayrıcalıklı LLM”, güvenilmeyen dış veri için ayrı bir “karantina LLM”. İki akış asla aynı yetkiyle karışmaz.
  6. İnsan onay kapıları (human-in-the-loop): Yüksek etkili eylemler — para transferi, e-posta gönderimi, veritabanı değişikliği — için zorunlu insan onayı.

Bu altı katmanın üzerine bir de davranış izleme (behavioral monitoring) ekleniyor: ajanın muhakeme ve tool kullanım desenlerini oturumlar boyunca izleyip, çok turlu manipülasyon veya kademeli yetki yükselmesine işaret eden anomalileri yakalama. 2026’da saldırılar tek seferlik override’dan kaçıp çok adımlı, yavaş yavaş tırmanan hijacking’e döndüğü için, statik filtreler yetmiyor; sistemin davranışını izlemek şart oldu.

Bu katmanların hangi saldırıyı hedeflediğini ve uygulama önceliğini şöyle özetleyebiliriz:

Savunma Katmanı Hedeflediği Saldırı Uygulama Önceliği
Giriş doğrulama + allowlist Doğrudan injection Yüksek — hızlı kazanım
Yapısal ayrım (CaMeL) Dolaylı injection, RAG zehirleme Yüksek — en etkili önlem
En az yetki + ayrı kimlik Hedef kaçırma, yetki yükselme Yüksek — etki yarıçapını daraltır
Sandbox + egress filtreleme C2, veri sızdırma Orta — altyapı gerektirir
İnsan onay kapısı Yüksek etkili eylemler Yüksek — kritik aksiyonlar
Davranış izleme Çok adımlı hijacking Orta — sürekli izleme

Düzenleme ve Uyum: Artık Yasal Bir Zorunluluk

Prompt injection’a karşı dayanıklılık 2026’da iyi niyetten çıkıp regülasyona girdi. EU AI Act‘in yüksek riskli sistemlere yönelik tam yükümlülükleri Ağustos 2026’da yürürlüğe giriyor ve “uygun düzeyde doğruluk, sağlamlık ve siber güvenlik — açıkça adversarial saldırılara direnç dahil” şartını getiriyor. ISO 42001 standardı prompt injection önleme için özel kontroller içeriyor; NIST IR 8596 ise agentic sistemleri özel olarak ele alıyor. Türkiye’de KVKK kapsamında kişisel veri işleyen AI ajanları için de bu çerçeveler fiilî bir referans noktası haline geliyor.

Tipik Sorunlar: Ekiplerin En Sık Yaptığı Hatalar

Danışmanlık verdiğim ekiplerde prompt injection açıkları neredeyse her zaman aynı birkaç kök nedenden kaynaklanıyor. Sorun genellikle egzotik bir zafiyet değil, atlanan temel bir kontrol:

  • Ajana “stajyer” gibi davranıp tek bir sistem promptuyla tüm güvenliği sağlamaya çalışmak — oysa ajan internete açık bir uç nokta gibi düşünülmeli.
  • Dış içeriği (web, e-posta, belge) ajanın bağlamına ham haliyle, “güvenilir talimat”tan ayırmadan enjekte etmek.
  • Tek bir kimlik ve geniş yetkiyle çalışan ajanlar — bir tool ele geçince hepsine erişim açılıyor.
  • Yüksek etkili eylemler (ödeme, e-posta, silme) için insan onay kapısı koymamak.
  • Hiç davranış izleme/loglama yapmamak; saldırı gerçekleşse bile kimse fark etmiyor.
  • Hafıza ve RAG katmanını “salt veri” sanıp zehirlenmeye karşı hiç doğrulamamak.

Sonuç: Otonomi Güven Gerektirir, Güven de Mimari

Microsoft Build 2026, Anthropic’in halka arz başvurusu ve her hafta çıkan yeni ajan çerçeveleri bize şunu söylüyor: agentic AI geri dönüşü olmayan bir trend. Ama bir ajana ne kadar otonomi verirseniz, onu o kadar güçlü bir saldırı hedefi haline getirirsiniz. 2026’nın dersi açık — prompt injection bir “model hatası” değil, bir mimari sorumluluk. Çözüm de tek bir sihirli filtrede değil, en az yetki, yapısal ayrım, insan onayı ve davranış izlemeyi birleştiren katmanlı bir tasarımda.

Bir ajanı canlıya almadan önce kendinize tek bir soru sorun: “Bu ajan bugün ele geçirilirse, en fazla ne kaybederim?” Cevap “her şey” ise, daha mimariye dönmeniz gerekiyor demektir. Yapay zeka projelerinizde güvenliği baştan tasarlamak için yapay zeka danışmanlığı ve kurumsal siber güvenlik yaklaşımlarını birlikte ele almak, en sağlam başlangıç noktası.

Sıkça Sorulan Sorular

Prompt injection ile jailbreak aynı şey mi?

Tam olarak değil. Jailbreak, modelin kendi güvenlik kısıtlamalarını aşmaya odaklanır (örneğin yasak içerik ürettirmek). Prompt injection ise modele verilen talimat akışına dışarıdan komut sızdırmaktır ve agentic sistemlerde gerçek eylemlere — e-posta, kod, veri sızıntısı — yol açabilir. Jailbreak bir injection tekniği olarak kullanılabilir, ama injection çok daha geniş bir kategoridir.

Küçük bir işletmeyim, AI ajanı kullanmıyorum. Yine de risk altında mıyım?

Dolaylı olarak evet. Kullandığınız SaaS araçları (CRM, e-posta asistanı, müşteri destek botu) giderek ajan tabanlı hale geliyor. Bu araçlardan biri ele geçerse sizin verileriniz de risk altına girer. Tedarikçilerinize “AI özelliklerinizde prompt injection savunmanız var mı?” diye sormak 2026’da makul bir due diligence sorusudur.

Tek bir input filtresi prompt injection’ı durdurmaz mı?

Hayır. Anthropic’in verileri, saldırgan ısrar ettiğinde başarı oranının korumalı sistemlerde bile %57’ye çıktığını gösteriyor. Tek katmanlı savunma yanlış bir güven duygusu yaratır. Gerçek koruma; giriş doğrulama, en az yetki, sandbox, yapısal ayrım, insan onayı ve davranış izlemenin birlikte çalıştığı katmanlı mimariden gelir.

Dolaylı (indirect) injection’a karşı en etkili önlem nedir?

Yapısal ayrım. Dış kaynaklardan gelen içeriği (web, e-posta, belge) asla “güvenilir talimat” olarak işlemeyin; ayrı bir karantina katmanında, sınırlı yetkiyle değerlendirin. CaMeL gibi yaklaşımlar, güvenilir sorguları ve güvenilmeyen veriyi iki ayrı LLM akışında tutarak bu sınırı mimari düzeyde çizer.

EU AI Act prompt injection için ne zorunlu kılıyor?

Yüksek riskli AI sistemleri için Ağustos 2026’dan itibaren “uygun düzeyde doğruluk, sağlamlık ve siber güvenlik” şartı geliyor ve buna açıkça adversarial saldırılara — yani prompt injection dahil — direnç de giriyor. Avrupa pazarına hizmet veren Türk şirketleri için bu, isteğe bağlı değil yasal bir gereklilik.

Ömer ÖNAL

Yazılım Mimarı | Yapay Zeka LLC. Ölçeklenebilir SaaS, .NET Core altyapıları ve Otonom AI süreçleri inşa ediyorum. Kod değil, sistem tasarlarım.

Yorum (1)

  1. Ömer ÖNAL
    Haziran 5, 2026

    Sahada gördüğüm en yaygın hata, ekiplerin prompt injection’ı bir ‘model sorunu’ sanıp tek bir filtreyle kapatmaya çalışması. Oysa 2026’da iş, modelden çıkıp mimariye taşındı: agent’a verdiğin her yetki, her tool erişimi, her hafıza kaydı yeni bir saldırı yüzeyi. Müşterilerime hep söylüyorum; agent’ınıza bir stajyer gibi değil, internete açık bir sunucu gibi davranın. En küçük yetki, ayrı kimlik, insan onayı kapıları ve davranış izleme olmadan canlıya çıkmayın.

Yorum Yap

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir