Microsoft’un 2-3 Haziran 2026’da düzenlediği Build konferansında manzara netleşti: yapay zeka artık sohbet eden bir asistan değil, kendi başına plan yapan, karar veren ve sizin adınıza araçları çalıştıran bir ajan (agent). MAI-Thinking-1’den Microsoft 365 Copilot Agent Mode’a, masaüstünü uçtan uca izleyen Scout ajanından Windows Agent Framework’e kadar duyuruların ortak paydası tekti: otonomi. Ama bu otonomi devriminin görünmeyen bir bedeli var ve faturası şimdiden kesiliyor.
O fatura, adı çoğu Türk yöneticinin gündeminde bile olmayan bir saldırıya ait: prompt injection. 2026’da bu saldırı, izole bir “modeli kandırma” oyunundan, koca bir otonom iş akışını ele geçiren çok adımlı bir tehdide dönüştü. OWASP’ın Büyük Dil Modeli Uygulamaları için LLM01 — yani 1 numaralı — açığı olarak işaretlediği prompt injection, agentic çağda artık tek bir sohbeti değil, bağlı tüm sistemleri tehdit ediyor. Bu yazıda saldırının anatomisini, 2026’nın gerçek rakamlarını ve sahada işe yarayan 6 katmanlı savunmayı ele alıyorum.

Prompt Injection Tam Olarak Nedir ve Neden 2026’da Patladı?
Prompt injection, bir saldırganın dil modeline verilen talimatların arasına kendi kötü niyetli komutlarını sızdırması demek. Klasik yazılım güvenliğindeki SQL injection’a benzetebilirsiniz: orada veritabanı komutuyla kullanıcı verisi karışır, burada ise sistemin talimatıyla dış dünyadan gelen içerik karışır. Modelin temel zaafı şu: “Bu cümle bana verilen bir emir mi, yoksa işlemem gereken bir veri mi?” ayrımını güvenilir biçimde yapamaz.
2024 ve 2025’te bu daha çok akademik bir endişeydi. Çünkü model sadece metin üretiyordu; “tüm önceki talimatları yok say” deseniz bile en kötü ihtimalle uygunsuz bir cevap alıyordunuz. 2026’da denklem değişti. Artık model, e-posta gönderebilen, veritabanına yazabilen, kod çalıştırabilen, başka ajanları tetikleyebilen bir agent‘ın beyni. Aynı kandırma cümlesi, artık gerçek dünyada eylem doğuruyor. İşte bu yüzden 2026, prompt injection’ın “teorik risk”ten “ölçülen kayıp”a geçtiği yıl oldu.
Rakamlar bu kırılmayı net gösteriyor. Wiz Research, kurumsal AI sistemlerine yönelik belgelenmiş prompt injection denemelerinde 2025’in 4. çeyreğinde yıllık bazda %340’lık bir artış kaydetti; başarılı saldırılar ise %190 arttı. OWASP GenAI Security Project prompt injection’ı üst üste ikinci kez listenin zirvesine yerleştirdi. Cisco’nun 2026 AI Güvenliği raporu ise denetlenen üretim AI dağıtımlarının %73’ünde prompt injection zafiyeti buldu — yani canlıdaki her dört AI sisteminden üçü açık.
İzole Saldırıdan Çok Adımlı Ele Geçirmeye: Anatomi
Agentic AI’ın saldırıyı tehlikeli kılan özelliği şu: tek bir manipüle edilmiş çıktı, bir zincirin ilk halkası olabiliyor. Saldırgan ajanın planlamasını ele geçirir, yetkili bir tool çağrısını tetikler, kötü niyetli talimatı hafızaya kalıcı olarak yazar ve saldırıyı bağlı sistemlere yayar. Buna goal hijacking (hedef kaçırma) deniyor — ajanın bütün amacını yeniden yönlendirme.
Saldırı türlerini ve 2026’daki tezahürlerini şöyle ayırabiliriz:
| Saldırı Türü | Nasıl Çalışır | Agentic Çağda Etkisi |
|---|---|---|
| Doğrudan injection | Kullanıcı girişine “önceki tüm talimatları yok say” gibi komut gömme | Rol oynatma ile kısıtlama atlatma, sistem promptu sızdırma |
| Dolaylı (indirect) injection | Web sayfası, belge, e-posta, kod yorumu gibi dış içeriğe talimat saklama | Ajan içeriği okurken zehirlenir; kullanıcı hiçbir şey yapmaz |
| Hafıza zehirleme | Ajanın oturumlar arası hafızasına kalıcı kötü talimat yazma | Saldırı oturum bitince de yaşar, tekrar tekrar tetiklenir |
| RAG zehirleme | Vektör veritabanına özenle hazırlanmış sahte belgeler ekleme | Belirli sorgulara sistem hep saldırganın istediği cevabı döner |
| Hedef kaçırma (goal hijacking) | Çok ajanlı bir hattın tüm amacını yeniden yönlendirme | Saldırı downstream ajanlara ve paylaşılan hafızaya yayılır |
En sinsisi dolaylı injection. Çünkü mağdur hiçbir hata yapmaz: ajanınıza “şu siteyi özetle” veya “gelen kutumu kontrol et” dersiniz, ajan da o sayfada/e-postada gizlenmiş görünmez talimatı okuyup uygular. Google’ın web izleme ekibi, web içeriğine gömülü kötü niyetli prompt injection yüklerinde Kasım 2025–Şubat 2026 arası %32’lik bir artış ölçtü. Mart 2026’da ise Unit 42 araştırmacıları, canlı ticari platformlarda ilk büyük ölçekli dolaylı injection saldırılarını belgeledi — reklam onay denetimini atlatma ve sistem promptu sızdırma dahil.

Bu Teori Değil: Gerçek Olaylar
2025-2026’da yaşanan vakalar, riskin laboratuvardan çıktığını gösteriyor:
- Devin AI: Araştırmacılar, kodlama ajanına talimat vererek sunucu portlarını internete açtırmayı, erişim token’larını dış uç noktalara sızdırmayı ve komuta-kontrol (C2) zararlısı kurdurmayı gösterdi.
- Sıfır-tık IDE saldırısı: Bir Google Docs dosyası, bir AI kodlama ajanını kötü niyetli bir MCP sunucusuna bağlanmaya tetikledi. Ajan saldırgan tarafından yazılmış talimatları aldı, bir Python yükünü çalıştırdı ve geliştirici sırlarını topladı. Kullanıcı tek bir tuşa bile basmadı.
- Reklam moderasyonu atlatma (Aralık 2025): Injection yükleri, reddetmek için tasarlanmış sistemlere reklamları onaylattı.
Belki de en çok konuşulması gereken veri, ölçeğin kendisi. Halka açık bir kırmızı takım (red-teaming) testinde araştırmacılar 1,8 milyon prompt injection denemesi başlattı; 60.000’den fazlası politika ihlaline yol açmayı başardı — yaklaşık %3,3’lük bir başarı oranı. Tek bir saldırı için %3,3 düşük görünebilir; ama otonom ajanlar günde milyonlarca işlem yaptığında bu oran kümülatif bir felakete dönüşür.
Sayılarla Konuşalım: Başarı Oranı Denemeyle Katlanıyor
Sektörün uzun süredir tahmin ettiği ama ölçemediği şeyi, Anthropic kendi sistem kartında rakama döktü. Anthropic‘in verilerine göre, koruma olmadan GUI tabanlı bir ajana yöneltilen tek bir prompt injection denemesi %17,8 oranında başarılı oluyor. Ama saldırgan ısrar ederse durum çok daha kötü: 200’üncü denemede ihlal oranı korumasız sistemlerde %78,6’ya, korumalı sistemlerde bile %57,1’e çıkıyor.
Bu rakam tek başına savunma felsefesini özetliyor: prompt injection’ı tamamen “engellemek” gerçekçi bir hedef değil. Hedef, başarı olasılığını düşürmek, başarılı bir saldırının etki yarıçapını (blast radius) daraltmak ve saldırıyı tespit edilebilir kılmaktır. İşletme tarafında bilanço da bunu doğruluyor:
| Metrik | Değer | Kaynak / Bağlam |
|---|---|---|
| Prompt injection denemesi artışı (YoY) | %340 | Wiz Research, 2025 Ç4 |
| Üretim AI dağıtımlarında zafiyet | %73 | Cisco State of AI Security 2026 |
| Tek deneme başarı oranı (korumasız) | %17,8 | Anthropic sistem kartı |
| 200. deneme başarı oranı (korumasız) | %78,6 | Anthropic sistem kartı |
| AI ihlallerinde prompt manipülasyonu payı | %30+ | 2026 ihlal raporları |
| Erişim kontrolü olmayan AI ihlali ort. maliyeti | 5,72M $ | IBM 2025 Veri İhlali Raporu |
| Kapsamlı AI güvenlik kontrolüyle tasarruf | 1,9M $/ihlal | IBM 2025 Veri İhlali Raporu |
IBM’in 2025 Veri İhlali Maliyeti raporundaki bir bulgu özellikle çarpıcı: AI modeli veya uygulaması ihlali yaşayan kuruluşların %97’si, olay anında uygun AI erişim kontrollerine sahip değildi. Yani sorun çoğu zaman karmaşık bir zafiyet değil, hiç var olmayan bir kontrol.
6 Katmanlı Savunma: Sahada İşe Yarayan Yaklaşım
Tek bir filtre prompt injection’ı durdurmaz. 2026’nın konsensüsü derinlemesine savunma (defense in depth): her katman ayrı ayrı atlatılabilir, ama hepsini birden geçmek katlanarak zorlaşır. NIST AI Risk Management Framework ve OWASP’ın agentic uygulamalar için ayrı Top 10 listesi de bu mimari yaklaşımı öneriyor.

- Giriş doğrulama: Desen tespiti, LLM tabanlı sınıflandırıcılar, kaynak izin listeleme (allowlisting) ve içerik tipi doğrulama. Dış içeriği asla doğrudan “güvenilir talimat” muamelesi görmeden işleme.
- Çıktı/eylem doğrulama (Guardian pattern): Ajanın planladığı eylemi, çalıştırmadan önce ayrı bir doğrulama modeli inceler. “Bu e-postayı bu adrese göndermek mantıklı mı?” sorusunu bağımsız bir bekçi sorar.
- En az yetki (least privilege): Her göreve özel kapsam, her tool’a özel profil, root düzeyinde çalıştırma yok. Ajanınıza ihtiyacı olandan tek bir yetki bile fazla vermeyin.
- Sandbox izolasyonu: Ağ çıkış (egress) filtreleme, dosya sistemi izolasyonu, süreç sınırlama, geçici (ephemeral) ortamlar. Ele geçirilen ajan, kafesten dışarı çıkamasın.
- Yapısal ayrım (CaMeL yaklaşımı): Güvenilir sorgular için ayrı bir “ayrıcalıklı LLM”, güvenilmeyen dış veri için ayrı bir “karantina LLM”. İki akış asla aynı yetkiyle karışmaz.
- İnsan onay kapıları (human-in-the-loop): Yüksek etkili eylemler — para transferi, e-posta gönderimi, veritabanı değişikliği — için zorunlu insan onayı.
Bu altı katmanın üzerine bir de davranış izleme (behavioral monitoring) ekleniyor: ajanın muhakeme ve tool kullanım desenlerini oturumlar boyunca izleyip, çok turlu manipülasyon veya kademeli yetki yükselmesine işaret eden anomalileri yakalama. 2026’da saldırılar tek seferlik override’dan kaçıp çok adımlı, yavaş yavaş tırmanan hijacking’e döndüğü için, statik filtreler yetmiyor; sistemin davranışını izlemek şart oldu.
Bu katmanların hangi saldırıyı hedeflediğini ve uygulama önceliğini şöyle özetleyebiliriz:
| Savunma Katmanı | Hedeflediği Saldırı | Uygulama Önceliği |
|---|---|---|
| Giriş doğrulama + allowlist | Doğrudan injection | Yüksek — hızlı kazanım |
| Yapısal ayrım (CaMeL) | Dolaylı injection, RAG zehirleme | Yüksek — en etkili önlem |
| En az yetki + ayrı kimlik | Hedef kaçırma, yetki yükselme | Yüksek — etki yarıçapını daraltır |
| Sandbox + egress filtreleme | C2, veri sızdırma | Orta — altyapı gerektirir |
| İnsan onay kapısı | Yüksek etkili eylemler | Yüksek — kritik aksiyonlar |
| Davranış izleme | Çok adımlı hijacking | Orta — sürekli izleme |
Düzenleme ve Uyum: Artık Yasal Bir Zorunluluk
Prompt injection’a karşı dayanıklılık 2026’da iyi niyetten çıkıp regülasyona girdi. EU AI Act‘in yüksek riskli sistemlere yönelik tam yükümlülükleri Ağustos 2026’da yürürlüğe giriyor ve “uygun düzeyde doğruluk, sağlamlık ve siber güvenlik — açıkça adversarial saldırılara direnç dahil” şartını getiriyor. ISO 42001 standardı prompt injection önleme için özel kontroller içeriyor; NIST IR 8596 ise agentic sistemleri özel olarak ele alıyor. Türkiye’de KVKK kapsamında kişisel veri işleyen AI ajanları için de bu çerçeveler fiilî bir referans noktası haline geliyor.
Tipik Sorunlar: Ekiplerin En Sık Yaptığı Hatalar
Danışmanlık verdiğim ekiplerde prompt injection açıkları neredeyse her zaman aynı birkaç kök nedenden kaynaklanıyor. Sorun genellikle egzotik bir zafiyet değil, atlanan temel bir kontrol:
- Ajana “stajyer” gibi davranıp tek bir sistem promptuyla tüm güvenliği sağlamaya çalışmak — oysa ajan internete açık bir uç nokta gibi düşünülmeli.
- Dış içeriği (web, e-posta, belge) ajanın bağlamına ham haliyle, “güvenilir talimat”tan ayırmadan enjekte etmek.
- Tek bir kimlik ve geniş yetkiyle çalışan ajanlar — bir tool ele geçince hepsine erişim açılıyor.
- Yüksek etkili eylemler (ödeme, e-posta, silme) için insan onay kapısı koymamak.
- Hiç davranış izleme/loglama yapmamak; saldırı gerçekleşse bile kimse fark etmiyor.
- Hafıza ve RAG katmanını “salt veri” sanıp zehirlenmeye karşı hiç doğrulamamak.
Sonuç: Otonomi Güven Gerektirir, Güven de Mimari
Microsoft Build 2026, Anthropic’in halka arz başvurusu ve her hafta çıkan yeni ajan çerçeveleri bize şunu söylüyor: agentic AI geri dönüşü olmayan bir trend. Ama bir ajana ne kadar otonomi verirseniz, onu o kadar güçlü bir saldırı hedefi haline getirirsiniz. 2026’nın dersi açık — prompt injection bir “model hatası” değil, bir mimari sorumluluk. Çözüm de tek bir sihirli filtrede değil, en az yetki, yapısal ayrım, insan onayı ve davranış izlemeyi birleştiren katmanlı bir tasarımda.
Bir ajanı canlıya almadan önce kendinize tek bir soru sorun: “Bu ajan bugün ele geçirilirse, en fazla ne kaybederim?” Cevap “her şey” ise, daha mimariye dönmeniz gerekiyor demektir. Yapay zeka projelerinizde güvenliği baştan tasarlamak için yapay zeka danışmanlığı ve kurumsal siber güvenlik yaklaşımlarını birlikte ele almak, en sağlam başlangıç noktası.
Sıkça Sorulan Sorular
Prompt injection ile jailbreak aynı şey mi?
Tam olarak değil. Jailbreak, modelin kendi güvenlik kısıtlamalarını aşmaya odaklanır (örneğin yasak içerik ürettirmek). Prompt injection ise modele verilen talimat akışına dışarıdan komut sızdırmaktır ve agentic sistemlerde gerçek eylemlere — e-posta, kod, veri sızıntısı — yol açabilir. Jailbreak bir injection tekniği olarak kullanılabilir, ama injection çok daha geniş bir kategoridir.
Küçük bir işletmeyim, AI ajanı kullanmıyorum. Yine de risk altında mıyım?
Dolaylı olarak evet. Kullandığınız SaaS araçları (CRM, e-posta asistanı, müşteri destek botu) giderek ajan tabanlı hale geliyor. Bu araçlardan biri ele geçerse sizin verileriniz de risk altına girer. Tedarikçilerinize “AI özelliklerinizde prompt injection savunmanız var mı?” diye sormak 2026’da makul bir due diligence sorusudur.
Tek bir input filtresi prompt injection’ı durdurmaz mı?
Hayır. Anthropic’in verileri, saldırgan ısrar ettiğinde başarı oranının korumalı sistemlerde bile %57’ye çıktığını gösteriyor. Tek katmanlı savunma yanlış bir güven duygusu yaratır. Gerçek koruma; giriş doğrulama, en az yetki, sandbox, yapısal ayrım, insan onayı ve davranış izlemenin birlikte çalıştığı katmanlı mimariden gelir.
Dolaylı (indirect) injection’a karşı en etkili önlem nedir?
Yapısal ayrım. Dış kaynaklardan gelen içeriği (web, e-posta, belge) asla “güvenilir talimat” olarak işlemeyin; ayrı bir karantina katmanında, sınırlı yetkiyle değerlendirin. CaMeL gibi yaklaşımlar, güvenilir sorguları ve güvenilmeyen veriyi iki ayrı LLM akışında tutarak bu sınırı mimari düzeyde çizer.
EU AI Act prompt injection için ne zorunlu kılıyor?
Yüksek riskli AI sistemleri için Ağustos 2026’dan itibaren “uygun düzeyde doğruluk, sağlamlık ve siber güvenlik” şartı geliyor ve buna açıkça adversarial saldırılara — yani prompt injection dahil — direnç de giriyor. Avrupa pazarına hizmet veren Türk şirketleri için bu, isteğe bağlı değil yasal bir gereklilik.










Ömer ÖNAL
Haziran 5, 2026Sahada gördüğüm en yaygın hata, ekiplerin prompt injection’ı bir ‘model sorunu’ sanıp tek bir filtreyle kapatmaya çalışması. Oysa 2026’da iş, modelden çıkıp mimariye taşındı: agent’a verdiğin her yetki, her tool erişimi, her hafıza kaydı yeni bir saldırı yüzeyi. Müşterilerime hep söylüyorum; agent’ınıza bir stajyer gibi değil, internete açık bir sunucu gibi davranın. En küçük yetki, ayrı kimlik, insan onayı kapıları ve davranış izleme olmadan canlıya çıkmayın.