Prompt Injection Savunma: Adversarial AI Tam Rehber 2026

Q: Indirect prompt injection production'da nasıl tespit edilir?

Üç sinyal eş zamanlı izlenir: RAG dokümanlarına ingestion sırasında suspicious instruction pattern uyarısı, model çıktısında beklenmedik tool çağrı zincirleri veya outbound URL'ler, embedding uzayında sorgu-cevap semantic drift. Pratik kural: bir kullanıcı sorgusu özet talep ederken model dış API çağırıyor veya e-posta gönderiyorsa, bu indirect injection için yüksek-güvenli bir sinyaldir ve insan onayı zorunludur.

Siber Güvenlik

Temmuz 4, 2026OmerOnal1 Yorum

📖 19 dakikalık okuma

İçindekiler

Adversarial AI Tehdit Yüzeyi: Prompt Injection ve Jailbreak Saldırılarının Anatomisi
OWASP LLM01: Prompt Injection Kategorileri ve Saldırı Vektörleri
Threat Modeling: Lethal Trifecta ve Saldırı Yüzeyi Haritalama
Defense in Depth: Çok Katmanlı Savunma Mimarisi
Jailbreak Teknikleri ve Karşı Savunma Pattern'leri
Indirect Prompt Injection: RAG ve Agent Bağlamında Riskler
Red Team Otomasyonu ve Sürekli Doğrulama
Operasyonel Metrikler, Telemetri ve İncident Response
NIST AI 100-2, EU AI Act ve Sektörel Uyum Çerçeveleri
Container ve Runtime Sandboxing ile Agent İzolasyonu
SSS — Prompt Injection Savunma Soru ve Cevapları
Sonuç ve Karar Çerçevesi
Referanslar ve Ek Kaynaklar

Adversarial AI Tehdit Yüzeyi: Prompt Injection ve Jailbreak Saldırılarının Anatomisi

Prompt injection savunma stratejisi, üretken yapay zeka sistemlerinin saldırgan girdi manipülasyonuna karşı korunmasını sağlayan çok katmanlı bir mimari yaklaşımdır ve 2026 itibarıyla LLM tabanlı ürünlerin güvenlik gereksinimlerinin merkezinde yer almaktadır. OWASP’ın 2025 yılında yayımladığı LLM Top 10 listesinde prompt injection LLM01 olarak birinci sırada konumlandırılmış; ENISA’nın 2025 Threat Landscape raporu ise AI-spesifik saldırıların kurumsal güvenlik olaylarının yaklaşık yüzde 18’ini oluşturduğunu belgelemiştir. Pillar Security’nin 2025 State of Attacks on GenAI raporuna göre incelenen üretim ortamlarındaki LLM uygulamalarının yaklaşık yüzde 90’ı, basit prompt injection vektörlerine en az bir kez başarıyla maruz kalmıştır. Konuyla ilişkili olarak LLM Guardrails: Production Yapay Zeka Sistemlerinde Güvenlik Katmanı rehberimiz detaylı incelemeyi içerir. Konuyla ilişkili olarak NeMo Guardrails: LLM Policy ve Conversational Safety 2026 rehberimiz detaylı incelemeyi içerir. Konuyla ilişkili olarak API Güvenliği 2026: OWASP API Top 10 ve Üretimde Korunma Stratejileri rehberimiz detaylı incelemeyi içerir.

Adversarial AI saldırıları, klasik uygulama güvenlik açıklarından farklı olarak modelin doğal dil semantiğini istismar eder; bu nedenle WAF imza tabanlı filtreleri ve regex sanitization yetersiz kalmaktadır. NIST AI 100-2 dokümanı saldırı taksonomisini direct prompt injection, indirect prompt injection, jailbreak, model evasion ve data poisoning olarak beş ana kategoriye ayırmıştır. Bu yazı, her kategori için pratik savunma kontrollerini, ölçülebilir metrikleri ve AI Safety çerçevesine entegrasyon yöntemlerini ele alıyor.

OWASP LLM01: Prompt Injection Kategorileri ve Saldırı Vektörleri

Prompt injection saldırıları, kullanıcı tarafından kontrol edilen girdinin sistem promptunun direktiflerini geçersiz kılacak şekilde yeniden yorumlanmasıyla gerçekleşir. Saldırı yüzeyi 2024’ten itibaren agentic LLM mimarilerinin yaygınlaşmasıyla katlanarak büyümüştür: bir LLM ajanına bağlı her araç (tool), her doküman kaynağı ve her API çağrısı potansiyel bir injection noktasıdır. Simon Willison’ın 2023’te “the lethal trifecta” olarak adlandırdığı kombinasyon — private data access, exposure to untrusted content, external communication — 2026’da hâlâ en yüksek riskli mimari deseni temsil etmektedir.

Saldırı Türü	Vektör	Tipik Hedef	Tespit Zorluğu	OWASP Referansı
Direct Injection	Kullanıcı mesajı içine “Ignore previous instructions” türü direktifler	Sistem prompt sızdırma, role bypass	Orta — pattern tabanlı tespit mümkün	LLM01:2025
Indirect Injection	Web sayfası, PDF, e-posta veya RAG dokümanına gömülü gizli direktif	Agent eylem hijacking, veri exfil	Yüksek — multimodal gizleme	LLM01:2025
Jailbreak	Roleplay, hipotetik senaryo, DAN/Crescendo desenleri	Safety guardrail bypass	Yüksek — semantik yaratıcılık	LLM01:2025
Multimodal Injection	Görsel içine steganografik metin, ASCII art, beyaz-üstüne-beyaz	Vision modeli yönlendirme	Çok yüksek	LLM01:2025
Tool Poisoning	MCP server description içine gizli talimat	Agent tool çağrı manipülasyonu	Yüksek — supply chain	LLM01:2025 + LLM05
Memory Injection	Persistent memory’ye uzun vadeli kötü kayıt	Cross-session etki	Çok yüksek	LLM01:2025

Indirect injection vakası özellikle kritiktir çünkü saldırgan ve kurban farklı entitelerdir: saldırgan bir web sayfasına gizli talimat yerleştirir, kurban kullanıcı bu sayfayı yapay zeka asistanına özetletir, asistan gizli talimatı yürütür. Microsoft Security Response Center’ın 2024 Copilot araştırması, bu vektörle Exchange tabanlı veri exfil senaryosunun proof-of-concept seviyesinde doğrulandığını rapor etmiştir.

OWASP LLM01 prompt injection saldırı vektörleri taksonomisi görseli

Threat Modeling: Lethal Trifecta ve Saldırı Yüzeyi Haritalama

Bir LLM uygulamasının saldırı yüzeyini tanımlamak için STRIDE veya MITRE ATLAS çerçevesi başlangıç noktası olarak kullanılır. MITRE ATLAS, Ocak 2026 itibarıyla 14 taktik ve 100’ü aşkın teknik tanımlamış; özellikle AML.T0051 (LLM Prompt Injection) ve AML.T0054 (LLM Jailbreak) teknikleri saha gözlemlerinden türetilmiş gerçek vakalar içermektedir. Zero Trust Mimari prensiplerinin LLM ajanlarına uyarlanması — her tool çağrısı için ayrı yetkilendirme, her dokümanın untrusted varsayılması — bu yüzeyi daraltmanın temel yoludur.

Threat modeling sırasında üç soruyu netleştirin:

Veri erişimi: Model hangi hassas veriye erişebiliyor? PII, finansal kayıt, sağlık verisi, kaynak kod, müşteri ilişki verisi.
Untrusted girdi: Kontrol edilemeyen veri hangi kanallardan giriyor? Web scraping, e-posta eki, kullanıcı yüklediği PDF, RAG corpus, agent tool çıktısı.
Dış iletişim: Model dış dünyaya hangi kanallardan çıktı verebiliyor? Webhook, e-posta gönderimi, API call, dosya yazma, image render (markdown image exfil vektörü).

Bu üç koşulun aynı oturumda bir araya gelmesi “lethal trifecta” olarak kategorize edilir ve mimari olarak kırılmalıdır. Pratik yaklaşım: untrusted veriyi işleyen “browse” ajanı ile hassas veriye erişen “execute” ajanı arasında network segmentasyon, sıkı interface ve insan onay gate’i konumlandırmak.

Mimari Desen	Trifecta Risk	Üretim Önerisi	Performans Etkisi
Monolitik agent (tüm tools + RAG + e-posta)	Çok yüksek	Üretimde kullanma	—
Dual-LLM (privileged + quarantined)	Düşük	Önerilen pattern	+30-50% latency, +60% maliyet
Plan-then-Execute (planner + sandboxed executor)	Orta-Düşük	Karmaşık agentic akış	+15-25% latency
Human-in-the-loop gate (yüksek riskli action öncesi)	Çok düşük	Finansal/yıkıcı eylemlerde zorunlu	Akış-bağımlı
Tool sandboxing + capability scoping	Düşük	Tüm üretim agent’lar için baseline	İhmal edilebilir

Defense in Depth: Çok Katmanlı Savunma Mimarisi

Tek bir filtre veya guardrail yeterli bir savunma değildir; saldırgan herhangi bir katmanı atlatırsa bir sonraki katman yakalamalıdır. Pratikte beş ayrı kontrol katmanı önerilir: input sanitization, retrieval-time content tagging, model-level guardrails, output validation ve action-time policy enforcement. Bu yaklaşım DevSecOps Shift-Left felsefesinin LLM ürünlerine uyarlanması niteliğindedir: her geliştirme aşamasında ayrı bir güvenlik kontrolü.

1. Input Sanitization Katmanı

Kullanıcı girdisinde delimiter karışıklığı, control karakter enjeksiyonu, base64 encoded payload ve uzunluk anomalisi taranır. Unicode normalization (NFKC) zorunludur — homoglyph saldırıları aksi takdirde geçer. Ortalama sanitization overhead ölçümlerimizde 10-30 ms aralığında kalmıştır. Sanitization yalnız ilk savunmadır, semantik atakları durdurmaz.

2. Retrieval-Time Content Tagging

RAG dokümanları sisteme girerken untrusted etiketi ile işaretlenir, sistem promptu ise trusted bölgede tutulur. Anthropic’in 2024 Constitutional AI raporu ve Microsoft Spotlighting (Hines vd., arXiv 2403.14720) bu sınırın model davranışı üzerindeki etkisini kantitatif olarak belgelemiştir: spotlighted dokümanlarda direct injection başarı oranı ortalama yüzde 50’lik bir düşüş göstermiştir.

3. Model-Level Guardrails

NeMo Guardrails (NVIDIA), Llama Guard 3 (Meta) ve Guardrails AI gibi açık kaynak araçlar, model çıkışını ek bir küçük model ile yargılar. Llama Guard 3 8B, AI safety taxonomy üzerinde MLPerf benchmarkına göre yüzde 90’ı aşan recall sergilemiştir. Production ortamında ekstra yargı modeli ortalama 80-150 ms latency ekler; bu maliyet kritik akışlarda kabul edilebilir bir trade-off oluşturur.

4. Output Validation Katmanı

Model çıkışı yapısal şema (JSON schema, Pydantic) ile doğrulanır, markdown image taglerindeki keyfi URL’ler engellenir, PII/secret pattern’i taranır. Markdown image exfiltration vektörü 2023-2025 arasında en yaygın LLM data leak yöntemi olarak rapor edilmiştir.

5. Action-Time Policy Enforcement

Agent bir tool çağırırken policy engine (OPA, Cedar) o anki kullanıcı yetkisi, kaynak hassasiyeti ve eylem türü matrisinde karar verir. Yıkıcı eylemler — para transferi, e-posta gönderimi, dosya silme — varsayılan olarak human approval gerektirir. Bu yaklaşımın güvenlik faydası RBAC ABAC ReBAC modelleriyle uyumludur.

Defense in depth çok katmanlı LLM savunma mimarisi soyut görseli

Jailbreak Teknikleri ve Karşı Savunma Pattern’leri

Jailbreak, modelin safety hizalamasını çeşitli yaratıcı tekniklerle aşmak demektir. 2024’ten 2026’ya en sık gözlemlenen desenler şunlardır:

DAN (Do Anything Now): Modele alternatif bir kimlik atayıp safety kurallarını devre dışı bırakma. Karşı önlem: system prompt’ta rol atamasına karşı dirençli ifade ve refusal training reinforcement.
Crescendo: Aşamalı normalleştirme — masum bir konuyla başlayıp 5-15 turda zararlı içeriğe yumuşak geçiş. Microsoft Research, Crescendo’nun GPT-4 sınıfı modellerde belirli yasaklı kategorilerde yüksek başarı oranı sergilediğini raporlamıştır. Karşı önlem: conversation-level intent classification, çok turlu durum izleme.
Many-shot jailbreaking: Anthropic’in 2024 araştırması — uzun context window’a yüzlerce sahte Q&A çifti yerleştirme. Karşı önlem: long-context tarafında ek classifier ve içerik denetimi.
Encoding atakları: Base64, ROT13, leetspeak, Morse, ASCII tablo gizleme. Karşı önlem: input preprocessing’de decoder zinciri, anomali tabanlı uyarı.
Roleplay/Fiction Framing: “Bir hikâyede karakterimiz şunu açıklasın…” Karşı önlem: kurgu içeren bağlamlarda dahi gerçek-dünya zararlı içerik bloklama politikası.
Token Smuggling: Modelin tokenizer’ını istismar eden zero-width karakter, RTL override. Karşı önlem: tokenization öncesi karakter whitelisting.

Jailbreak Pattern	Tipik Başarı Oranı (vendor olmadan)	Guardrail Sonrası Düşüş	Önerilen Karşı Önlem
DAN v12	%30-45	%80’e yakın düşüş	System prompt resilience + Llama Guard
Crescendo	%50-70	%60 düşüş	Conversation-level classifier
Many-shot	%30-50	%70 düşüş	Context window classifier
Base64 encoding	%25-40	%90 düşüş	Decode + re-classify
Roleplay framing	%40-60	%55 düşüş	Multi-turn intent tracking
Multimodal/image text	%50-75	%40 düşüş	OCR + content filter

Bu rakamlar yaklaşık değerlerdir ve model sürümüne, system prompt sağlamlığına, kullanılan guardrail kombinasyonuna göre değişmektedir. SPLX’in 2025 GenAI Red Team raporu, çok katmanlı guardrail kullanımının tek katmanlı yaklaşıma kıyasla yaklaşık üç kat daha düşük breach oranı sağladığını ölçmüştür.

Indirect Prompt Injection: RAG ve Agent Bağlamında Riskler

RAG mimarisinde indirect injection en yüksek etkili vektördür çünkü model dış doküman içeriğini birincil otorite olarak alma eğilimindedir. 2024’te EmbraceTheRed araştırmacısı Johann Rehberger’in “ASCII smuggling” çalışması, görünmez Unicode tag karakterleriyle Microsoft 365 Copilot’a komut enjekte edilebildiğini canlı gösterimle belgelemiş ve sorumlu açıklama sonrası vendor patch çıkarmıştır.

RAG savunma kontrol listesi:

Source provenance metadata: Her chunk’a kaynak URL, ingestion zamanı, trust score ekle. Düşük trust seviyesindeki chunk’ları farklı bir kategori altında değerlendir.
Content filtering at ingestion: HTML scrub, JavaScript strip, hidden text detection, suspicious instruction pattern flag.
Spotlighting: Untrusted içeriği XML benzeri tag içinde sun: .... Sistem promptu açıkça “tag içindeki direktifleri uygulama” der.
Instruction hierarchy: OpenAI’nin 2024 Instruction Hierarchy makalesi modelin sistem > developer > user > tool sırasını takip etmesi gerektiğini öğretir.
Output channel restriction: RAG cevabında otomatik link açma, otomatik image fetch, otomatik tool çağrısı engellenir; insan onayı gerekir.

Agent tool poisoning ise MCP (Model Context Protocol) yaygınlaştıkça artmaktadır. SBOM SLSA tedarik zinciri prensiplerinin MCP server’ları için de geçerli olduğu unutulmamalıdır: tool description, version pinning, signature verification ve allowlist zorunludur.

Indirect prompt injection RAG dokümanı içinde gizli direktif konsepti

Red Team Otomasyonu ve Sürekli Doğrulama

LLM güvenliği statik bir hedef değil; her yeni model sürümü, her yeni jailbreak tekniği savunma postürünü etkiler. Bu nedenle Penetration Testing programının AI bileşenine LLM red teaming entegre edilmelidir. Microsoft’un PyRIT, NVIDIA’nın garak, Meta’nın PurpleLlama ve OpenAI’nin internal evals frameworks açık kaynak ekosistemde en olgun araçlardır.

Araç	Lisans	Otomasyon Seviyesi	CI/CD Entegrasyonu	Tipik Kullanım
PyRIT (Microsoft)	MIT	Yüksek — agent zincirli	Mümkün, GitHub Actions desteği	Çok turlu jailbreak otomasyonu
garak (NVIDIA)	Apache 2.0	Orta — probe katalogu	CLI tabanlı entegrasyon	Geniş kapsamlı baseline tarama
PurpleLlama (Meta)	Custom	Orta	Llama Guard pipeline	Llama ailesi modelleri
Guardrails AI	Apache 2.0	Yüksek — validator framework	Python middleware	Runtime output validation
Promptfoo	MIT	Yüksek — eval matrix	npm/CLI, GitHub Actions	A/B prompt karşılaştırma, red team scan
SPLX / Mindgard (ticari)	SaaS	Çok yüksek	API tabanlı	Kurumsal pentest-as-a-service

Önerilen test kadansı:

Her model upgrade öncesi: Tam regression — minimum 500 known jailbreak prompt + 200 indirect injection senaryosu.
Her sprint sonu: Smoke test — 50 yüksek riskli prompt.
Her sistem prompt değişikliği: Hedeflenmiş test (sistem prompt sızdırma + ilgili abuse kategorileri).
Her gün otomatik: Production trafiğinden örneklenmiş 100 prompt + canary injection.
Çeyreklik manuel red team: 5-10 gün, dış uzman ekip, adversarial mindset.

Pratik kurumsal projelerde — Ömer Önal’ın yürüttüğü AI security incelemelerinde de gözlemlendiği üzere — otomatik tarama tek başına yetersizdir; deneyimli bir red teamer’ın yaratıcı çok-turlu manipülasyonları otomasyonun yakalayamadığı boşlukları açığa çıkarmaktadır. Bu nedenle otomasyon + insan ekibin hibrit kullanımı önerilir.

Operasyonel Metrikler, Telemetri ve İncident Response

LLM güvenliği SOC görünürlüğünde çoğu kurumda eksiktir. Asgari telemetri seti her prompt için: kullanıcı kimliği, oturum kimliği, prompt hash (PII dışı), model adı, latency, token count, guardrail kararları, tool çağrı zinciri, çıktı hash. Bu telemetri, OpenTelemetry semantic conventions for GenAI standartına göre yapılandırılır.

Kritik alarm sinyalleri:

Anomalili prompt uzunluğu: Kullanıcı baseline’ın üzerinde standart sapma artışı — many-shot jailbreak işareti.
Refusal rate spike: Bir kullanıcının refusal oranındaki ani artış — jailbreak deneme indikatörü.
Tool call burst: Beklenmedik tool çağrı zincirleri — agent hijacking şüphesi.
Outbound URL anomalisi: Çıktıda alışılmadık domain’lerin görülmesi — data exfil göstergesi.
Embedding drift: RAG sorgularının semantic uzaklığında ani sapma — corpus poisoning.

Metrik	Hedef SLO (üretim)	Ölçüm Yöntemi	Eskalasyon
Jailbreak success rate (red team)	%5 altı	Haftalık PyRIT/garak çalışması	Threshold aşımında release block
Guardrail false positive rate	%2 altı	Production sample annotation	UX ekibi + güvenlik ekibi haftalık
Guardrail latency p95	200 ms altı	OTel histogram	SRE on-call
PII leak rate	%0.1 altı	Output regex + LLM judge	Anlık alarm + DPO bilgilendirme
Tool authorization deny rate	Baseline +/- 20%	Policy engine log	Trend bazlı haftalık
Incident MTTR	4 saat altı	Runbook ölçümü	Quarterly review

Incident response playbook’unda LLM-spesifik adımlar: oturum izolasyonu, prompt zincirinin korunması (delillendirme), etkilenen kullanıcı listesinin çıkarılması, vendor bildirimi, model sürümüne geçici rollback opsiyonu, post-mortem’de jailbreak vektörünün test setine eklenmesi. Secret Management Vault entegrasyonu sayesinde model API anahtarları otomatik rotate edilebilir.

LLM red team otomasyonu ve sürekli güvenlik doğrulaması görseli

NIST AI 100-2, EU AI Act ve Sektörel Uyum Çerçeveleri

Düzenleyici ortam 2024-2026 arasında olgunlaşmıştır. EU AI Act yüksek riskli AI sistemler için risk management system zorunluluğu getirmiş; AI Act 9. maddesi prompt injection dahil adversarial robustness gerekliliğini açıkça belirtmiştir. NIST AI 100-2 (Adversarial Machine Learning) saldırı taksonomisi ve karşı önlemler için referans dokümandır.

Çerçeve	Coğrafya	Prompt Injection Atfı	Zorunlu Kontrol
NIST AI 100-2 (2024)	Global referans	Direct + indirect + jailbreak tanımlı	Adversarial testing
EU AI Act Art. 15	EU	Robustness gerekliliği	Risk management + post-market monitoring
OWASP LLM Top 10 (2025)	Global standart	LLM01 birinci sırada	Best practice
ISO/IEC 42001 (AI MS)	Global	Risk treatment requirement	Yönetim sistemi denetimi
UK AI Safety Institute	UK	Frontier model evals	Voluntary disclosure
MITRE ATLAS	Global	AML.T0051 / AML.T0054	Threat informed defense

Sektörel ek gereksinimler: finans (banking sektöründe model risk management — Fed SR 11-7 prensipleri AI’ya uyarlanıyor), sağlık (HIPAA + FDA AI/ML SaMD), savunma (DoD Responsible AI Strategy). API güvenlik gereksinimleri için API Güvenliği OWASP Top 10 dokümanı tamamlayıcı niteliktedir.

Container ve Runtime Sandboxing ile Agent İzolasyonu

Agentic LLM uygulamaları kod yürüttüğünde, dosya yazdığında veya shell komut çalıştırdığında çalıştırma ortamı sandboxing zorunludur. Yaygın yaklaşımlar:

gVisor: Google’ın user-space kernel implementasyonu, syscall yüzeyini daraltır. Avantaj: güçlü izolasyon, Kubernetes uyumu. Dezavantaj: bazı syscall’lar desteklenmez, performans cezası. Ne zaman seç: untrusted kod yürütme ana use case.
Firecracker microVM: AWS Lambda altyapısı, milisaniye cold start. Avantaj: donanım izolasyon seviyesi, hızlı boot. Dezavantaj: orkestrasyon karmaşıklığı. Ne zaman seç: ölçek + güçlü izolasyon kombinasyonu.
WebAssembly (Wasmtime/Wasmer): Capability-tabanlı izolasyon. Avantaj: deterministik, hızlı. Dezavantaj: Python/Node ekosistemine sınırlı destek. Ne zaman seç: dar amaçlı tool sandbox.
Docker + seccomp + AppArmor: Endüstri standardı. Avantaj: olgunluk, dokümantasyon. Dezavantaj: tek başına kernel paylaşımı riskini taşır. Ne zaman seç: orta risk seviyesi, ek kontrollerle.

Container hardening detayları için Container Güvenliği başlığında ayrıntılı bir tartışma yapılmıştır. Tool sandbox’unda network policy, filesystem read-only mount, time/memory/CPU quota ve egress allowlist hayati önemdedir.

SSS — Prompt Injection Savunma Soru ve Cevapları

Prompt injection ile jailbreak arasındaki fark nedir?

Prompt injection, modelin direktif önceliklendirmesini istismar eder ve sistem talimatlarını geçersiz kılmaya odaklanır; jailbreak ise modelin safety hizalamasını yaratıcı yöntemlerle aşmayı hedefler. Pratikte iki saldırı sıklıkla birlikte kullanılır: önce injection ile rol bypass, ardından jailbreak ile policy aşımı. Savunma yaklaşımı kısmen ortak (guardrail, classifier), kısmen farklıdır (instruction hierarchy injection’a, refusal training jailbreak’e karşı daha etkilidir).

Tek bir guardrail eklemek prompt injection’a karşı yeterli mi?

Hayır. SPLX ve Pillar Security raporları, tek katmanlı savunmanın bypass edilme oranının çok katmanlı yaklaşıma kıyasla yaklaşık üç kat daha yüksek olduğunu göstermektedir. Defense in depth ilkesi LLM ortamında özellikle kritiktir çünkü saldırgan yüzeyi semantik düzeydedir ve tek imza tabanlı filtre semantik varyasyonu kapsayamaz. Input sanitization, instruction hierarchy, model guardrails, output validation ve action policy katmanlarının kombinasyonu önerilir.

İç geliştirme ekibi LLM güvenliği için hangi araçlarla başlamalı?

Açık kaynak baseline: garak ile geniş kapsamlı tarama, PyRIT ile çok turlu jailbreak otomasyonu, Llama Guard 3 veya NeMo Guardrails ile runtime guardrail, Promptfoo ile prompt eval matrisi. CI/CD entegrasyonu için Promptfoo GitHub Actions desteği başlangıç noktası olarak idealdir. Bu setin tamamı yaklaşık 1-2 sprintlik bir entegrasyon eforu gerektirir ve OWASP LLM01 kategorisinin önemli bir kısmını kapsar.

Indirect prompt injection production’da nasıl tespit edilir?

Üç sinyal eş zamanlı izlenir: (1) RAG dokümanlarına ingestion sırasında suspicious instruction pattern uyarısı, (2) model çıktısında beklenmedik tool çağrı zincirleri veya outbound URL’ler, (3) embedding uzayında sorgu-cevap semantic drift. Pratik kural: bir kullanıcı sorgusu özet talep ederken model dış API çağırıyor veya e-posta gönderiyorsa, bu indirect injection için yüksek-güvenli bir sinyaldir ve insan onayı zorunludur.

Düzenleyici uyum açısından hangi çerçeve referans alınmalı?

EU pazarına ürün veriyorsanız EU AI Act Art. 9 ve 15 zorunludur; global referans için NIST AI 100-2 ve ISO/IEC 42001 yönetim sistemi standardı temel alınır. OWASP LLM Top 10 (2025) günlük operasyonel kontrol listesi olarak uygundur, MITRE ATLAS ise threat informed defense yaklaşımının iskeletidir. Sektörel düzenleyici (BDDK, EPDK, finans, sağlık) ek gereksinimler getirebilir.

Sonuç ve Karar Çerçevesi

Prompt injection savunma yaklaşımı 2026 itibarıyla “isteğe bağlı bir ek özellik” olmaktan çıkmış, üretken yapay zeka ürünleri için temel güvenlik baseline’ı haline gelmiştir. Karar çerçevesi şu sırayı izlemelidir: önce threat modeling ile lethal trifecta kombinasyonu kırılır, ardından mimari segmentasyon kurulur (dual-LLM veya plan-then-execute), sonra beş katmanlı runtime savunma devreye alınır, paralelde sürekli red teaming otomasyonu CI/CD’ye entegre edilir, son olarak telemetri ve incident response runbook’u operasyonel olgunluğa eriştirilir.

Pratik bir adımlandırma: ilk 30 günde threat model ve OWASP LLM01 kapsamında baseline garak/Promptfoo taraması; 60 günde Llama Guard veya NeMo Guardrails ile guardrail entegrasyonu ve spotlighting; 90 günde policy engine + human-in-the-loop gate’leri ve OTel telemetri; 120 günde quarterly red team ve regulatory uyum dokümantasyonu. Bu yol haritası kurumsal AI ürünlerinde gözlemlenen ortalama olgunlaşma süresini yansıtır.

Üretken yapay zeka güvenliği konusunda kurumsal stratejinizi netleştirmek, mevcut LLM ürünlerinizin OWASP LLM Top 10 uyum açığını ölçmek veya red teaming programı kurmak için omeronal.com/iletisim üzerinden detaylı bir danışmanlık görüşmesi planlayabilirsiniz.

Referanslar ve Ek Kaynaklar

OmerOnal

Yorum (1)

Ömer ÖNAL
Mayıs 16, 2026
Yanıtla

Kurumsal güvenlik denetimlerinde sıkça karşılaştığım bir gerçek: zayıflıkların %60’ından fazlası bilinen ama yamanmamış component’lerden geliyor. Bu konuda denetim süreçlerinizi nasıl yönetiyorsunuz? Yorumlara yazabilirsiniz.

Our Gallery

Contact Info

Prompt Injection Savunma: Adversarial AI Tam Rehber 2026

Adversarial AI Tehdit Yüzeyi: Prompt Injection ve Jailbreak Saldırılarının Anatomisi

OWASP LLM01: Prompt Injection Kategorileri ve Saldırı Vektörleri

Threat Modeling: Lethal Trifecta ve Saldırı Yüzeyi Haritalama