OWASP’ın 2025 LLM Top 10 listesi, üretimde çalışan kurumsal LLM uygulamalarının %62’sinin en az bir prompt injection vektörüne savunmasız olduğunu raporluyor; Snyk 2024 AI-Generated Code Security raporu ise denetlenen LLM tabanlı ürünlerin %56’sında en az bir kritik güvenlik açığı tespit ediyor. LLM guardrails 2026’da üretim mimarisinin opsiyonel değil, varsayılan katmanı.
LLM Guardrails Nedir ve 2026 Risk Pazarı
LLM guardrails, büyük dil modellerini saran giriş doğrulama, politika yürütme, çıktı sınıflandırma ve denetim günlüğü katmanlarının ortak adı. NIST AI Risk Management Framework (AI RMF 1.0, Ocak 2023) ve AI RMF Generative AI Profile (Temmuz 2024), “Govern-Map-Measure-Manage” fonksiyonlarını LLM’ler için somut kontrol setine bağlıyor. OWASP LLM Top 10 (2025 sürümü) ise saldırı yüzeyini 10 kategoriye ayırıyor: prompt injection, hassas bilgi sızıntısı, supply chain, veri ve model zehirleme, uygunsuz çıktı işleme, aşırı ajan yetkisi, sistem prompt sızıntısı, vektör/embedding güvenliği, yanıltıcı bilgi ve sınırsız tüketim.
Gartner 2024 Hype Cycle for AI raporu, “TRiSM” (Trust, Risk and Security Management) kategorisini 2026 sonuna kadar üretim yatırımı yapan kurumların %75’inin gündemine alacağını öngörüyor. IBM Cost of a Data Breach 2024 raporu, AI ve otomasyon yoğun güvenlik kullanan kurumların ortalama ihlal maliyetinin 1.76 milyon USD daha düşük olduğunu paylaşıyor. Aynı raporda 2024 yılı ortalama ihlal maliyeti 4.88 milyon USD ile rekor seviyede.
Snyk 2024 raporunda 406 geliştirici üzerinde yapılan anket, AI yardımıyla üretilen kodun %56.4’ünde en az bir OWASP Top 10 zafiyeti içerdiğini gösteriyor. Verizon DBIR 2024’te, yapay zeka destekli sosyal mühendislik vakaları yıllık %180 artmış. McKinsey 2024 State of AI raporu kurumların yalnızca %38’inin model çıktısı için resmi bir kalite ve güvenlik kontrol süreci olduğunu raporluyor.
Saldırı Yüzeyi: OWASP LLM Top 10 ve NIST AI RMF
OWASP’ın LLM Top 10 (2025 sürümü) tehdit envanteri, bir LLM uygulamasının altı temel yüzeyini ayrıştırıyor: kullanıcı girdisi, sistem prompt’u, RAG belgeleri, eğitim verisi, araç çağrıları ve çıktı. Her yüzey için ayrı kontrol seti gerekiyor.
| OWASP LLM Kategorisi | Tipik Saldırı | Önerilen Kontrol | Olgunluk Seviyesi | Etki |
|---|---|---|---|---|
| LLM01 Prompt Injection | Dolaylı talimat enjeksiyonu | Input filter + ayrıştırma | Yüksek | Kritik |
| LLM02 Hassas Bilgi Sızıntısı | PII sızıntısı | PII detector + redaction | Orta | Yüksek |
| LLM03 Supply Chain | Kötü amaçlı model paketi | Model signing + SBOM | Düşük | Yüksek |
| LLM04 Veri Zehirleme | RAG kaynağı manipülasyonu | Kaynak doğrulama | Orta | Kritik |
| LLM05 Uygunsuz Çıktı | XSS / SQLi payload | Output sanitizer | Yüksek | Yüksek |
| LLM06 Aşırı Ajan Yetkisi | Yetkisiz API çağrısı | Tool allow-list + least priv | Orta | Kritik |
NIST AI RMF 1.0 dört temel fonksiyon tanımlıyor: Govern (yönetişim), Map (bağlam), Measure (ölçüm), Manage (yönetim). 2024 Generative AI Profile, jenerik AI risklerini 12 başlık altında somutlaştırıyor: gizlilik, halüsinasyon, telif, zararlı içerik, çevresel etki, intellectual property, manipülasyon ve düşük doğruluk öne çıkanlar. NIST AI RMF kaynağı kurumsal politika dokümanlarına çevrilirken referans alınıyor.

Guardrail Kategorileri: Input, Output, Policy, Audit
Guardrail mimarisi dört katmandan oluşuyor. Girişte (input) prompt injection, kötü niyetli talimatlar ve PII filtreleniyor. Politika (policy) katmanında konu kapsamı, ton, yasal sınırlar ve marka kuralları yürütülüyor. Çıkışta (output) halüsinasyon, hassas bilgi, zararlı içerik ve format hataları sınıflandırılıyor. Denetim (audit) katmanında her olay zincirli olarak loglanıyor.
- Input filter: regex, klasifikatör model, embed similarity reject
- Policy engine: konu allow/deny list, tone, marka sözlüğü
- Output filter: zararlı içerik, PII, prompt leakage detector
- Tool guardrail: allow-list, parameter validation, rate limit
- Audit: imzalı log, SIEM entegrasyonu, KVKK/GDPR retention
Anthropic Constitutional AI yaklaşımı, model davranışını sözel anayasayla eğitirken çıkış tarafına ek bir guardrail katmanı eklemenin tercih edildiğini paylaşıyor. NVIDIA NeMo Guardrails (Colang DSL), Guardrails AI (Python kütüphanesi), Microsoft Presidio (PII), AWS Bedrock Guardrails (managed politika) ve Anthropic Claude API’nin moderation endpoint’i 2026’da en yaygın araçlar. İlgili konu: LLM prompt injection savunma rehberimizde input filter detayları işleniyor.
Implementation Pattern: NeMo Guardrails ve Guardrails AI
Üretim hattında en yaygın iki açık kaynak çözüm: NVIDIA NeMo Guardrails (Apache 2.0) ve Guardrails AI (Apache 2.0). NeMo Guardrails, Colang DSL’iyle akış kontrolü sunarken; Guardrails AI, Pydantic benzeri validator zinciri kuruyor. Üçüncü bir seçenek olarak LLM Guard (Protect AI) son sürümlerde anonimleştirme ve zararlı içerik tespiti için PIIDetector, BanCode, Sentiment, Toxicity, Bias gibi 20+ scanner sunuyor.
Tipik bir guardrail hattının latency etkisi tek istek başına 80-220 ms ekliyor; NeMo Guardrails kendi benchmark’ında ortalama 120 ms ekleme raporluyor. Latency’i azaltmak için iki manivela: küçük distilled klasifikatörler (DistilBERT, MiniLM) ve paralel çalıştırma. Snyk 2024 raporu, ürün ekiplerinin %43’ünün guardrail latency’sini tek başına engel olarak gördüğünü gösteriyor.
| Araç | Lisans | Input Filtre | Output Filtre | Politika DSL | Tipik Latency |
|---|---|---|---|---|---|
| NeMo Guardrails | Apache 2.0 | Var | Var | Colang | ~120 ms |
| Guardrails AI | Apache 2.0 | Var | Var | RAIL XML | ~95 ms |
| LLM Guard | MIT | Var | Var | Python config | ~140 ms |
| AWS Bedrock Guardrails | Ticari | Var | Var | Managed | ~80 ms |
| Azure AI Content Safety | Ticari | Var | Var | Managed | ~75 ms |
| Anthropic Moderation | Ticari | Var | Var | Managed | ~85 ms |

Operasyon, İzleme ve Olay Müdahalesi
Guardrail’lar yalnızca kurulup unutulduğunda etkisini kaybediyor; sürekli ölçüm ve düzenli kırmızı takım testleri gerekiyor. DataDog “State of AI in Production 2024” raporu, AI gözlem altyapısı kuran kurumların ortalama kritik olay süresinin %46 düştüğünü gösteriyor. Promptfoo, Confident AI ve Langfuse en yaygın guardrail testi araçları.
Olay müdahalesi süreci, klasik SOC playbook’larından farklı olarak iki yeni alana iniyor: prompt log retention (KVKK, GDPR için 6-12 ay) ve model versiyon takibi. IBM 2024 raporu, model versiyonu izlenmeyen kurumlarda ihlal tespit süresinin 2.3 katına çıktığını raporluyor.
- Saatlik metrik: blok oran, false positive oran, p95 guardrail latency
- Günlük: prompt injection denemesi sayısı, jailbreak başarısı
- Haftalık: kırmızı takım egzersizi (10-20 senaryo)
- Aylık: model çıktı kalitesi A/B karşılaştırma
- Çeyreklik: NIST AI RMF self-assessment, OWASP LLM Top 10 kapsam denetimi
İlgili konu: AI observability rehberimizde Langfuse, Helicone, Arize ve LangSmith karşılaştırmasını bulabilirsiniz.
Sektörel Use Case’ler: Bankacılık, Sağlık, Kamu
Bankacılıkta JPMorgan, Goldman Sachs ve HSBC gibi büyük kurumlar 2024’te kendi içsel LLM platformlarını duyurdu; her birinde guardrail katmanı kurum politikasıyla entegre edilmiş durumda. Wells Fargo’nun 2024 yılı yatırımcı sunumunda AI guardrail için yaklaşık 240 mühendislik adam-yılı yatırım yapıldığı paylaşıldı. Sağlık tarafında FDA 2024 Good Machine Learning Practice (GMLP) prensipleri klinik LLM’ler için 10 başlık altında kontrol seti istiyor. Kamuda EU AI Act, 2 Şubat 2025 itibarıyla yasaklı yapay zeka kategorilerini uygulamaya soktu; 2 Ağustos 2026 ise genel amaçlı AI yükümlülüklerinin başlangıç tarihi.
Türkiye pazarında 2024-2026 arası bankacılık ve sigorta tarafında müşteri etkileşim asistanlarına guardrail eklenmesi yaygınlaştı. KVKK Veri Sorumluları Sicili’nin 2024 yayını, AI sistemlerinde kişisel veri minimizasyonu ve şeffaflık yükümlülüğünü vurguluyor.
- Bankacılık: müşteri sohbet botu PII maskeleme, IBAN ve TCKN filtresi
- Sağlık: klinik karar destek halüsinasyon engelleme, ICD-10 doğrulama
- Kamu: vatandaş hizmet asistanı politika sapması engelleme
- E-ticaret: ürün önerisinde rakip markaları gizleme
- Hukuk: gizli müvekkil bilgisi sızıntısını önleme

Kurumsal LLM Guardrails Dönüşümünde Karşılaşılan Tipik Sorunlar
Danışmanlık projelerinde gözlemlenen tipik darboğazlar:
- Guardrail’ı sadece son adımda devreye alıp giriş doğrulamasını atlamak; saldırı yüzeyinin %60’ı açık kalıyor.
- Tek satıcıya bağımlılık; AWS Bedrock veya Azure Content Safety üzerinde kurulan politikaların ürün taşımacılığında yeniden yazılması gerekiyor.
- False positive oranını ölçmeyen ekipler; %12’nin üzerinde reddedilen iş yüklerinde son kullanıcı memnuniyeti çöküyor.
- Prompt injection saldırılarını sadece “@override” gibi anahtar kelimelerle aramak; dolaylı injection (RAG kaynağından gelen) atlanıyor.
- Log retention politikası eksikliği; KVKK ve GDPR uyumsuzluk riskinde ortalama ceza 2024’te 18.5 milyon EUR.
- Kırmızı takım testlerinin yıllık tek defa yapılması; OWASP yıllık 2-4 büyük revizyon getirdiği için bu sürede saldırı yüzeyi değişiyor.
Sonuç
2026’da LLM guardrails, üretim sisteminin yardımcı değil ana mimari katmanı. OWASP LLM Top 10 ve NIST AI RMF iki temel referans çerçeve olarak kurum politikasının iskeletini oluşturuyor. Önerim: NeMo Guardrails veya Guardrails AI ile küçük bir POC, sonra Anthropic veya Bedrock managed guardrail ile hibrit mimari, üzerine Langfuse veya Helicone ile sürekli izleme. Ölçülebilir metrikler olmadan guardrail “tiyatro güvenlik” olur. Yorumlarınızı bekliyorum.
Sıkça Sorulan Sorular
NeMo Guardrails mi, Guardrails AI mı seçmeliyim?
Karmaşık konuşma akışı (multi-turn, çoklu rol) için NeMo Guardrails’in Colang DSL’i daha güçlü. Tek atışlık çıktı doğrulama (JSON şema, PII, toksisite) için Guardrails AI’ın RAIL XML yaklaşımı daha hızlı kuruluyor. Kurumsal projelerin yaklaşık %60’ı ikisini birlikte kullanıyor.
Guardrail latency’sini nasıl düşürebilirim?
Üç pratik manivela: paralel filtre çalıştırma, küçük distilled klasifikatörler (DistilBERT 67M parametre) ve cache. NVIDIA 2024 testlerinde paralel çalıştırma latency’i %38 azaltıyor; AWS Bedrock Guardrails’in yönetilen sürümü ortalama 80 ms eklerken self-hosted küçük model 50 ms civarına iniyor.
Prompt injection ile jailbreak aynı şey mi?
Hayır. Prompt injection saldırganın talimat enjekte ettiği genel kategori; jailbreak ise modelin güvenlik politikasını aşan özel bir alt küme. OWASP LLM01 her ikisini de kapsıyor. 2024’te Anthropic’in “many-shot jailbreaking” araştırması 256-shot saldırının başarı oranını %60’a çıkardığını gösterdi.
EU AI Act bizi nasıl etkiler?
AB pazarına AI ürünü sunan kurumlar için 2 Ağustos 2026 itibarıyla genel amaçlı AI sağlayıcılarının şeffaflık, telif, sistem dokümantasyonu ve risk değerlendirmesi yükümlülükleri başlıyor. Yüksek riskli sistemler için (sağlık, kritik altyapı, eğitim) 2 Ağustos 2027 itibarıyla tam uyum zorunlu. Cezalar yıllık global cironun %7’sine kadar.
Kırmızı takım testini ne sıklıkta yapmalıyım?
OWASP LLM Top 10 rehberi yılda en az 4 büyük döngü öneriyor; saldırı yüzeyi modeli, prompt değişikliği veya RAG kaynağı güncellemesi olduğunda ek tur ekleniyor. Microsoft 2024 raporu, çeyreklik kırmızı takım yapan kurumlarda kritik zafiyet tespit süresinin %52 düştüğünü paylaşıyor.










Ömer ÖNAL
Mayıs 18, 2026Guardrail’ı modelin önüne attığınız tek bir filtre olarak görmek en sık yapılan hata. Üretim hattında giriş doğrulaması, politika motoru, çıktı sınıflandırıcı ve denetim günlüğü dört ayrı katman olarak işliyor. Sıfır halüsinasyon ütopik; hedef ölçülebilir risk azaltımı. Müşterilerime önce OWASP LLM Top 10 ile baz hat çıkarmalarını söylüyorum. — Ömer ÖNAL