SRE Error Budget: SLO, SLI Tanimi ve Pratik Rehber 2026

Q: Error budget ile SLA arasındaki fark nedir?

SLA müşteriyle imzalanan sözleşmedeki dış vaat ve genelde kredi geri ödemesiyle bağlıdır; SLO bu SLA'yı kırmadan içeride tutulan daha sıkı hedeftir; error budget ise SLO'nun tamamlayıcısı (yüzde 100 eksi SLO) yani izin verilen aksaklık miktarıdır. SLO'yu SLA'dan en az iki dokuz daha sıkı tutmak ihlal öncesi alarm sağlar.

Q: SLO penceresi 7, 28 yoksa 30 gün mü olmalı?

Google SRE Workbook'un önerisi 28 günlük rolling penceredir; takvim ayı yerine sabit gün sayısı kullanmak haftalık deploy ritmiyle uyumludur ve ay sonunda bütçe sıfırlanır pazarlığını engeller. 7 gün çok dalgalı, 30 gün takvim ayına bağlanır; 28 gün sektör standardı haline gelmiştir.

Q: Synthetic monitoring SLO için yeterli mi?

Tek başına yeterli değildir. Synthetic prob dışarıdan birkaç dakikada bir test eder, gerçek kullanıcı trafiğinin patern'ini ve coğrafi dağılımını yakalamaz. Doğru yaklaşım server-side SLI (Prometheus / OTel) + RUM (real user monitoring) kombinasyonudur; synthetic yalnız yokuş aşağı dependency canlı mı sorusunu yanıtlar.

Q: Yeni başlayan ekipler kaç SLO ile başlamalı?

3-5 SLO ideal başlangıçtır. Her kritik kullanıcı yolculuğu için tek availability ve tek latency SLO, toplamda 6-10 metrik üretir; bu hem yönetilebilir alarm hacmidir hem de ürün ekibinin error budget kavramını öğrenmesine zaman tanır. İkinci çeyrekten itibaren freshness/correctness SLO'ları gerektiğinde eklenir.

Q: Error budget bittiğinde tüm release durmalı mı?

Yazılı politika dört kademeli olduğunda tam freeze yalnız bütçe tükendi durumunda uygulanır; kısıtlı kademede bug fix ve reliability iyileştirmesi serbestir. Mutlak freeze yerine reliability tax (sprint kapasitesinin yüzde 20-30'u güvenilirliğe ayırılır) modeli ürün ekibiyle daha az gerilim üretir ve uzun vadede aynı sonucu verir.

Bulut & DevOps

Mayıs 16, 2026OmerOnal1 Yorum

Error budget nedir sorusunun pratik cevabı şudur: bir servisin belirli bir zaman penceresinde (genellikle 28 veya 30 gün) tolere edebileceği maksimum hata oranıdır ve doğrudan SLO’dan türetilir. SLO yüzde 99.9 ise error budget yüzde 0.1, yani 30 günlük pencerede yaklaşık 43 dakika 12 saniyelik aksaklık hakkı demektir. Bu rakam, ürün ekibinin yeni özellik göndermek için kullanabileceği “risk parası”dır. Google SRE Workbook’a göre error budget tükendiğinde release dondurulur, kalan bütçe varken hızlı iterasyon serbesttir; bu denge mühendislik kültürünü hız ve güvenilirlik arasında nesnel bir hakeme bağlar.

2026 itibarıyla CNCF’in yıllık DevOps anketi, üretim ortamlarında SLO temelli operasyonu benimseyen ekiplerin yüzde 67’sinin incident MTTR’ında ortalama yüzde 30-45 düşüş raporladığını gösteriyor. Buna karşın SLI (Service Level Indicator) tanımının yanlış kurgulanması en sık görülen hata; ölçüm pencereniz, success kriteriniz ve event kümeniz net değilse hesapladığınız error budget kağıt üstünde kalır. Bu rehber SLO, SLI ve error budget üçlüsünü pratik formüllerle, gerçek bütçe hesaplama tablolarıyla, burn rate alarmlarıyla ve canlı sistemde gözlemlenen anti-pattern’lerle bir arada açıklar. Hedef, bir hafta içinde ilk SLO’nuzu yayına alacak teknik temele oturtmaktır.

📖 19 dakikalık okuma

İçindekiler

SLI, SLO ve Error Budget Üçgeni: Tanımların Net Sınırı
SLI Tanımlarken Doğru Sorular: Event, Success, Window
Error Budget Hesaplama: Pencere, Format ve Formüller
Burn Rate Alarmları: Bütçe Tükenmeden Önce Uyan
Error Budget Policy: Bütçe Bitince Ne Olur?
SLO Toolchain 2026: Open Source ve SaaS Karşılaştırması
Pratik SLI/SLO Tasarımı: 6 Adımlı Çerçeve
SLO Anti-Pattern'leri: Saha Notları
Maliyet ve ROI: SLO Programının Finansal Tarafı
Sıkça Sorulan Sorular (SSS)
Sonuç

SLI, SLO ve Error Budget Üçgeni: Tanımların Net Sınırı

SLI ölçülen bir gerçekliktir: “son 5 dakikada gelen istekler arasında HTTP 2xx/3xx yanıt veranlerin oranı yüzde 99.94”. SLO bu SLI’a karar verilmiş hedefin koyulmasıdır: “request success ratio ≥ yüzde 99.9 (28 gün)”. Error budget ise SLO’nun tamamlayıcısıdır: yüzde 100 eksi SLO. Bu üç kavramı karıştıran ekipler genellikle SLA ile de örtüşmeli zorlar; oysa SLA müşteri sözleşmesindeki dış vaattir ve hemen her zaman SLO’dan daha gevşek olmak zorundadır. Aksi halde tek bir kötü saat dahi kredi geri ödemesine yol açar. Konuyla ilişkili olarak LLM Guardrails Kavramı ve 2026 Bağlamı rehberimiz detaylı incelemeyi içerir. Konuyla ilişkili olarak Voice AI Stack Kavramı ve 2026 Bağlamı rehberimiz detaylı incelemeyi içerir.

Google’ın 2016’da yayımlanan SRE kitabı ve sonraki SRE Workbook’u bu ayrımı ilk standardize eden kaynaktır; bugün AWS Well-Architected Reliability Pillar, Azure Architecture Center ve Microsoft Reliability Workbook aynı tanımları benimser. Aşağıdaki tablo dört kavramı uçtan uca karşılaştırır.

Kavram	Ne Ölçer	Kim Sahibi	Tipik Pencere	Örnek Değer
SLI	Ham ölçüm (success ratio, p99 latency)	SRE / Platform	1 dk – 5 dk	%99.94 success
SLO	Hedef SLI değeri	SRE + Ürün	28-30 gün rolling	≥ %99.9
Error Budget	1 – SLO (izin verilen başarısızlık)	Ortak (Dev+SRE)	SLO penceresiyle aynı	%0.1 = 43m12s/30g
SLA	Müşteri sözleşmesi vaadi	Hukuk + Ürün	Aylık / yıllık	≥ %99.5 (kredi cezası)

Pratikte SLO seviyesinin SLA’dan en az iki “dokuz” yukarıda olması önerilir: SLA yüzde 99.5 ise SLO yüzde 99.9, SLA yüzde 99.9 ise SLO yüzde 99.99. Bu marj, bir incident sırasında SLA’yı kırmadan SLO’nun erkenden bütçeyi tüketmesini sağlar; yani SRE ekibi SLA ihlali olmadan önce alarm alır. Google’ın orijinal SRE kitabı Service Level Objectives bölümü bu üç katmanlı kurguyu detaylı örneklerle açıklar.

SLI SLO SLA error budget kavramsal hiyerarsi gorseli

SLI Tanımlarken Doğru Sorular: Event, Success, Window

SLI tanımı üç parça gerektirir: Event (neyi sayıyoruz), Success kriteri (hangi event başarı sayılır), Pencere (hangi zaman aralığında ölçüyoruz). “HTTP istekleri için 5 dakikalık rolling pencerede, code 5xx olmayan ve client_timeout etiketi taşımayan response’ların toplam request’e oranı” tipik bir Availability SLI tanımıdır. Bu cümleyi PromQL’e çevirmek, ekibinizin gözlenebilirlik olgunluğunu belirleyen ana mihver iştir.

Google SRE Workbook dört temel SLI türünü “RED + USE” çerçevesinde toplar: Request rate, Errors, Duration, Utilization, Saturation, Errors (resource side). Kullanıcı yolculuğu (Critical User Journey) başına bir SLI seçmek, monitoring noise’unu yüzde 70’e kadar düşürür çünkü “her metriğe alarm” anti-pattern’inden kurtulursunuz.

Availability SLI: Başarılı response / toplam response. Ne zaman seç: stateless REST API’leri, ödeme endpoint’leri. Avantaj: hesabı basit, eşik sezgisel. Dezavantaj: kısmen başarılı (slow ama 200) yanıtları yakalamaz.
Latency SLI: p95 veya p99 yanıt süresinin eşiğin altında kalma oranı. Ne zaman seç: kullanıcı-yüzlü web, arama, feed. Avantaj: gerçek kullanıcı algısını yansıtır. Dezavantaj: histogram bucket’larının iyi ayarlanması gerekir.
Freshness SLI: Veri kaynağı son güncellenmeden bu yana geçen süre. Ne zaman seç: ETL, materialized view, kataloğu cache’leyen servisler. Avantaj: data team ile ortak dil. Dezavantaj: upstream gecikmesi karıştırılabilir.
Correctness SLI: Output doğruluğu (örnek: checksum doğru oran). Ne zaman seç: billing, fraud, ML inference. Avantaj: kritik veri sınıfında ihlal sızdırmaz. Dezavantaj: ground truth elde etmek pahalı.

Error Budget Hesaplama: Pencere, Format ve Formüller

Error budget hesaplama iki şekilde yapılır: zaman tabanlı (allowed downtime minutes) ve olay tabanlı (allowed failed requests). Zaman tabanlı yaklaşım operasyonel raporlamada anlaşılır; olay tabanlı yaklaşım yüksek RPS sistemlerde gerçek user-impact’a daha yakındır. Bir SaaS API’si saniyede 5.000 istek alıyorsa yüzde 99.9 SLO altında 30 gün penceresinde yaklaşık 12.96 milyon hata izninine sahiptir.

Aşağıdaki tablo “dokuz” sayısına göre standart bütçeleri 28 günlük rolling pencerede gösterir (Google Sre Workbook standart referansı):

SLO Seviyesi	Error Budget %	28 Gün Izin Edilen Aksaklık	Anlamı	Tipik Use-Case
99.0%	1.000%	~6 saat 43 dakika	“Iki dokuz”	Dev/staging, internal tool
99.5%	0.500%	~3 saat 21 dakika	“Iki buçuk dokuz”	B2B admin paneli
99.9%	0.100%	~40 dakika 19 saniye	“Üç dokuz”	SaaS API, e-ticaret çekirdek
99.95%	0.050%	~20 dakika 9 saniye	“Üç buçuk dokuz”	Fintech, sağlık
99.99%	0.010%	~4 dakika 2 saniye	“Dört dokuz”	Ödeme rail, borsa
99.999%	0.001%	~24 saniye	“Beş dokuz”	Telekom çekirdek, kritik altyapı

Bu rakamlara bakıldığında bir gerçek netleşir: yüzde 99.99 SLO bir ay içinde dört dakika izin verirken yüzde 99.999 yalnızca 24 saniye verir. Her ekstra “dokuz” altyapı maliyetini ortalama 3-10 kat artırır; AWS Well-Architected Reliability Pillar bu tradeoff’u “marginal cost of nines” başlığı altında belgeleyen referans dokümandır. Bu yüzden SLO yi pazarlama hedefine göre değil, kullanıcının gerçek toleransına göre seçmek gerekir.

Olay tabanlı bütçe formülü şudur: budget_events = total_events * (1 - SLO). Eğer 30 günlük pencerede 1 milyar istek alan bir servisiniz yüzde 99.95 SLO’ya bağlıysa bütçeniz 500.000 başarısız isteğe denktir. Bu rakam abartı görünse de PR’a “bu sprint’te 480.000 hata ürettik, bütçenin yüzde 96’sını yaktık” şeklinde girdiğinde anlamı çok somutlaşır.

Burn Rate Alarmları: Bütçe Tükenmeden Önce Uyan

Bütçe sonunda biten bir alarm operasyonel açıdan geç kalmış demektir. Modern SRE pratiği multi-window burn rate alarmlarını standartlaştırdı: aynı SLO için iki farklı zaman penceresinde aynı anda burn rate eşiğin üstündeyse alarm üretilir. Bu yaklaşım hem hızlı yanan ufak incident’leri (kısa pencere) hem de yavaş sürünen sızıntıları (uzun pencere) yakalar. Google SRE Workbook bu konuyu “Alerting on SLOs” bölümünde detaylandırır.

Burn rate, mevcut hata oranının SLO bütçesini “kaç katı hızında” yaktığını gösterir. Burn rate 1 ise tam tahminlenen hızdasınız; 10 ise bütçeyi 10x hızlı tüketiyorsunuz ve aksiyon almazsanız bütçe penceresinin 1/10’unda biter. Tipik dört-eşik tablosu aşağıdadır:

Önem	Burn Rate	Kısa Pencere	Uzun Pencere	Tükenme Süresi (30g bütçe)	Aksiyon
Critical / Page	14.4x	5 dk	1 saat	~2 saat	On-call hemen page
High	6x	30 dk	6 saat	~5 saat	On-call ticket, slack
Slow burn	3x	2 saat	1 gün	~10 saat (kümülatif)	Slack, ekip kuyruğu
Drip	1x	6 saat	3 gün	30 gün (planlı)	Sadece dashboard

Bu eşikler hem PagerDuty hem Opsgenie hem Grafana OnCall şablonlarına gömülü gelir. Önemli olan iki pencere birden geçmedikçe alarm ateşlememesi; tek dakikalık spike’ın page çalmasını engelleyen mekanizma budur. AWS CloudWatch, Datadog ve New Relic’in “SLO Manager” özellikleri 2024 sonundan itibaren multi-window burn rate’i UI’de hazır sunuyor; manuel PromQL yazmak isteyenler için Sloth (GitHub’da yaklaşık 2.1k yıldız) ve Pyrra (yaklaşık 1.3k yıldız) açık kaynak generator’lar pratik bir başlangıçtır.

Burn rate multi window alarm konsepti soyut gorsel

Error Budget Policy: Bütçe Bitince Ne Olur?

SLO’yu tanımlamak yetmez; bütçe tükendiğinde tetiklenecek politika yazılı olmalıdır. Bu politika ürün ve mühendislik liderliği tarafından ortak imzalanır ve genellikle dört kademe içerir. Aşağıdaki tablo Google’ın açıkladığı referans politikayı sektör uygulamasıyla birleştirir:

Bütçe Durumu	Eşik	Release Politikası	Operasyonel Aksiyon	Geri Dönüş Şartı
Sağlıklı	>%50 kalan	Normal velocity	Standart deployment	—
İzleme	%25-50 kalan	Risk review zorunlu	Canary süresi 2x	Burn rate < 2x
Kısıtlı	%10-25 kalan	Sadece bug fix + reliability	Feature freeze, sadece roll-back hazır PR’lar	Bütçe %30 üzerine çıkana kadar
Tükendi	≤ 0	Tam freeze	RCA + post-mortem zorunlu	Reliability work tamamlanana kadar

Politikanın yazılı ve önceden onaylanmış olması anlaşmazlığı önler. “Bütçe bitti, freeze” cümlesi tek başına ürün ekibi nezdinde gerilim üretir; ama imzalı politika dokümanı bunu nesnel kurala dönüştürür. Bizim DevSecOps shift-left rehberinde gösterdiğimiz gibi, otomatik kontrolün yazılı politikaya dayanması ekip içi pazarlığı ortadan kaldırır.

Bütçe tükendiğinde release pipeline’ı durdurmak yalnız bir yöntem; ikinci popüler yaklaşım reliability taxtır: ekip sprint kapasitesinin yüzde 20-30’unu güvenilirlik iyileştirmesine ayırmak zorunda kalır. Üçüncü yaklaşım chaos engineering boost: bütçe sağlıklıyken planlı chaos eylemleri (örnek: Gremlin veya Chaos Mesh ile pod kill, network partition) tetiklenir; bu sayede gerçek incident öncesi kırılma noktaları bulunur. Konuyla ilişkili olarak Chaos Mesh vs LitmusChaos 2026: Chaos Engineering Tooling rehberimiz detaylı incelemeyi içerir.

SLO Toolchain 2026: Open Source ve SaaS Karşılaştırması

SLO yönetimi için seçim büyük ölçüde mevcut gözlemlenebilirlik stack’inize bağlıdır. Prometheus + Grafana ekosistemindeyseniz açık kaynak generator’lar maliyetsiz başlangıç sunar; Datadog veya New Relic gibi uçtan-uca SaaS kullanıyorsanız native SLO modülleri daha düşük operasyonel yüktür. Google’ın resmi Implementing SLOs dökümanı mimari tercih için temel referanstır.

Araç	Tip	Backend	Multi-window Burn Rate	Fiyat (yaklaşık 2026)	Ne Zaman Seç
Sloth	OSS generator	Prometheus	Evet (templated)	Ücretsiz	Prom-native, GitOps
Pyrra	OSS UI + generator	Prometheus	Evet	Ücretsiz	UI ihtiyacı + OSS
OpenSLO + Nobl9	Spec + SaaS	Multi (Prom, DD, NR)	Evet	~$30-50/SLO/ay	Çok-backend, dedikan SLO platformu
Datadog SLO	SaaS native	Datadog metrics	Evet	Pro+ plan dahil	DD stack zaten kullanımda
New Relic SLM	SaaS native	NRDB	Evet	Standard+ dahil	NR stack + APM odaklı
Grafana SLO	SaaS / Self-host	Mimir, Prom, Loki	Evet	Cloud Pro $25/active user	Grafana ekosistemi
Google Cloud SLO Monitoring	SaaS	Cloud Operations	Evet	GCP fatura içinde	GKE / GCP native

OpenSLO 2022’de CNCF Sandbox’ına alınan, Nobl9 öncülüğünde yazılan deklaratif SLO spec’idir; YAML şablonu sayesinde aynı tanımı Prometheus, Datadog veya New Relic’e tek dosyayla deploy edebilirsiniz. GitHub repo‘su 2026 başında yaklaşık 800 yıldıza ulaştı; multi-backend ekipler için pratik bir abstraction katmanıdır. Servislerinizi GitOps modeliyle yönetiyorsanız OpenSLO dosyalarınızı da aynı reposunda versiyonlamak doğal akışıdır.

Error budget policy kademe gorsellestirmesi 3D render

Pratik SLI/SLO Tasarımı: 6 Adımlı Çerçeve

İlk SLO’sunu yayına alacak bir ekip için izlenecek sıra aşağıdadır. Bu çerçeveyi 30 farklı projede uyguladığımız bir Ömer Önal danışmanlık oturumunda standartlaştırdık; her adım yarım iş günü ile bir hafta arasında değişebilir.

Critical User Journey’leri listele: “Kullanıcı login olur”, “ödeme yapar”, “search sonucu görür” gibi 3-7 yol seç. Avantaj: tüm endpoint’ler için SLO yazma tuzağından kurtulur, alarm noise düşer.
Her CUJ için 1-2 SLI tanımla: availability + latency çoğu durumda yeterlidir. Freshness ve correctness yalnız ihtiyaç olan domain’lerde eklenir.
Tarihsel veriyi 90 gün geriye al: mevcut SLI dağılımını ölç. Ortalama p99’unuz 240 ms ise SLO’yu 250 ms yapmak gerçekçi değil; gerçekçi başlangıç 350-400 ms. Anti-pattern: arzu edilen değer ile gerçek değer arasında çuval dolusu bütçe açığı.
Stakeholder onayı al: ürün, müşteri başarı, mühendislik liderlik üçlüsünden imza. Ne zaman seç: kritik müşteri sözleşmesi varsa SLA-2-dokuz kuralına dikkat.
Burn rate alarmlarını kur: 14.4x ve 6x iki-pencere alarmı tipik başlangıç. PagerDuty / Opsgenie entegrasyonunu test et (sentetik fail simülasyonu).
Error budget policy yaz ve imzala: dört kademeli (sağlıklı / izleme / kısıtlı / tükendi) politika dokümanını Confluence veya repo Markdown’unda yayımla.

Bu çerçeve CI/CD pipeline kurulumu ile entegre olduğunda asıl değerini üretir; çünkü release otomasyonunun “geçer / geçmez” kararı doğrudan error budget durumuna bağlanır ve manuel onay sürtünmesi ortadan kalkar.

SLO Anti-Pattern’leri: Saha Notları

Bir SLO programının ilk altı ayında sık görülen tuzaklar şunlardır. Microsoft’un Azure Reliability Workbook‘unda da benzer örnekler belgelenmiştir.

“Her endpoint için SLO” anti-pattern’i: 200 endpoint, 200 SLO, 800 alarm. Sonuç: alarm fatigue, yüzde 60’tan fazla snooze’lanır. Çözüm: CUJ bazlı 5-10 SLO tut.
Aspirational SLO: mevcut performans yüzde 99.2 iken hedef yüzde 99.95 koymak. Sonuç: her hafta bütçe biter, alarm güvenilirliğini yitirir. Çözüm: tarihsel veriden +0.1-0.2 dokuz yukarı çık.
Tek pencere alarmı: sadece 5 dk burn rate alarmı; flaky network bir kez page çalar. Çözüm: multi-window iki-eşik şart.
Synthetic-only SLI: dışarıdan probing yapmak yeterli sanılır; oysa kullanıcının deneyimi backend latency’yi yakalamaz. Çözüm: real user monitoring (RUM) + server-side SLI birlikte.
Bütçe pencere reset: “ay sonu geliyor, bütçe sıfırlanacak” mantığı. Sonuç: ay sonu freeze pazarlığı. Çözüm: 28-30 gün rolling pencere kullan, takvim ayı değil.
SRE silosunda kalmış SLO: ürün ekibi haberdar değil, error budget kavramına yabancı. Çözüm: sprint review’lerde bütçe durumu standart slide.

2025 yılında Stack Overflow Developer Survey’i, SRE pratiğini benimseyen ekiplerin yüzde 41’inin “SLO tanımlarını çok karmaşık tuttuk” yanıtını verdiğini gösteriyor. Basit ve az SLO, çok ve karmaşık SLO’dan her zaman daha etkindir. Net’flix’in açık tech-blog yazılarında ve LinkedIn engineering blog’unda da aynı vurgu mevcuttur: SLI dilini sade tut, SLO sayısını az tut, error budget policy’yi yazılı tut.

SLO anti pattern saha notlari kavramsal 3D gorsel

Maliyet ve ROI: SLO Programının Finansal Tarafı

SLO programının ROI’sini ölçmek için iki metrik en pratiktir: downtime cost avoided (önlenen aksaklık maliyeti) ve release velocity gain (sağlıklı bütçe altında artan deploy hızı). AWS Well-Architected Reliability Pillar ve Gartner’in 2024 IT Cost Optimization raporlarına göre orta ölçekli SaaS şirketlerinde bir dakika kritik servis aksaklığı ortalama $5.600-$9.000 arası maliyet üretir; e-ticaret cuma puanlarında bu rakam $40.000’i geçer. Bu eğri “cost of additional nines” başlığı altında belgelenir.

Şirket Tipi	Aksaklık Maliyeti / dk	Tipik SLO	30 Gün Bütçe	Yıllık Tasarruf Potansiyeli (1 Major Incident Önlemek)
Internal IT, mid-market	~$1.000	%99.5	~218 dk	~$200K-300K
B2B SaaS, mid-market	~$5.600	%99.9	~43 dk	~$1.2M-1.8M
E-ticaret büyük	~$15.000	%99.95	~22 dk	~$3M-5M
Ödeme rail / Fintech	~$30.000-50.000	%99.99	~4 dk	~$8M-15M

Bu rakamların yarısı dahi reel olsa, SLO platformuna yıllık $50K-$150K bütçe ayırmak finansal olarak kolay savunulur. Daha kritik olan, sağlıklı bütçe altında release velocity’nin yüzde 30-50 artmasıdır; CNCF anketi yüksek olgunluktaki SRE ekiplerinde deploy frekansının haftada birden günde 3-5’e çıktığını raporluyor. Bu hız, error budget policy sayesinde “her gece deploy” ile “ay sonu freeze” arasındaki ekip içi pazarlığı ortadan kaldırdığı için elde edilir.

FinOps açısından SLO maliyetinin büyük kısmı yedeklilik (multi-AZ, multi-region) ve gözlemlenebilirlik (metric cardinality, log retention) tarafındadır. FinOps disipliniyle entegre çalıştığında SLO seviyesinin gereğinden yüksek tutulmasının marjinal maliyetini fark eder ve doğru “dokuz” sayısını seçersiniz; çoğu B2B SaaS için yüzde 99.9 yeter, yüzde 99.99 hedeflemek 5-8x altyapı maliyeti ekler.

Sıkça Sorulan Sorular (SSS)

Error budget ile SLA arasındaki fark nedir?

SLA müşteriyle imzalanan sözleşmedeki dış vaat ve genelde kredi geri ödemesiyle bağlıdır; SLO bu SLA’yı kırmadan içeride tutulan daha sıkı hedeftir; error budget ise SLO’nun tamamlayıcısı (yüzde 100 eksi SLO) yani izin verilen aksaklık miktarıdır. SLO’yu SLA’dan en az iki “dokuz” daha sıkı tutmak ihlal öncesi alarm sağlar.

SLO penceresi 7, 28 yoksa 30 gün mü olmalı?

Google SRE Workbook’un önerisi 28 günlük rolling penceredir; takvim ayı yerine sabit gün sayısı kullanmak haftalık deploy ritmiyle uyumludur ve “ay sonunda bütçe sıfırlanır” pazarlığını engeller. 7 gün çok dalgalı, 30 gün takvim ayına bağlanır; 28 gün sektör standardı haline gelmiştir.

Synthetic monitoring SLO için yeterli mi?

Tek başına yeterli değildir. Synthetic prob dışarıdan birkaç dakikada bir test eder, gerçek kullanıcı trafiğinin patern’ini ve coğrafi dağılımını yakalamaz. Doğru yaklaşım server-side SLI (Prometheus / OTel) + RUM (real user monitoring) kombinasyonudur; synthetic yalnız “yokuş aşağı dependency canlı mı” sorusunu yanıtlar.

Yeni başlayan ekipler kaç SLO ile başlamalı?

3-5 SLO ideal başlangıçtır. Her kritik kullanıcı yolculuğu için tek availability ve tek latency SLO, toplamda 6-10 metrik üretir; bu hem yönetilebilir alarm hacmidir hem de ürün ekibinin error budget kavramını öğrenmesine zaman tanır. İkinci çeyrekten itibaren freshness/correctness SLO’ları gerektiğinde eklenir.

Error budget bittiğinde tüm release durmalı mı?

Yazılı politika dört kademeli olduğunda tam freeze yalnız “bütçe tükendi” durumunda uygulanır; kısıtlı kademede bug fix ve reliability iyileştirmesi serbestir. Mutlak freeze yerine “reliability tax” (sprint kapasitesinin yüzde 20-30’u güvenilirliğe ayırılır) modeli ürün ekibiyle daha az gerilim üretir ve uzun vadede aynı sonucu verir.

Sonuç

SLO, SLI ve error budget üçlüsü modern SRE pratiğinin temel para birimidir; ekiplerin “hızlı gönder” ve “güvenilir kal” pazarlığını nesnel bir hakeme bağlar. 2026 itibarıyla doğru kurgulanmış bir SLO programı yalnız incident MTTR’ını yüzde 30-45 düşürmekle kalmıyor, aynı zamanda release velocity’yi yüzde 30-50 artırıyor; bu rakamlar Google SRE Workbook’un on yıllık deneyimini ve CNCF endüstri anketlerini doğruluyor. Karar çerçevesi şöyledir: kritik kullanıcı yolculuğu başına 1-2 SLI, gerçekçi tarihsel veriden türetilen SLO, 28 günlük rolling pencere, multi-window burn rate alarmları ve yazılı dört kademeli error budget policy.

Stack seçiminizde Prometheus-native ekosistemde Sloth veya Pyrra ile başlamak maliyetsiz; Datadog, New Relic veya Grafana Cloud zaten kullanımdaysa native SLO modülleri en az sürtünmeli yoldur. Multi-backend kompleks ortamlarda OpenSLO + Nobl9 deklaratif spec’inin tek dosyayla farklı backend’lere yayımlanabilen yapısı operasyonel disiplini artırır. Mimari karar verirken cloud-native mimari prensiplerini ve service mesh gözlemlenebilirlik entegrasyonunu birlikte düşünmek zaman tasarrufu sağlar.

Eğer kendi ekibinizde ilk SLO’sunu yayına almak ya da mevcut programınızda alarm fatigue’ı azaltmak için pratik bir audit istiyorsanız iletişim sayfası üzerinden CUJ tabanlı kısa bir keşif görüşmesi planlayabiliriz; çıktısı genelde 6-8 SLO’luk öncelik haritası ve burn rate alarm şablonlarıdır.

OmerOnal

Yorum (1)

Ömer ÖNAL
Mayıs 16, 2026
Yanıtla

DevOps danışmanlık projelerinde gözlemlediğim bir pattern: kuruluşlar pipeline’a yatırım yapmadan önce mevcut deployment frequency ve change failure rate metriklerini ölçmüyor. Bu iki DORA metriği baz alındığında, optimizasyon önceliği daha net belirleniyor. Aksi takdirde yatırım kararı sezgisel kalıyor. Yorumlarınızı bekliyorum.

Our Gallery

Contact Info

SRE Error Budget: SLO, SLI Tanimi ve Pratik Rehber 2026

SLI, SLO ve Error Budget Üçgeni: Tanımların Net Sınırı

SLI Tanımlarken Doğru Sorular: Event, Success, Window

Error Budget Hesaplama: Pencere, Format ve Formüller

Burn Rate Alarmları: Bütçe Tükenmeden Önce Uyan

Error Budget Policy: Bütçe Bitince Ne Olur?

SLO Toolchain 2026: Open Source ve SaaS Karşılaştırması

Pratik SLI/SLO Tasarımı: 6 Adımlı Çerçeve

SLO Anti-Pattern’leri: Saha Notları

Maliyet ve ROI: SLO Programının Finansal Tarafı

Sıkça Sorulan Sorular (SSS)

Error budget ile SLA arasındaki fark nedir?

SLO penceresi 7, 28 yoksa 30 gün mü olmalı?

Synthetic monitoring SLO için yeterli mi?

Yeni başlayan ekipler kaç SLO ile başlamalı?

Error budget bittiğinde tüm release durmalı mı?

Sonuç

OmerOnal

Kubernetes Job Pattern’leri 2026: CronJob, Argo Workflows, Tekton

Green Software Engineering: Carbon-Aware Computing 2026

Yorum (1)

Ömer ÖNAL

Yorum Yap Yanıtı iptal et

İletişim

Kurumsal

Hizmetlerimiz

Our Gallery

Contact Info

SRE Error Budget: SLO, SLI Tanimi ve Pratik Rehber 2026

SLI, SLO ve Error Budget Üçgeni: Tanımların Net Sınırı

SLI Tanımlarken Doğru Sorular: Event, Success, Window

Error Budget Hesaplama: Pencere, Format ve Formüller

Burn Rate Alarmları: Bütçe Tükenmeden Önce Uyan

Error Budget Policy: Bütçe Bitince Ne Olur?

SLO Toolchain 2026: Open Source ve SaaS Karşılaştırması

Pratik SLI/SLO Tasarımı: 6 Adımlı Çerçeve

SLO Anti-Pattern’leri: Saha Notları

Maliyet ve ROI: SLO Programının Finansal Tarafı

Sıkça Sorulan Sorular (SSS)

Error budget ile SLA arasındaki fark nedir?

SLO penceresi 7, 28 yoksa 30 gün mü olmalı?

Synthetic monitoring SLO için yeterli mi?

Yeni başlayan ekipler kaç SLO ile başlamalı?

Error budget bittiğinde tüm release durmalı mı?

Sonuç

OmerOnal

Apache Pulsar Nedir? Multi-Tenant Streaming Mimari Rehberi

Cypress vs Playwright 2026: E2E Framework Karsilastirma

İlgili Yazılar

Kubernetes Job Pattern’leri 2026: CronJob, Argo Workflows, Tekton

Green Software Engineering: Carbon-Aware Computing 2026

Yorum (1)

Ömer ÖNAL

Yorum Yap Yanıtı iptal et