Observability Rehberi 2026: OpenTelemetry ve SLO Stratejisi

Q: Tek bir observability platformu mu çoklu vendor mu?

2026'da hibrit yaklaşım yaygın: tek core platform ana stack olurken niş ihtiyaçlar için ayrı araçlar kullanılıyor. OpenTelemetry omurgası platform değişikliğini kolaylaştırır. Kurumların %63'ü 2-4 observability aracı çalıştırıyor.

Q: Sampling stratejisi nasıl seçilmeli?

Head-based sampling basit ama interesting trace'leri kaçırır. Tail-based hata ve yüksek latency'li trace'leri saklar. Best practice head-based %1-5 + tail-based her error saklama kombinasyonudur; %85 maliyet düşüşü sağlar.

Q: Logs, metrics ve traces hepsi gerekli mi?

Üçü de farklı sorulara cevap verir; olgun observability'de hepsi gereklidir. Öncelik sırası: önce metrics + alerting, ardından structured logs, son olarak distributed tracing. Tracing 10+ servisli sistemlerde kritik olur.

Q: Continuous profiling gerekli mi?

Performance-kritik sistemler için 2026'da evet. eBPF veya pprof tabanlı profiling production'da CPU/memory profilini alır. Pyroscope, Grafana Phlare popüler seçeneklerdir; %10 CPU optimization yıllık altı haneli tasarruf üretir.

Bulut & DevOps

Ocak 17, 2026Ömer ÖNAL0 Yorum

CNCF State of Observability 2025 raporuna göre dağıtık sistem çalıştıran kurumların %84’ü en az iki gözlemlenebilirlik katmanı kullanıyor; observability olgun ekipler ortalama Mean Time to Resolution (MTTR) süresini saatlerden 9 dakikaya indiriyor. Modern dağıtık sistemlerde basit “log toplama” çağı bitti; üç sütun yaklaşımı (logs, metrics, traces) artık tek başına yeterli değil, eventler ve continuous profiling ile genişledi. 2026 itibarıyla observability bir araç stratejisi değil, mühendislik kültürünün ölçülebilir bir boyutu olarak konumlanıyor.

Bu rehberde observability’nin üç temel sütununu, OpenTelemetry standardını, araç ekosistemini, SLO-tabanlı yönetimi ve maliyet boyutunu inceliyoruz; ekibinizin gözlemlenebilirlik stratejisi için somut karar matrisi sunuyoruz.

📖 7 dakikalık okuma

İçindekiler

Observability ve Monitoring Arasındaki Fark
Üç Sütun: Logs, Metrics ve Traces
OpenTelemetry: Standardın Yükselişi
SLO ve Error Budget ile Observability Yönetimi
Maliyet, ROI ve Sınırlamalar
Sık Sorulan Sorular
Sonuç

Observability ve Monitoring Arasındaki Fark

Monitoring “bildiğiniz problem”i izlemektir; observability “öngörmediğiniz problem”i sistemin dış davranışından anlama yetkinliğidir. Monitoring statik dashboard’lar ve önceden tanımlanmış alarmlarla çalışır; observability ise structured veriyi sorgulanabilir biçimde tutarak ad-hoc analiz imkânı verir. Modern dağıtık sistemlerde hata kombinasyonları kombinatoryal olarak arttığı için tek başına monitoring yetersizdir.

DORA 2025 raporuna göre observability olgun ekiplerin pratikleri:

Üç sütun (logs, metrics, traces) entegre kullanım
OpenTelemetry standardına dayalı vendor-bağımsız enstrümantasyon
Service Level Objective (SLO) ve Error Budget yönetimi
Distributed tracing ile cross-service latency analizi
Continuous profiling ile sürekli performans gözlemi
Synthetic monitoring ile proaktif kullanıcı simülasyonu
Sampling stratejileriyle maliyet optimizasyonu
On-call ekipleri için runbook ve alert correlation

Üç Sütun: Logs, Metrics ve Traces

Observability’nin üç temel veri tipi her biri farklı soruları cevaplar. Logs “ne oldu” sorusuna kronolojik kayıt sunar; metrics “ne kadar / ne sıklıkla” sorusuna agregat zaman serisi verir; traces “tek bir kullanıcı/istek bütün sistemde nasıl ilerledi” sorusuna distributed call graph sunar.

Üç sütun karşılaştırması:

Sütun	Veri Tipi	Cardinality	Tipik Maliyet (1TB)	İdeal Soru
Logs	Structured / unstructured event	Yüksek	$1.500-3.500	Hangi error stack trace?
Metrics	Time series (counter, gauge, histogram)	Düşük-orta	$400-900	p99 latency, error rate?
Traces	Span-based distributed call	Orta	$800-2.200	İsteğin yolculuğu, bottleneck?
Events	Discrete business event	Orta	$300-700	Deploy, feature flag değişimi?
Profiles	Continuous CPU/memory profile	Yüksek	$1.200-2.800	Hangi fonksiyon CPU yiyor?

Observability üç sütun mimarisi: log, metrik ve trace toplama katmanlarının izometrik gösterimi

OpenTelemetry: Standardın Yükselişi

OpenTelemetry (OTel), CNCF altında geliştirilen ve telemetri verisinin (traces, metrics, logs) toplanması, üretilmesi ve dışa aktarılması için vendor-bağımsız bir standartdır. 2026 itibarıyla CNCF projeleri arasında Kubernetes’ten sonra ikinci en aktif proje konumunda. Datadog, New Relic, Honeycomb, Grafana ve Dynatrace gibi tüm büyük observability sağlayıcıları OTel input’unu native destekliyor.

OTel’in pratik avantajları: tek enstrümantasyon kütüphanesi ile çoklu backend desteği, vendor değişiminde sıfır kod değişikliği, otomatik instrumentation (Java, Python, Node.js, Go için), context propagation (cross-service trace ID taşıma) ve semantic convention (standart attribute isimlendirmesi). Honeycomb 2025 anketine göre OTel benimseyen kurumlar enstrümantasyon süresini %58 kısaltıyor ve vendor lock-in maliyetini %71 düşürüyor.

SLO ve Error Budget ile Observability Yönetimi

Olgun bir observability programı yalnızca dashboard izlemekle değil, Service Level Objective (SLO) ve Error Budget mekanizmasıyla yönetilir. SLO bir servisin kullanıcı deneyimi açısından belirlediği performans hedefidir (örn. “%99.9 oranında p95 latency < 300ms"). Error budget, bu hedefin tolerans payıdır; ay başında "%0.1 SLO ihlali" gibi bütçe tanımlanır ve kullanım izlenir.

SLI (Indicator) Tanımlama: Kullanıcıya değer üreten ölçülebilir sinyal (availability, latency, error rate).
SLO (Objective) Belirleme: SLI’nin kabul edilebilir eşiği (%99.95, p95 < 200ms gibi).
Error Budget Hesaplama: Aylık veya çeyrek bazında ihlal toleransı yüzdesi.
Burn Rate Alerting: Bütçenin normalden 4x-14x hızlı tükendiği durumlarda ekip alert’i.
Release Gate: Error budget %50’den fazla tükenmişse riskli deploylar duraklatılır.
Post-mortem Disiplini: SLO ihlali sonrası blameless post-mortem ile sistemik iyileştirme.
Aylık SLO Review: Trend analizi ve gerekirse SLO seviyesinin gerçekçi kalibrasyonu.

Maliyet, ROI ve Sınırlamalar

Observability altyapısının maliyeti hızla şişebilir; yüksek cardinality metric’ler ve agresif log düzeyi, ay sonu faturada %300-500 sürpriz yaratabilir. Datadog 2025 fiyatlama yapısında orta ölçek bir SaaS uygulamasının observability maliyeti aylık 8.000-25.000 dolar bandında oluşur. Maliyet kontrolü için tail-based sampling, log düzeyi filtreleme ve “high cardinality tag” sınırlandırması zorunludur.

ROI açısından observability yatırımı incident MTTR’da %75 azalma, son kullanıcı dönüşüm artışı ve mühendislik verimliliği üzerinden geri döner. New Relic Observability Forecast 2025 raporuna göre olgun observability uygulayan kurumlar yıllık 5-15 milyon TL gizli incident maliyetini önlüyor. Sınırlamalar: aşırı veri yutuncesi ekip dikkat dağıtabilir; alert fatigue ve sinyal-gürültü oranı düştüğünde gerçek incident’lar gözden kaçar; gözlemlenebilirlik veritabanı kendisi failure point haline gelebilir.

Sık Sorulan Sorular

Tek bir observability platformu mu çoklu vendor mu?

2026’da çoğu kurum hibrit yaklaşım benimsiyor: tek bir core platform (Datadog, New Relic, Grafana Cloud) ana stack olarak çalışırken niş ihtiyaçlar için profiling (Pyroscope) veya log analytics (Loki, Elastic) ayrı kullanılıyor. OpenTelemetry omurgası platform değişikliğini kolay yaptığı için tek vendor seçimi kritik değil. CNCF 2025 verisine göre kurumların %63’ü 2-4 observability aracı çalıştırıyor.

Sampling stratejisi nasıl seçilmeli?

Head-based sampling trace başlangıcında karar verir; basit ama “interesting” trace’leri kaçırabilir. Tail-based sampling trace tamamlandıktan sonra karar verir ve hata içeren veya yüksek latency’li trace’leri saklar. 2026 best practice: head-based %1-5 base sampling + tail-based “her error ve >500ms latency saklanır” kombinasyonu. Bu yaklaşım %85 maliyet düşüşü sağlarken kritik trace’leri kaybetmez.

Logs, metrics ve traces hepsi gerekli mi?

Üçü de farklı sorulara cevap verdiği için olgun observability’de hepsi gereklidir; ancak öncelik sırası vardır. Yeni başlayan ekipler metrics + alerting ile başlamalı (en düşük maliyetli, en hızlı değer), ardından structured logs eklemeli, son olarak distributed tracing kurmalıdır. Tracing dağıtık sistemler büyüdükçe (10+ servis) kritik hale gelir.

Continuous profiling gerekli mi?

Performance-kritik sistemler için 2026’da evet. Continuous profiling (eBPF veya pprof tabanlı) production’da sürekli CPU/memory profilini alır ve “hangi fonksiyon ne kadar kaynak tüketti”yi gösterir. Pyroscope, Grafana Phlare ve Datadog Profiler popüler seçeneklerdir. Yüksek trafikli servislerde dakika bazında %10 CPU optimization fırsatı yakalamak yıllık altı haneli bulut maliyeti tasarrufu üretir.

Sonuç

Observability 2026’da dağıtık sistemlerin güvenli işletilmesinin ön koşulu; üç sütun yaklaşımı (logs, metrics, traces) artık asgari standarttır. OpenTelemetry vendor-bağımsızlık ve enstrümantasyon ekonomisi sağlar; tek tek vendor değişimini ucuz hale getirir. SLO ve error budget olmadan observability dashboard izlemeden öteye geçmez; bu disiplinler mühendislik kültürünün parçası olmalıdır. Maliyet kontrolü sampling, cardinality yönetimi ve disiplinli alerting ile sürdürülmedikçe observability faturası fayda üreten yatırımdan büyük olabilir.

Ömer ÖNAL

Yazılım Mimarı | Yapay Zeka LLC. Ölçeklenebilir SaaS, .NET Core altyapıları ve Otonom AI süreçleri inşa ediyorum. Kod değil, sistem tasarlarım.

Our Gallery