IBM 2025 Data Quality Impact raporuna göre kötü veri kalitesi yıllık küresel $12.9 trilyon zarara mal oluyor; ortalama kuruluş yıllık $15 milyon doğrudan kayıp yaşıyor. Monte Carlo 2025 Data Reliability raporunda data observability platformu kullanan ekiplerde data incident MTTR 84 saatten 12 saate düşüyor. Konuyla ilişkili olarak Data Quality 2026: Great Expectations vs Soda Core vs Monte Carlo rehberimiz detaylı incelemeyi içerir.

Data Quality 2026: “Observability” Çağı

Data quality 2022 öncesinde manuel SQL test’leri ve nightly batch validation’a indirgenmişti. 2024-2025’te ortaya çıkan “data observability” paradigması bu yaklaşımı dönüştürdü: 5 pillar (freshness, volume, schema, distribution, lineage) üzerinde sürekli monitoring + ML-based anomaly detection + alert. Gartner 2025 Data Quality Magic Quadrant’ında Great Expectations, Soda, Monte Carlo, Anomalo ve Bigeye liderler arasında yer aldı. Forrester 2025 verilerine göre data observability platformu kullanan kurumlarda veri-kaynaklı business decision incident sayısı %71 azalıyor.

Müşterilerimde en sık gördüğüm hata: 200+ test yazılıyor, kimse alarmlara bakmıyor, 6 ay sonra hepsi mute. Doğru pratik “critical tier” tablolarına odaklanmak; 5-10 kritik test + net SLA + on-call alert. Test sayısı değil, alert quality kritik.

5 Pillar Data Observability Çerçevesi

Modern data quality çerçevesi 5 pillar üzerine kurulu: freshness (verinin ne kadar güncel olduğu), volume (beklenen satır sayısının dışına çıkıp çıkmadığı), schema (kolon yapısının değişip değişmediği), distribution (değer dağılımının değişip değişmediği), lineage (verinin kaynak ve etki haritası). Her pillar farklı arıza tipini yakalıyor.

Pillar Yakaladığı Sorun Algılama Yöntemi Tipik Eşik
Freshness Geç gelen veri Last-update timestamp + SLA SLA + %15 sapma
Volume Veri kaybı/şişme Row count + std dev ±3 sigma
Schema Kolon değişimi Schema diff Otomatik tespit
Distribution Değer drift KS test, PSI PSI > 0.25
Lineage Etki analizi Graph traversal Manuel + auto
Data Quality 2026: Great Expectations, Soda ve Monte Carlo Karşılaştırma — Görsel 1
Data Quality 2026: Great Expectations, Soda ve Monte Carlo Karşılaştırma — Görsel 1

Great Expectations: Açık Kaynak Kontrolü

Great Expectations (GE) Python-native, açık kaynak, deklaratif data quality framework. Expectation Suite olarak adlandırılan kural setleri tanımlanıyor; her expectation bir constraint. GE 2025 sonunda 1.0+ ile stable API’ye geçti; 250+ built-in expectation, custom expectation yazma desteği güçlü. GitHub’da 9.500+ star, 1.000+ aktif contributor.

  • Açık kaynak, on-prem ve self-hosted deployment için doğal seçim
  • dbt ve Airflow ile native entegrasyon
  • 250+ built-in expectation + custom expectation API
  • Data Docs (HTML report) auto-generated
  • Anomaly detection için ek ML katmanı yok; statik kural-tabanlı

dbt test pattern’leri için dbt test rehberimize bakabilirsiniz.

Soda Core ve Soda Cloud: SQL-First DQ

Soda Core açık kaynak CLI tool + Python library; SQL-first approach ile data quality checks yazılıyor. SodaCL (Soda Check Language) deklaratif YAML format’ı kullanıyor. Soda Cloud ise managed UI + alert + collaboration platform. Soda 2025 raporuna göre platform 1.200+ kurumsal müşteriye ulaştı, EU veri yönetişim ihtiyacı için yüksek tercih ediliyor. Soda resmi sitesinde detaylı dokümantasyon yayınlanıyor.

Data Quality 2026: Great Expectations, Soda ve Monte Carlo Karşılaştırma — Görsel 2
Data Quality 2026: Great Expectations, Soda ve Monte Carlo Karşılaştırma — Görsel 2

Monte Carlo: ML-Powered Data Observability

Monte Carlo data observability segment’in tartışmasız lideri; ML-based anomaly detection + auto-discovered lineage + slack/teams integration ile öne çıkıyor. Manuel kural yazma minimal; sistem mevcut veri pattern’ini öğreniyor ve sapmaları kendi tespit ediyor. Bu yaklaşım coverage geniş ama false positive rate’i statik kurallara göre yüksek. Monte Carlo 2025 verilerine göre platform kullanan ekiplerde data incident MTTR 84 saatten 12 saate, data downtime %63 azalıyor.

Boyut Great Expectations Soda Monte Carlo
Model Açık kaynak + cloud OSS + SaaS SaaS only
ML anomaly Yok (statik kural) Sınırlı Native + güçlü
Lineage Sınırlı Cloud var Otomatik discovery
Yıllık başlangıç maliyet $0 (self-host) $30K-100K $80K-250K
Best fit Custom rule + on-prem SQL-first ekip Geniş kapsam + ML

Alert Tasarımı ve Alarm Fatique Önleme

Data quality programlarının %80 başarısızlık sebebi alarm fatique. Çok fazla alarm gönderildiğinde ekip alarmları umursamayı bırakıyor, kritik alarm da gözden kaçıyor. Doğru pattern: severity tier (P0/P1/P2), routing matrix (P0 → on-call PagerDuty, P1 → Slack, P2 → daily digest), suppression rules (aynı alarm tekrarlanırsa 1 saat bekleyen), alert SLA (P0 30 dk, P1 4 saat, P2 24 saat). model drift detection rehberimizde alert pattern’leri detaylı.

Data Quality 2026: Great Expectations, Soda ve Monte Carlo Karşılaştırma — Görsel 3
Data Quality 2026: Great Expectations, Soda ve Monte Carlo Karşılaştırma — Görsel 3

Kurumsal Data Quality Dönüşümünde Karşılaşılan Tipik Sorunlar

Danışmanlık projelerinde gözlemlenen tipik darboğazlar:

  • 200+ test yazılıyor, kimse alarmlara bakmıyor; 6 ay sonra hepsi mute
  • Severity tier tanımlanmıyor; her alarm kritik gibi davranılıyor, gerçek kritik kaçıyor
  • Distribution drift (PSI) hiç ölçülmüyor; sadece null/unique gibi statik kontroller var
  • Lineage manuel; impact analysis yapılamıyor, breaking change’in nereye etki ettiği bilinmiyor
  • Critical tier ile non-critical tier ayrımı yapılmıyor; tüm tablolara aynı titizlik uygulanıyor
  • On-call rotation yok; alarm geliyor ama kimse 4 saat boyunca cevap vermiyor

Sonuç

Data quality 2026’da “expectation yazalım” değil, observability programıdır. Doğru platform seçimi ekibin profiline bağlı: açık kaynak + on-prem isteyenler için Great Expectations, SQL-first + EU governance için Soda, geniş kapsamlı ML-based observability isteyenler için Monte Carlo. Karar öncesi mutlaka critical tier tablo sayınızı netleştirin, severity tier ve on-call SLA tasarlayın, lineage requirement’larınızı çıkarın. Bu üç hazırlık olmadan platform seçimi 6 ay sonra “kimse kullanmıyor” senaryosuna düşüyor.

Sıkça Sorulan Sorular

Great Expectations production’da ne kadar olgun?

1.0+ release ile API stable; 9.500+ GitHub star, 1.200+ kurumsal kullanım. Daimler, Vimeo, ING gibi büyük kurumlar production’da Great Expectations kullanıyor. Self-host gerektirdiği için ops yükü var; managed alternatif arıyorsanız Monte Carlo veya Soda Cloud.

Monte Carlo’nun ML-anomaly detection’ı false positive üretiyor mu?

Evet, bu segment’in tipik sorunu. Monte Carlo 2025 verisine göre platform deploy edildikten sonraki ilk 30 günde false positive rate %15-25; tuning ve baseline öğrendikçe %5-10’a düşüyor. İlk ay aktif tuning gerekiyor.

Soda Core ile Cloud arasında ne kadar fark var?

Soda Core sadece check execution; CLI ile çalıştırıyor, sonuçları log/dosya olarak veriyor. Soda Cloud UI + alert + collaboration + lineage ekliyor. Core tek başına yeterli olabilir ama 5+ kişilik ekipler için Cloud collaboration kritik.

Data quality için minimum kaç test yazmalı?

Tabloya değil, critical tier’a göre düşün. Critical tier (executive dashboard, fraud detection): tablo başına 5-10 test. Non-critical: tablo başına 2-3 test (null, unique, freshness). Total test sayısı 200’ü geçince alarm fatique riski yüksek.

Distribution drift hangi metric ile ölçülmeli?

Kategorik veriler için PSI (Population Stability Index); PSI > 0.25 anlamlı drift. Sürekli sayısal veriler için KS test (p-value < 0.05 anlamlı). Her ikisi de production'da yaygın; Monte Carlo ve Anomalo native destekliyor.

Ömer ÖNAL

Yazılım Mimarı | Yapay Zeka LLC. Ölçeklenebilir SaaS, .NET Core altyapıları ve Otonom AI süreçleri inşa ediyorum. Kod değil, sistem tasarlarım.

Yorum (1)

  1. Ömer ÖNAL
    Mayıs 23, 2026

    Data quality ‘expectation yazalım’ demek değil. Müşterilerimde gördüğüm gerçek: 200+ expectation yazılıyor, kimse alarmlara bakmıyor, 6 ay sonra hepsi mute. Doğru pratik: ‘critical tier’ tabloları için 5-7 kritik test + dashboard’da net SLA + on-call alert. Great Expectations gibi açık kaynak kontrolü verir, Monte Carlo gibi SaaS ise lineage + ML anomaly detection getirir. Doğru ekip ihtiyacına bağlı seçim. — Ömer ÖNAL

Yorum Yap

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir