IBM 2025 Data Quality Impact raporuna göre kötü veri kalitesi yıllık küresel $12.9 trilyon zarara mal oluyor; ortalama kuruluş yıllık $15 milyon doğrudan kayıp yaşıyor. Monte Carlo 2025 Data Reliability raporunda data observability platformu kullanan ekiplerde data incident MTTR 84 saatten 12 saate düşüyor. Konuyla ilişkili olarak Data Quality 2026: Great Expectations vs Soda Core vs Monte Carlo rehberimiz detaylı incelemeyi içerir.
Data Quality 2026: “Observability” Çağı
Data quality 2022 öncesinde manuel SQL test’leri ve nightly batch validation’a indirgenmişti. 2024-2025’te ortaya çıkan “data observability” paradigması bu yaklaşımı dönüştürdü: 5 pillar (freshness, volume, schema, distribution, lineage) üzerinde sürekli monitoring + ML-based anomaly detection + alert. Gartner 2025 Data Quality Magic Quadrant’ında Great Expectations, Soda, Monte Carlo, Anomalo ve Bigeye liderler arasında yer aldı. Forrester 2025 verilerine göre data observability platformu kullanan kurumlarda veri-kaynaklı business decision incident sayısı %71 azalıyor.
Müşterilerimde en sık gördüğüm hata: 200+ test yazılıyor, kimse alarmlara bakmıyor, 6 ay sonra hepsi mute. Doğru pratik “critical tier” tablolarına odaklanmak; 5-10 kritik test + net SLA + on-call alert. Test sayısı değil, alert quality kritik.
5 Pillar Data Observability Çerçevesi
Modern data quality çerçevesi 5 pillar üzerine kurulu: freshness (verinin ne kadar güncel olduğu), volume (beklenen satır sayısının dışına çıkıp çıkmadığı), schema (kolon yapısının değişip değişmediği), distribution (değer dağılımının değişip değişmediği), lineage (verinin kaynak ve etki haritası). Her pillar farklı arıza tipini yakalıyor.
| Pillar | Yakaladığı Sorun | Algılama Yöntemi | Tipik Eşik |
|---|---|---|---|
| Freshness | Geç gelen veri | Last-update timestamp + SLA | SLA + %15 sapma |
| Volume | Veri kaybı/şişme | Row count + std dev | ±3 sigma |
| Schema | Kolon değişimi | Schema diff | Otomatik tespit |
| Distribution | Değer drift | KS test, PSI | PSI > 0.25 |
| Lineage | Etki analizi | Graph traversal | Manuel + auto |

Great Expectations: Açık Kaynak Kontrolü
Great Expectations (GE) Python-native, açık kaynak, deklaratif data quality framework. Expectation Suite olarak adlandırılan kural setleri tanımlanıyor; her expectation bir constraint. GE 2025 sonunda 1.0+ ile stable API’ye geçti; 250+ built-in expectation, custom expectation yazma desteği güçlü. GitHub’da 9.500+ star, 1.000+ aktif contributor.
- Açık kaynak, on-prem ve self-hosted deployment için doğal seçim
- dbt ve Airflow ile native entegrasyon
- 250+ built-in expectation + custom expectation API
- Data Docs (HTML report) auto-generated
- Anomaly detection için ek ML katmanı yok; statik kural-tabanlı
dbt test pattern’leri için dbt test rehberimize bakabilirsiniz.
Soda Core ve Soda Cloud: SQL-First DQ
Soda Core açık kaynak CLI tool + Python library; SQL-first approach ile data quality checks yazılıyor. SodaCL (Soda Check Language) deklaratif YAML format’ı kullanıyor. Soda Cloud ise managed UI + alert + collaboration platform. Soda 2025 raporuna göre platform 1.200+ kurumsal müşteriye ulaştı, EU veri yönetişim ihtiyacı için yüksek tercih ediliyor. Soda resmi sitesinde detaylı dokümantasyon yayınlanıyor.

Monte Carlo: ML-Powered Data Observability
Monte Carlo data observability segment’in tartışmasız lideri; ML-based anomaly detection + auto-discovered lineage + slack/teams integration ile öne çıkıyor. Manuel kural yazma minimal; sistem mevcut veri pattern’ini öğreniyor ve sapmaları kendi tespit ediyor. Bu yaklaşım coverage geniş ama false positive rate’i statik kurallara göre yüksek. Monte Carlo 2025 verilerine göre platform kullanan ekiplerde data incident MTTR 84 saatten 12 saate, data downtime %63 azalıyor.
| Boyut | Great Expectations | Soda | Monte Carlo |
|---|---|---|---|
| Model | Açık kaynak + cloud | OSS + SaaS | SaaS only |
| ML anomaly | Yok (statik kural) | Sınırlı | Native + güçlü |
| Lineage | Sınırlı | Cloud var | Otomatik discovery |
| Yıllık başlangıç maliyet | $0 (self-host) | $30K-100K | $80K-250K |
| Best fit | Custom rule + on-prem | SQL-first ekip | Geniş kapsam + ML |
Alert Tasarımı ve Alarm Fatique Önleme
Data quality programlarının %80 başarısızlık sebebi alarm fatique. Çok fazla alarm gönderildiğinde ekip alarmları umursamayı bırakıyor, kritik alarm da gözden kaçıyor. Doğru pattern: severity tier (P0/P1/P2), routing matrix (P0 → on-call PagerDuty, P1 → Slack, P2 → daily digest), suppression rules (aynı alarm tekrarlanırsa 1 saat bekleyen), alert SLA (P0 30 dk, P1 4 saat, P2 24 saat). model drift detection rehberimizde alert pattern’leri detaylı.

Kurumsal Data Quality Dönüşümünde Karşılaşılan Tipik Sorunlar
Danışmanlık projelerinde gözlemlenen tipik darboğazlar:
- 200+ test yazılıyor, kimse alarmlara bakmıyor; 6 ay sonra hepsi mute
- Severity tier tanımlanmıyor; her alarm kritik gibi davranılıyor, gerçek kritik kaçıyor
- Distribution drift (PSI) hiç ölçülmüyor; sadece null/unique gibi statik kontroller var
- Lineage manuel; impact analysis yapılamıyor, breaking change’in nereye etki ettiği bilinmiyor
- Critical tier ile non-critical tier ayrımı yapılmıyor; tüm tablolara aynı titizlik uygulanıyor
- On-call rotation yok; alarm geliyor ama kimse 4 saat boyunca cevap vermiyor
Sonuç
Data quality 2026’da “expectation yazalım” değil, observability programıdır. Doğru platform seçimi ekibin profiline bağlı: açık kaynak + on-prem isteyenler için Great Expectations, SQL-first + EU governance için Soda, geniş kapsamlı ML-based observability isteyenler için Monte Carlo. Karar öncesi mutlaka critical tier tablo sayınızı netleştirin, severity tier ve on-call SLA tasarlayın, lineage requirement’larınızı çıkarın. Bu üç hazırlık olmadan platform seçimi 6 ay sonra “kimse kullanmıyor” senaryosuna düşüyor.
Sıkça Sorulan Sorular
Great Expectations production’da ne kadar olgun?
1.0+ release ile API stable; 9.500+ GitHub star, 1.200+ kurumsal kullanım. Daimler, Vimeo, ING gibi büyük kurumlar production’da Great Expectations kullanıyor. Self-host gerektirdiği için ops yükü var; managed alternatif arıyorsanız Monte Carlo veya Soda Cloud.
Monte Carlo’nun ML-anomaly detection’ı false positive üretiyor mu?
Evet, bu segment’in tipik sorunu. Monte Carlo 2025 verisine göre platform deploy edildikten sonraki ilk 30 günde false positive rate %15-25; tuning ve baseline öğrendikçe %5-10’a düşüyor. İlk ay aktif tuning gerekiyor.
Soda Core ile Cloud arasında ne kadar fark var?
Soda Core sadece check execution; CLI ile çalıştırıyor, sonuçları log/dosya olarak veriyor. Soda Cloud UI + alert + collaboration + lineage ekliyor. Core tek başına yeterli olabilir ama 5+ kişilik ekipler için Cloud collaboration kritik.
Data quality için minimum kaç test yazmalı?
Tabloya değil, critical tier’a göre düşün. Critical tier (executive dashboard, fraud detection): tablo başına 5-10 test. Non-critical: tablo başına 2-3 test (null, unique, freshness). Total test sayısı 200’ü geçince alarm fatique riski yüksek.
Distribution drift hangi metric ile ölçülmeli?
Kategorik veriler için PSI (Population Stability Index); PSI > 0.25 anlamlı drift. Sürekli sayısal veriler için KS test (p-value < 0.05 anlamlı). Her ikisi de production'da yaygın; Monte Carlo ve Anomalo native destekliyor.










Ömer ÖNAL
Mayıs 23, 2026Data quality ‘expectation yazalım’ demek değil. Müşterilerimde gördüğüm gerçek: 200+ expectation yazılıyor, kimse alarmlara bakmıyor, 6 ay sonra hepsi mute. Doğru pratik: ‘critical tier’ tabloları için 5-7 kritik test + dashboard’da net SLA + on-call alert. Great Expectations gibi açık kaynak kontrolü verir, Monte Carlo gibi SaaS ise lineage + ML anomaly detection getirir. Doğru ekip ihtiyacına bağlı seçim. — Ömer ÖNAL