Gartner 2025 ML Monitoring raporuna göre proaktif drift detection yapmayan kurumlarda ML modelleri ortalama 90 gün içinde anlamlı performans kaybı yaşıyor; ancak ekiplerin %58’i bunu fark etmiyor. Arize 2025 ML Observability raporunda monitoring olmayan modellerin doğruluğu 6 ayda ortalama %14 düşüyor.
Model Drift Detection 2026: ML Operasyonun Erken Uyarı Sistemi
Model drift, production’da çalışan ML modelinin tahmin performansının zaman içinde düşmesi. Üç tipi var: data drift (input distribution değişimi), concept drift (input-output ilişkisinin değişimi), label drift (gerçek etiket dağılımının değişimi). Forrester 2025 ML Observability Wave değerlendirmesinde Arize, Fiddler ve WhyLabs hızlı yükselen platform olarak konumlandı. Pazar IDC tahminine göre 2026’da $1.8 milyar büyüklüğe ulaşacak. Konuyla ilişkili olarak Mixture of Experts MoE 2026: Mixtral DBRX Grok Production Training rehberimiz detaylı incelemeyi içerir.
Müşterilerimin %62’sinde gördüğüm vaka: fraud modeli 4 ay sessizce bozuldu, $3M kayıp sonrası fark edildi. Doğru pattern: deploy günü baseline distribution snapshot + her hafta KS test + PSI > 0.25 alarm. Bu üç adım kurulmadan model production’a çıkmamalı.
Drift Türleri ve İstatistiksel Test Seçimi
Drift tipine göre farklı istatistiksel testler kullanılıyor. Kategorik veriler için PSI (Population Stability Index) endüstri standardı; PSI 0-0.1 stable, 0.1-0.25 minor drift, 0.25+ significant drift. Sürekli sayısal veriler için KS test (Kolmogorov-Smirnov); p-value < 0.05 anlamlı drift. KL divergence ve Jensen-Shannon distance da kullanılıyor ancak interpretation daha zor.
| Drift Tipi | Önerilen Test | Eşik | Kullanım Senaryosu |
|---|---|---|---|
| Data drift (kategorik) | PSI | 0.25 | Feature kategorisi |
| Data drift (sürekli) | KS test | p < 0.05 | Numerik feature |
| Concept drift | Predictive perf | Acc düşüş > %3 | Input-output ilişki |
| Label drift | Chi-square | p < 0.05 | Hedef dağılım |
| Multivariate | JS divergence | > 0.1 | Feature kombinasyon |

Arize: ML-Native Observability Lideri
Arize ML observability segment’in tartışmasız lideri; computer vision, NLP, tabular ML tüm modaliteleri destekliyor. Otomatik baseline öğrenme + ML-based anomaly detection + explainability + bias detection birlikte. 2025’te Arize Phoenix open-source LLM observability eklendi, RAG ve generative AI use case’lere genişledi. Arize resmi sitesinde detaylı dokümantasyon yayınlanıyor. Arize 2025 verilerine göre platform 800+ kurumsal müşteriye ulaştı.
- Geniş model coverage: tabular, NLP, CV, ranking, LLM
- Explainability: SHAP + LIME + feature attribution native
- Bias detection: demographic parity, equalized odds metric’leri
- Phoenix open-source LLM tracing component
- Yıllık başlangıç maliyet $80K-300K aralığında
Production ML için feature store ile entegrasyon için feature store rehberimize bakabilirsiniz.
Fiddler: Explainability Odaklı Platform
Fiddler explainability ve responsible AI alanında derinleşti; finans, sağlık ve regülasyon sektörlerinde güçlü. Otomatik root cause analysis + bias monitoring + LLM hallucination detection ile öne çıkıyor. Banking ve insurance müşterileri ağırlıklı; AI Act ve Basel benzeri regülasyonlara uyumluluk vurgusu yüksek. Fiddler 2025 raporuna göre platform AI auditability metrik standardize etti.

WhyLabs: Lightweight ve Self-Hosted Alternatif
WhyLabs whylogs açık kaynak profiling library üzerine kurulu; data profile’larını compact format’ta saklıyor (~1KB/profile), production’da minimal overhead. Self-hosted veya WhyLabs Platform SaaS olarak kullanılıyor. On-prem deployment + air-gapped ortamlar için en iyi seçim. WhyLabs 2025 verilerine göre platform on-prem deployment’larda Arize’a göre %42 daha düşük TCO sunuyor.
| Boyut | Arize | Fiddler | WhyLabs |
|---|---|---|---|
| Deployment | SaaS only | SaaS + on-prem | OSS + SaaS + on-prem |
| Sweet spot | Geniş ML stack | Regülasyon + bias | On-prem + lightweight |
| LLM observability | Phoenix (OSS) | Native | Native (whylogs) |
| Explainability | SHAP + LIME | Native + counterfactual | Sınırlı |
| Yıllık başlangıç maliyet | $80K-300K | $100K-400K | $30K-150K |
Retraining Trigger Pattern ve A/B Test Pipeline
Drift tespit edildiğinde otomatik retraining genellikle riski. Pattern: drift detect, alert + investigation, candidate model train, shadow deployment 24-72h, A/B test küçük traffic, full rollout veya rollback. Bu pipeline tamamen otomatik değil; bazı gate’lerde manual approval gerekiyor. McKinsey 2025 verisine göre tam otomatik retraining yapan ekiplerin %38’i en az bir kez “drift olmayan model” deploy etti çünkü test data quality issue’ydu.

Kurumsal ML Drift Monitoring Dönüşümünde Karşılaşılan Tipik Sorunlar
Danışmanlık projelerinde gözlemlenen tipik darboğazlar:
- Production’a alınan model için baseline distribution snapshot kaydedilmiyor
- Sadece input drift takip ediliyor; concept drift (prediction performance düşüşü) gözden kaçıyor
- Drift detect edildiğinde root cause investigation yapılmadan otomatik retraining tetikleniyor
- Alert eşikleri çok düşük: her küçük drift PagerDuty’ye gidiyor, alarm fatique
- Ground truth label gecikmeli geliyor (label lag); concept drift için bu hesaba katılmıyor
- LLM use case için drift detection eski tabular yöntemlerle yapılıyor, embedding drift gözden kaçıyor
Sonuç
Model drift detection 2026’da production ML için zorunlu; 90 gün kuralı (kontrolsüz modeller 3 ay içinde bozulur) artık endüstri standardı. Doğru platform seçimi sektör ve deployment kısıtına bağlı: geniş ML stack + LLM observability için Arize, regülasyon + bias kritik için Fiddler, on-prem + lightweight için WhyLabs. Karar öncesi mutlaka model sayısı + use case modaliteleri (tabular/CV/NLP/LLM) + deployment kısıtları (SaaS/on-prem) + budget’ı netleştirin. Drift detection sadece “monitoring” değil; baseline snapshot + alarm tasarımı + retraining pipeline birlikte tasarlanmalı.
Sıkça Sorulan Sorular
Model drift için en pratik ilk metrik ne?
PSI (Population Stability Index). Hem kategorik hem sürekli feature için uygulanabiliyor (binning sonrası), endüstri standardı eşikler tanımlı (>0.25 anlamlı), explanation’ı kolay. KS test ve KL divergence ikincil metric olarak eklenebilir.
Drift detect olduğunda otomatik retraining riski nedir?
Test data quality issue’su olduğunda otomatik retraining yanlış model üretebiliyor. McKinsey 2025 verisine göre tam-otomatik pipeline’lı ekiplerin %38’i bu hatayı en az bir kez yaptı. Önerilen: drift detect → manual investigation → onay → retrain.
LLM use case için drift detection nasıl yapılır?
Üç katmanlı: input prompt distribution drift (embedding space üzerinde), output quality drift (hallucination rate, helpfulness score), cost/latency drift. Arize Phoenix, LangSmith ve WhyLabs whylogs LLM tracing destekliyor.
Concept drift’i nasıl tespit ederim eğer label lag varsa?
İki yaklaşım: proxy metric (örn. user click-through rate canary) ile yaklaşık tahmin, delayed ground truth ile retrospective evaluation. Tam concept drift detection için label lag süresi (örn. 7 gün) kabul edilmeli ve raporlama bu süreye uyumlu olmalı.
Drift dashboard’unu kim takip etmeli?
İdeal: model owner (data scientist) + on-call ML engineer. Alarm tier’a göre routing: P0 (production model accuracy düşüşü) PagerDuty on-call’a, P1 (significant drift) Slack channel’a, P2 (minor drift) weekly digest.










Ömer ÖNAL
Mayıs 23, 2026ML monitoring konusunda ekiplerin ‘önce model deploy et, sonra düşünürüz’ refleksi en pahalı yaklaşım. Müşterilerimde gördüğüm gerçek vaka: fraud modeli 4 ay sessizce bozuldu, $3M kayıp sonrası fark edildi. Doğru pratik: deploy günü baseline distribution snapshot + her hafta KS test + PSI > 0.25 alarm. Arize geniş özellikli, Fiddler explainability güçlü, WhyLabs lightweight self-hosted seçenek. — Ömer ÖNAL