Model Drift 2026: Arize Fiddler WhyLabs Üretim Monitoring

Q: LLM use case için drift detection nasıl yapılır?

Üç katmanlı: input prompt distribution drift, output quality drift, cost/latency drift.

Q: Concept drift'i nasıl tespit ederim eğer label lag varsa?

İki yaklaşım: proxy metric ile yaklaşık tahmin, delayed ground truth ile retrospective evaluation.

Q: Drift dashboard'unu kim takip etmeli?

İdeal: model owner ve on-call ML engineer. Alarm tier'a göre routing yapılmalı.

Haziran 23, 2026Ömer ÖNAL1 Yorum

Gartner 2025 ML Monitoring raporuna göre proaktif drift detection yapmayan kurumlarda ML modelleri ortalama 90 gün içinde anlamlı performans kaybı yaşıyor; ancak ekiplerin %58’i bunu fark etmiyor. Arize 2025 ML Observability raporunda monitoring olmayan modellerin doğruluğu 6 ayda ortalama %14 düşüyor.

📖 6 dakikalık okuma

İçindekiler

Model Drift Detection 2026: ML Operasyonun Erken Uyarı Sistemi
Drift Türleri ve İstatistiksel Test Seçimi
Arize: ML-Native Observability Lideri
Fiddler: Explainability Odaklı Platform
WhyLabs: Lightweight ve Self-Hosted Alternatif
Retraining Trigger Pattern ve A/B Test Pipeline
Kurumsal ML Drift Monitoring Dönüşümünde Karşılaşılan Tipik Sorunlar
Sonuç
Sıkça Sorulan Sorular

Model Drift Detection 2026: ML Operasyonun Erken Uyarı Sistemi

Model drift, production’da çalışan ML modelinin tahmin performansının zaman içinde düşmesi. Üç tipi var: data drift (input distribution değişimi), concept drift (input-output ilişkisinin değişimi), label drift (gerçek etiket dağılımının değişimi). Forrester 2025 ML Observability Wave değerlendirmesinde Arize, Fiddler ve WhyLabs hızlı yükselen platform olarak konumlandı. Pazar IDC tahminine göre 2026’da $1.8 milyar büyüklüğe ulaşacak. Konuyla ilişkili olarak Mixture of Experts MoE 2026: Mixtral DBRX Grok Production Training rehberimiz detaylı incelemeyi içerir.

Müşterilerimin %62’sinde gördüğüm vaka: fraud modeli 4 ay sessizce bozuldu, $3M kayıp sonrası fark edildi. Doğru pattern: deploy günü baseline distribution snapshot + her hafta KS test + PSI > 0.25 alarm. Bu üç adım kurulmadan model production’a çıkmamalı.

Drift Türleri ve İstatistiksel Test Seçimi

Drift tipine göre farklı istatistiksel testler kullanılıyor. Kategorik veriler için PSI (Population Stability Index) endüstri standardı; PSI 0-0.1 stable, 0.1-0.25 minor drift, 0.25+ significant drift. Sürekli sayısal veriler için KS test (Kolmogorov-Smirnov); p-value < 0.05 anlamlı drift. KL divergence ve Jensen-Shannon distance da kullanılıyor ancak interpretation daha zor.

Drift Tipi	Önerilen Test	Eşik	Kullanım Senaryosu
Data drift (kategorik)	PSI	0.25	Feature kategorisi
Data drift (sürekli)	KS test	p < 0.05	Numerik feature
Concept drift	Predictive perf	Acc düşüş > %3	Input-output ilişki
Label drift	Chi-square	p < 0.05	Hedef dağılım
Multivariate	JS divergence	> 0.1	Feature kombinasyon

Model Drift Detection 2026: Arize, Fiddler ve WhyLabs Production Monitoring — Görsel 1

Arize: ML-Native Observability Lideri

Arize ML observability segment’in tartışmasız lideri; computer vision, NLP, tabular ML tüm modaliteleri destekliyor. Otomatik baseline öğrenme + ML-based anomaly detection + explainability + bias detection birlikte. 2025’te Arize Phoenix open-source LLM observability eklendi, RAG ve generative AI use case’lere genişledi. Arize resmi sitesinde detaylı dokümantasyon yayınlanıyor. Arize 2025 verilerine göre platform 800+ kurumsal müşteriye ulaştı.

Geniş model coverage: tabular, NLP, CV, ranking, LLM
Explainability: SHAP + LIME + feature attribution native
Bias detection: demographic parity, equalized odds metric’leri
Phoenix open-source LLM tracing component
Yıllık başlangıç maliyet $80K-300K aralığında

Production ML için feature store ile entegrasyon için feature store rehberimize bakabilirsiniz.

Fiddler: Explainability Odaklı Platform

Fiddler explainability ve responsible AI alanında derinleşti; finans, sağlık ve regülasyon sektörlerinde güçlü. Otomatik root cause analysis + bias monitoring + LLM hallucination detection ile öne çıkıyor. Banking ve insurance müşterileri ağırlıklı; AI Act ve Basel benzeri regülasyonlara uyumluluk vurgusu yüksek. Fiddler 2025 raporuna göre platform AI auditability metrik standardize etti.

Model Drift Detection 2026: Arize, Fiddler ve WhyLabs Production Monitoring — Görsel 2

WhyLabs: Lightweight ve Self-Hosted Alternatif

WhyLabs whylogs açık kaynak profiling library üzerine kurulu; data profile’larını compact format’ta saklıyor (~1KB/profile), production’da minimal overhead. Self-hosted veya WhyLabs Platform SaaS olarak kullanılıyor. On-prem deployment + air-gapped ortamlar için en iyi seçim. WhyLabs 2025 verilerine göre platform on-prem deployment’larda Arize’a göre %42 daha düşük TCO sunuyor.

Boyut	Arize	Fiddler	WhyLabs
Deployment	SaaS only	SaaS + on-prem	OSS + SaaS + on-prem
Sweet spot	Geniş ML stack	Regülasyon + bias	On-prem + lightweight
LLM observability	Phoenix (OSS)	Native	Native (whylogs)
Explainability	SHAP + LIME	Native + counterfactual	Sınırlı
Yıllık başlangıç maliyet	$80K-300K	$100K-400K	$30K-150K

Retraining Trigger Pattern ve A/B Test Pipeline

Drift tespit edildiğinde otomatik retraining genellikle riski. Pattern: drift detect, alert + investigation, candidate model train, shadow deployment 24-72h, A/B test küçük traffic, full rollout veya rollback. Bu pipeline tamamen otomatik değil; bazı gate’lerde manual approval gerekiyor. McKinsey 2025 verisine göre tam otomatik retraining yapan ekiplerin %38’i en az bir kez “drift olmayan model” deploy etti çünkü test data quality issue’ydu.

Model Drift Detection 2026: Arize, Fiddler ve WhyLabs Production Monitoring — Görsel 3

Kurumsal ML Drift Monitoring Dönüşümünde Karşılaşılan Tipik Sorunlar

Danışmanlık projelerinde gözlemlenen tipik darboğazlar:

Production’a alınan model için baseline distribution snapshot kaydedilmiyor
Sadece input drift takip ediliyor; concept drift (prediction performance düşüşü) gözden kaçıyor
Drift detect edildiğinde root cause investigation yapılmadan otomatik retraining tetikleniyor
Alert eşikleri çok düşük: her küçük drift PagerDuty’ye gidiyor, alarm fatique
Ground truth label gecikmeli geliyor (label lag); concept drift için bu hesaba katılmıyor
LLM use case için drift detection eski tabular yöntemlerle yapılıyor, embedding drift gözden kaçıyor

Sonuç

Model drift detection 2026’da production ML için zorunlu; 90 gün kuralı (kontrolsüz modeller 3 ay içinde bozulur) artık endüstri standardı. Doğru platform seçimi sektör ve deployment kısıtına bağlı: geniş ML stack + LLM observability için Arize, regülasyon + bias kritik için Fiddler, on-prem + lightweight için WhyLabs. Karar öncesi mutlaka model sayısı + use case modaliteleri (tabular/CV/NLP/LLM) + deployment kısıtları (SaaS/on-prem) + budget’ı netleştirin. Drift detection sadece “monitoring” değil; baseline snapshot + alarm tasarımı + retraining pipeline birlikte tasarlanmalı.

Sıkça Sorulan Sorular

Model drift için en pratik ilk metrik ne?

PSI (Population Stability Index). Hem kategorik hem sürekli feature için uygulanabiliyor (binning sonrası), endüstri standardı eşikler tanımlı (>0.25 anlamlı), explanation’ı kolay. KS test ve KL divergence ikincil metric olarak eklenebilir.

Drift detect olduğunda otomatik retraining riski nedir?

Test data quality issue’su olduğunda otomatik retraining yanlış model üretebiliyor. McKinsey 2025 verisine göre tam-otomatik pipeline’lı ekiplerin %38’i bu hatayı en az bir kez yaptı. Önerilen: drift detect → manual investigation → onay → retrain.

LLM use case için drift detection nasıl yapılır?

Üç katmanlı: input prompt distribution drift (embedding space üzerinde), output quality drift (hallucination rate, helpfulness score), cost/latency drift. Arize Phoenix, LangSmith ve WhyLabs whylogs LLM tracing destekliyor.

Concept drift’i nasıl tespit ederim eğer label lag varsa?

İki yaklaşım: proxy metric (örn. user click-through rate canary) ile yaklaşık tahmin, delayed ground truth ile retrospective evaluation. Tam concept drift detection için label lag süresi (örn. 7 gün) kabul edilmeli ve raporlama bu süreye uyumlu olmalı.

Drift dashboard’unu kim takip etmeli?

İdeal: model owner (data scientist) + on-call ML engineer. Alarm tier’a göre routing: P0 (production model accuracy düşüşü) PagerDuty on-call’a, P1 (significant drift) Slack channel’a, P2 (minor drift) weekly digest.

Ömer ÖNAL

Yazılım Mimarı | Yapay Zeka LLC. Ölçeklenebilir SaaS, .NET Core altyapıları ve Otonom AI süreçleri inşa ediyorum. Kod değil, sistem tasarlarım.

Yorum (1)

Ömer ÖNAL
Mayıs 23, 2026
Yanıtla

ML monitoring konusunda ekiplerin ‘önce model deploy et, sonra düşünürüz’ refleksi en pahalı yaklaşım. Müşterilerimde gördüğüm gerçek vaka: fraud modeli 4 ay sessizce bozuldu, $3M kayıp sonrası fark edildi. Doğru pratik: deploy günü baseline distribution snapshot + her hafta KS test + PSI > 0.25 alarm. Arize geniş özellikli, Fiddler explainability güçlü, WhyLabs lightweight self-hosted seçenek. — Ömer ÖNAL

Our Gallery

Contact Info

Model Drift Detection 2026: Arize, Fiddler ve WhyLabs Production Monitoring