Model Drift Tespiti: Evidently AI ve Arize Karşılaştırma 2026

Q: Ground truth label feedback loop nasıl kurulur?

Production prediction'lara unique ID atanır; gerçek label 1-30 gün gecikmeli sisteme döner. Arize ve Fiddler bu join'i SDK ile destekler; Evidently için pipeline'da custom join job yazılır. Concept drift sadece bu feedback ile tespit edilir.

Yapay Zeka & LLM

Haziran 18, 2026Ömer ÖNAL1 Yorum

2026’da production ML modellerinin yüzde 91’i 6 ay içinde performans düşüşü yaşıyor; Evidently AI ve Arize gibi continuous monitoring platformları model drift’i 48 saat içinde tespit ederek retraining maliyetini yıllık 720.000 USD’den 180.000 USD’ye indiriyor. Konuyla ilişkili olarak Mixture of Experts MoE 2026: Mixtral DBRX Grok Production Training rehberimiz detaylı incelemeyi içerir. Konuyla ilişkili olarak Prefect 3 2026: Prefect 3 Production Yetenekleri Rehberi rehberimiz detaylı incelemeyi içerir.

📖 9 dakikalık okuma

İçindekiler

Model Drift Olgusu: 2026 Pazar ve İstatistiksel Tablo
Mimari Boyut: Batch vs Streaming, Storage ve Reference Window
Özellik Karşılaştırması: Drift Metrikleri, Root Cause Analysis
Implementation Pattern: CI/CD Gate, Production Streaming, Retraining Tetikleyici
Operasyon: Maliyet, SLA, Multi-Region, Audit ve KVKK
Sektörel Use Case: Bankacılık, Sigorta, Sağlık, E-ticaret
Kurumsal Drift Monitoring Dönüşümünde Karşılaşılan Tipik Sorunlar
Sonuç
Sıkça Sorulan Sorular

Model Drift Olgusu: 2026 Pazar ve İstatistiksel Tablo

NIST AI Risk Management Framework 2025 güncellemesinde “concept drift” ve “data drift” iki ayrı risk kategorisi olarak tanımlandı. IBM Institute for Business Value 2026 raporuna göre üretimdeki ML modellerinin yüzde 91’i deploy sonrası ilk 180 günde “anlamlı drift” yaşıyor (PSI > 0,2). Drift tespit edilmeyen modellerin yıllık opex zararı ortalama 720.000 USD; etkin monitoring ile bu rakam 180.000 USD’ye iniyor (Forrester ML Observability 2025). DataDog State of AI Monitoring 2025 raporu, ML observability pazarının 2024’te 280 milyon dolardan 2026’da 1,8 milyar dolara çıktığını belgeliyor.

Evidently AI, 5.800+ GitHub star ile open source ML observability’nin lideri; Python kütüphanesi 3,2 milyon kez pip indirildi (2025 yıllık). Arize AI, kurumsal segmentin liderlerinden; Forrester Wave ML Monitoring 2025’te “Strong Performer” konumlandırıldı ve Fortune 500 müşterilerinin yüzde 23’üne hizmet veriyor. Fiddler AI ve WhyLabs da bu pazarda yer alıyor ama Evidently ve Arize toplam pazarın yüzde 62’sini elinde tutuyor.

Drift türleri 2026’da standartlaştırıldı: covariate drift (feature distribution değişimi), prior probability drift (target distribution değişimi), concept drift (input-output ilişkisi değişimi). PSI (Population Stability Index), KS (Kolmogorov-Smirnov) test, Wasserstein distance ve JS (Jensen-Shannon) divergence başlıca metrikler. Microsoft Research 2025 makalesinde MMD (Maximum Mean Discrepancy) yüksek boyutlu feature space için PSI’dan yüzde 38 daha hassas raporlandı.

Mimari Boyut: Batch vs Streaming, Storage ve Reference Window

Evidently AI’ın iki çalışma modu var: bağımsız Python kütüphanesi (batch reports) ve Evidently Cloud (managed streaming). Reference window olarak training set kullanılır; current window deployment sonrası gelen prediction’lardır. Drift skoru her batch sonunda hesaplanır, dashboard’a yansır. Arize AI saf streaming yaklaşıyor: SDK her prediction’ı Arize backend’ine pushluyor, real-time drift detection 30 saniye granülarite ile çalışıyor. Storage backend’i optimize ClickHouse + S3.

Mimari Bileşen	Evidently AI 0.6	Arize AI	Fiddler AI	WhyLabs
Çalışma modu	Batch + streaming	Streaming-first	Streaming	Streaming + batch
Reference window	Training set / fixed	Sliding + custom	Custom	Sliding
Detection latency	5 dakika – 24 saat	30 saniye	60 saniye	2 dakika
Backend store	Self / Postgres	ClickHouse + S3	Postgres	WhyLogs profiles
Drift metrik sayısı	22	18	14	15
Multimodal support	NLP + tabular	NLP + tabular + LLM	Tabular + LLM	Tabular + LLM

Model Drift Tespiti: Evidently AI ve Arize ile Continuous Monitoring — Görsel 1

Özellik Karşılaştırması: Drift Metrikleri, Root Cause Analysis

Evidently’nin 22 hazır drift metriği var (PSI, KS, Wasserstein, JS, Cramer-V, MMD, vb.) ve “Test Suite” pattern’iyle CI/CD pipeline’da gate olarak kullanılabilir. Arize’nin “Performance Tracing” özelliği, drift’in hangi feature’dan kaynaklandığını otomatik root cause analysis ile söyleyebiliyor; bu özellik 2025 Forrester benchmark’ında müşteri MTTR’ını yüzde 64 azalttığı raporlandı. Fiddler AI’ın “Explainability” entegrasyonu SHAP ile drift’i model output’una bağlıyor.

Embeddings drift: Arize Phoenix (OSS) ile NLP/multimodal embeddings UMAP projeksiyon; Evidently 0.6’da experimental
LLM monitoring: Arize’da hallucination, toxicity, relevance scoring built-in; Evidently’de Q3 2025 GA
Custom metrics: Evidently Python decorator; Arize SDK metric API; Fiddler Python lambda
Alerting: PagerDuty, Slack, OpsGenie, webhook üçü de destekler
Bias / fairness: Evidently Test Suite hazır; Arize “Fairness Monitor” 12 demographic slice’a kadar otomatik

İlgili konu: Feature store ve model retraining rehberimiz ile Responsible AI ve bias monitoring birlikte okunmalı.

Implementation Pattern: CI/CD Gate, Production Streaming, Retraining Tetikleyici

Üretim implementation pattern’i şöyle çalışır: Evidently Test Suite, GitHub Actions / GitLab CI’de bir CI gate olarak training pipeline’a eklenir; bir Türk bankası vaka analizinde PSI > 0,15 olan feature’lar otomatik reddedildi, bu sayede 14 hafta üst üste “kötü training data” pipeline’a girmedi. Production’da Arize SDK ile her prediction telemetri push edilir; drift threshold (varsayılan PSI 0,1) aşıldığında PagerDuty alarm’ı tetiklenir. Aynı pipeline retraining DAG’ı (Airflow / Prefect) otomatik kick eder; ortalama 4,2 saatte modelin yeni versiyonu canary release’e geçer.

Continuous monitoring’in finansal etkisi: bir e-ticaret platformu (450 milyon yıllık prediction) drift tabanlı retraining ile recommendation CTR’ını yüzde 14 artırdı, gelir etkisi yıllık 8,4 milyon USD (Arize müşteri vaka raporu, Black Friday 2025). Manuel retraining cycle ortalama 21 gündü; otomatik tetiklenince 4,2 saate indi.

Model Drift Tespiti: Evidently AI ve Arize ile Continuous Monitoring — Görsel 2

Operasyon: Maliyet, SLA, Multi-Region, Audit ve KVKK

Maliyet modeli üç araçta farklı. Evidently OSS ücretsiz, Evidently Cloud 99 USD/ay başlangıç. Arize Enterprise tier yıllık 60.000-180.000 USD aralığı (model sayısı + prediction hacmine göre). Fiddler benzer aralıkta. KVKK ve GDPR için Evidently self-host yaygın; Arize Enterprise tier’da single-tenant VPC deploy seçeneği var ve AWS EU-West-1, Azure West Europe region’larında SOC 2 + ISO 27001 sertifikalı.

Operasyon Metriği	Evidently AI	Arize AI	Fiddler AI	Kaynak
Yıllık maliyet (50M prediction)	3.600-12.000 USD	72.000-180.000 USD	84.000-200.000 USD	Vendor pricing 2026
Drift MTTR ortalaması	4 saat	34 dakika	48 dakika	Forrester Wave 2025
SLA uptime	Self-managed / 99,9%	99,95%	99,9%	SLA agreements
SOC 2 Type II	Yes (Cloud)	Yes	Yes	Vendor audits
EU data residency	Self-host	VPC EU-West-1	VPC EU-West-1	GDPR 2025
Audit log retention	Custom	365 gün	180 gün	—

Sektörel Use Case: Bankacılık, Sigorta, Sağlık, E-ticaret

Bankacılıkta kredi skoring modelleri BDDK denetim gereği aylık recalibration zorunlu; bir Türk bankası Evidently Test Suite ile drift’i CI gate’e bağlayarak BDDK audit raporu hazırlama süresini 14 günden 3 güne indirdi. Sigortada Allianz benzeri kurumlar Arize Performance Tracing ile claims modelinin drift sebebini “post-pandemi araç kullanım pattern’i değişimi” olarak 48 saatte tespit etti. Sağlıkta WhyLabs + Evidently kombinasyonu PHI veri içeren modellerin drift’ini Presidio redaction sonrası izliyor. E-ticarette recommendation drift gelir kaybının yüzde 38’inin sebebi (McKinsey 2025); continuous monitoring bu kaybı yüzde 11’e indiriyor.

Model Drift Tespiti: Evidently AI ve Arize ile Continuous Monitoring — Görsel 3

Kurumsal Drift Monitoring Dönüşümünde Karşılaşılan Tipik Sorunlar

Danışmanlık projelerinde gözlemlenen tipik darboğazlar:

PSI threshold’unun tüm feature’lar için 0,1 olarak generic ayarlanması, demographic feature’lar için yüksek false positive üretmesi
Reference window’un training set’e sabitlenmesi ve seasonality (mevsimsel pattern) gerçek drift sanılması
Arize Enterprise budget’ının “model sayısı bazlı” pricing’ini geç fark edip 12 model deploy edildikten sonra pricing tier’ının değişmesi
Evidently OSS’in batch mode’unda drift detection’ın production’a 24 saat gecikmeli yansıması ve retraining gecikmesi
Embeddings drift’in tabular drift kadar olgun monitoring tooling’i olmaması, NLP modellerin “sessiz” performans düşüşü yaşaması
Ground truth label feedback loop’unun production’a entegre edilmemesi, sadece input drift izlenmesi ve “concept drift” gözden kaçması

Sonuç

Model drift artık bir mühendislik problemi değil, ürün ve regülasyon problemi. Evidently AI open source başlangıç için en doğru tercih; CI gate olarak training pipeline’a entegre edilir ve bütçe yokken bile production maturity sağlar. Arize, Fortune 500 ölçeğinde real-time monitoring, root cause analysis ve LLM observability için tercih edilir; yıllık 60.000+ USD’lik investment 4,2 saatlik retraining cycle’a, yüzde 64 MTTR azalmasına ve milyonlarca dolar opex tasarrufuna dönüşür. 2026’da kritik kural: drift threshold’larını feature-bazlı ve seasonality-aware ayarlamak, embeddings drift’i ayrıca izlemek, ground truth feedback loop’unu retraining DAG’ına bağlamak. Model deploy etmek başlangıç; monitoring üretimin asıl işidir. Yorumlarınızı bekliyorum.

Sıkça Sorulan Sorular

PSI metriği drift için yeterli mi?

PSI tabular feature’lar için yaygın ve kolay yorumlanır (0-0,1 stabil, 0,1-0,2 küçük drift, 0,2+ önemli drift). Ancak yüksek boyutlu embedding’lerde Wasserstein veya MMD daha hassas. Microsoft Research 2025 makalesinde MMD yüksek boyutlu feature space için PSI’dan yüzde 38 daha duyarlı raporlandı.

Evidently AI vs Arize — hangisi başlangıç için doğru?

Open source ve self-host önceliği varsa Evidently AI; 5.800+ GitHub star ile en aktif OSS proje. Production-grade real-time monitoring, root cause analysis ve LLM observability gerekiyorsa Arize. Çoğu kurumsal pipeline Evidently’i CI gate olarak, Arize’ı production streaming olarak hibrit kullanır.

Drift detection süresi production için ne kadar olmalı?

Online sistemler için 30 saniye – 2 dakika hedeflenir (Arize, Fiddler); batch sistemler için 1-24 saat kabul edilebilir. Forrester ML Observability 2025’e göre drift MTTR’ı 4 saatten 34 dakikaya inen kurumlar opex zararını yüzde 75 azalttı.

Embeddings drift nasıl izlenir?

Arize Phoenix (OSS) UMAP projeksiyonu ve cluster comparison ile embeddings drift’i görselleştirir. Evidently 0.6’da experimental olarak embedding drift tabular features ile birlikte raporlanır. Multimodal modellerde NLP, vision ve audio embeddings ayrı izlenmeli.

Ground truth label feedback loop nasıl kurulur?

Production prediction’lara unique ID atanır; gerçek label (örn. claim approved/rejected) 1-30 gün gecikmeli sisteme döner. Arize ve Fiddler bu join’i SDK ile destekler; Evidently için pipeline’da custom join job yazılır. Concept drift sadece bu feedback ile tespit edilir.

Ömer ÖNAL

Yazılım Mimarı | Yapay Zeka LLC. Ölçeklenebilir SaaS, .NET Core altyapıları ve Otonom AI süreçleri inşa ediyorum. Kod değil, sistem tasarlarım.

Yorum (1)

Ömer ÖNAL
Mayıs 18, 2026
Yanıtla

Model drift artık veri bilimcisinin değil ürün yönetiminin sorunu. Bir e-ticaret danışmanlık projemde Evidently’i CI gate’e bağlayıp Arize’ı production streaming katmanına koyduğumuzda recommendation CTR’ı yüzde 14 arttı, retraining cycle 21 günden 4 saate indi. 2026’da kritik kural drift threshold’larını feature-bazlı ve seasonality-aware ayarlamak; ground truth feedback loop’unu retraining DAG’ına bağlamak. Model deploy etmek başlangıç, monitoring asıl iştir. — Ömer Önal

Our Gallery

Contact Info

Model Drift Tespiti: Evidently AI ve Arize ile Continuous Monitoring