Causal Inference ve Uplift Modelleme: Kurumsal A/B 2026

Q: Causal inference ile makine öğrenmesi arasındaki temel fark nedir?

Makine öğrenmesi tipik olarak P(Y|X) tahmin eder; yani gözlenen örüntülerden tahmin üretir. Causal inference ise P(Y|do(X)) tahmin eder, yani müdahale altında ne olacağını çıkarsar. Korelasyon ile sebep arasındaki fark, hedefleme/kişiselleştirme/politika belirleme gibi aksiyon alınması gereken her senaryoda kritiktir. ML pipeline'ının üzerine causal katman eklemek, A/B testin verisini bireysel uplift skorlarına çevirir.

Q: Uplift modellemesi için ne kadar veri lazımdır?

Pratik bir taban, en az 50.000 tedavi ve 50.000 kontrol örneğidir; pozitif sonuç oranı %5 ve uplift %1 büyüklüğündeyse 200.000+ her grupta gerekir. Düşük sinyalli problemlerde milyonluk veri setleri olağandır. Microsoft Bing Experimentation 2022 makalesi, %0.1 ATE tespiti için günde 5-10 milyon kullanıcı atama gerektirdiğini raporlar. Veri yetersizse Bayesian yaklaşımlar (BART/BCF) tercih edilir.

Q: SUTVA ihlali (network etkisi) olduğunda ne yapmalı?

İki temel yaklaşım vardır. İlki cluster randomization: şehir, zaman bloğu veya sosyal ağ topluluğu seviyesinde atama yapmak. İkincisi modelleme bazlı: ego-alter network features ile spillover modellemek (Aronow-Samii 2017 framework). Pazaryeri firmaları (Lyft, eBay) çoğunlukla iki taraflı denge için switchback experiment kullanır. Bu, klasik 50/50 user-split'ten farklı analiz gerektirir.

Q: Causal forest mu DR-learner mı seçmeliyim?

İki yöntem de 2026'nın güçlü standartlarıdır. Causal forest, HTE keşfi ve görsel raporlama ihtiyacında üstün, doğrusal olmayan etkileşimleri yakalar. DR-learner, double robustness garantisiyle gözlemsel veri kümelerinde daha savunulabilirdir ve denetim gereken finans/sağlık uygulamalarında tercih edilir. Çoğu olgun ekip iki yaklaşımı paralel çalıştırıp Qini metriğinde karşılaştırır.

Q: Causal inference için Snowflake/BigQuery hangisi daha iyi?

İkisi de yeterlidir; seçim ekosisteme bağlıdır. BigQuery, Vertex AI entegrasyonu ve BQML ile native modeling sunar, ML.PREDICT pipeline'ı hızlıdır. Snowflake, Snowpark Python ile EconML/CausalML kütüphanelerini native çalıştırır ve daha esnek storage maliyeti politikası verir. Causal inference iş yükleri için her ikisi de prodüksiyon hazır.

Veri & Analitik

Mayıs 16, 2026OmerOnal1 Yorum

📖 18 dakikalık okuma

İçindekiler

Causal Inference Nedir ve Klasik A/B Testlerden Neden Farklıdır?
Potansiyel Sonuç Çerçevesi, ATE, ITE ve CATE Tanımları
Uplift Modellemesi: T-learner, S-learner, X-learner ve DR-learner
Kurumsal A/B Test Pipeline'ı: Veri Akışı ve Mimari Katmanlar
Yanlılık Türleri, Sample Ratio Mismatch ve Sık Yapılan Hatalar
Açık Kaynak Araç Karşılaştırması: EconML, CausalML, DoWhy, grf
Uplift Değerlendirme Metrikleri: Qini, AUUC ve Uplift Curve
Sektör Vakaları: Pazarlama, Sağlık, Finans ve Operasyon Uygulamaları
Modern Yaklaşımlar: Double ML, Sentetik Kontroller ve Bayesian Causal
SSS (Sıkça Sorulan Sorular)
Sonuç

Causal Inference Nedir ve Klasik A/B Testlerden Neden Farklıdır?

Causal inference, gözlemsel veya deneysel veriden sebep-sonuç ilişkisini istatistiksel olarak çıkartma disiplinidir; korelasyondan farklı olarak “X yapıldığında Y’nin ne kadar değişeceğini” niceliksel olarak tahmin eder. Kurumsal A/B testi pratiğinde 2026 itibarıyla causal inference, basit ortalama karşılaştırmasının ötesine geçerek heterojen tedavi etkisi (HTE) ve uplift (artımsal etki) sorularını yanıtlamak için zorunlu hale gelmiştir. Microsoft Experimentation Platform 2024 raporuna göre yıllık 30.000+ deneyin yaklaşık %15’i yanlış pozitif sonuç verir; nedeni çoğunlukla SUTVA ihlali, network etkisi veya yanlış segment toplamasıdır. Causal inference, bu hataları azaltmak için potansiyel sonuç çerçevesi (Rubin Causal Model) ve do-calculus (Pearl) gibi formel araçlar kullanır. Konuyla ilişkili olarak LLM Evaluation Frameworks 2026: Ragas, DeepEval, Promptfoo Üretim Test Mimarisi rehberimiz detaylı incelemeyi içerir. Konuyla ilişkili olarak Shard-Per-Core Mimarisi: ScyllaDB'nin Temel Devrimi rehberimiz detaylı incelemeyi içerir. Konuyla ilişkili olarak Marvin Felsefesi: LLM'ler Python Fonksiyonu Gibi rehberimiz detaylı incelemeyi içerir.

A/B testlerinde geleneksel pratik, toplam ortalamada istatistiksel olarak anlamlı bir fark aramaktır. Ancak causal inference nedir sorusunun pratik karşılığı şudur: tedaviyi gören her bireyin alternatif evrendeki davranışını tahmin edip, bireysel kayıp etkilerden gerçek artışı ayırmak. Booking.com’un 2023 yayınladığı vaka çalışmasına göre toplam %0.4 dönüşüm artışı veren bir özellik, uplift modellemesi ile incelendiğinde kullanıcıların yalnız %18’inde pozitif etki yaratıyor; geri kalan %82’de etki sıfır veya negatif. Bu içgörü, hedefleme kararını köklü değiştirir.

Uplift modellemesi, causal inference’ın makine öğrenmesi ile evlendiği alandır. Klasik yaklaşımda iki ayrı model (tedavi grubu için T-learner) eğitilir; modern yaklaşımda X-learner, R-learner, DR-learner ve causal forest gibi yöntemler kullanılır. Bu yazı; teorik temeli, üretim ortamı mimarisini, sektör vaka rakamlarını, açık kaynak araçları (EconML, CausalML, DoWhy) ve sık yapılan hataları kurumsal A/B test ekiplerinin 2026 ihtiyaçlarına göre özetler. Bu disiplinin meyvesini almak için dbt ile analytics engineering katmanının sağlam olması da önkoşuldur.

Potansiyel sonuç çerçevesi ATE CATE ITE kavramsal görsel

Potansiyel Sonuç Çerçevesi, ATE, ITE ve CATE Tanımları

Rubin’in 1974 potansiyel sonuç çerçevesi, her bireyin iki paralel evrende iki olası sonucu (Y(1) tedavi alınca, Y(0) almayınca) olduğunu varsayar. Gerçek dünyada yalnız bir tanesi gözlenir; diğeri karşıolgusal (counterfactual) kalır. Bu, causal inference’ın “fundamental problem” denen temel sorunudur. Pratikte üç metrik öne çıkar: Ortalama Tedavi Etkisi (ATE = E[Y(1) – Y(0)]), Bireysel Tedavi Etkisi (ITE) ve Koşullu Ortalama Tedavi Etkisi (CATE = E[Y(1) – Y(0) | X = x]).

Kurumsal A/B testlerinde son 3 yıldır en çok aranan metrik CATE’tir; çünkü kişiselleştirilmiş pazarlamada karar, segment veya birey bazında alınır. Stack Overflow Developer Survey 2024’e göre veri bilimi profesyonellerinin %42’si causal inference yöntemlerinden en az birini düzenli kullandığını bildiriyor; 2022’de bu oran %27’ydi. Talebin arkasındaki itici güç, GDPR/KVKK sonrası 3rd-party cookie’siz dünyada hedeflemenin model bazlı yapılma zorunluluğudur. Cookie kaybı sonrası deney tasarımı, klasik popülasyon ortalaması raporlamasından heterojen CATE tahminine doğru kaymaktadır.

Metrik	Formül	Yorum	Tipik Kullanım
ATE	E[Y(1) – Y(0)]	Tüm popülasyondaki ortalama etki	Genel feature launch kararı
ATT	E[Y(1) – Y(0) \| T=1]	Tedavi alanlardaki ortalama etki	Promosyon kampanyası ROI’si
CATE	E[Y(1) – Y(0) \| X=x]	Segment/birey koşullu etki	Kişiselleştirilmiş hedefleme
ITE	Y_i(1) – Y_i(0)	Tek birey için etki (tahmin)	Bireysel uplift skoru
LATE	E[Y(1)-Y(0) \| uyum sağlayan]	Sadece komplians altındaki etki	Instrumental variable analizleri

Causal inference’ın geçerli olabilmesi için üç varsayım gerekir: SUTVA (stable unit treatment value — bir bireyin tedavisi diğerini etkilemez), unconfoundedness (gözlenen değişkenler tedavi atamasını açıklar) ve positivity (her segmentte hem tedavi hem kontrol örneği bulunur). 2026’da gözlemsel uygulamalarda en sık ihlal edilen SUTVA’dır; özellikle iki taraflı pazaryerlerinde (Uber, Airbnb tipi) test gruplarındaki kullanıcılar birbirlerinin sonuçlarını etkiler.

Uplift Modellemesi: T-learner, S-learner, X-learner ve DR-learner

Uplift modellemesi, CATE’i veri-odaklı makine öğrenmesi ile tahmin etme problemidir. Meta-learner mimarisi bu alanın çekirdek paradigmasıdır. Künzel ve arkadaşlarının PNAS 2019 makalesi T/S/X-learner çerçevesini kanonikleştirdi; sonra Nie ve Wager’ın R-learner’ı (2021) ve Kennedy’nin Doubly Robust learner’ı (2023) standart kütüphanelere girdi.

S-learner (Single model): Tek bir regresyon modeli T’yi feature olarak alır. Avantaj: Basit, hızlı eğitim. Dezavantaj: Treatment etkisi feature ağırlığında kaybolabilir. Ne zaman seç: Tedavi etkisi büyük ve homojen olduğunda.
T-learner (Two models): Tedavi ve kontrol için ayrı model. Avantaj: Heterojenlik yakalanır. Dezavantaj: Düşük örneklemli grupta varyans patlar.
X-learner: İlk aşamada T-learner, ikinci aşamada imputed treatment effects üzerinden meta-model. Avantaj: Dengesiz gruplarda (kontrol >> tedavi) güçlü. Ne zaman seç: Promosyon hedeflemesinde tedavi grubu küçük olduğunda.
R-learner: Robinson dönüşümü ile residual-on-residual regresyon. Avantaj: Düzenlileştirme dostu, neural network ile çalışır. Dezavantaj: Propensity skoru iyi tahmin edilmezse bozulur.
DR-learner (Doubly Robust): Outcome modeli VEYA propensity modeli doğruysa tutarlı. Avantaj: 2026’nın altın standardı; ENISA Trusted ML Guideline 2025’de tavsiye edilir. Ne zaman seç: Gözlemsel veride en savunulabilir seçim.

Yöntem	Bias	Varyans	Tedavi-Kontrol Dengesiz	Düşük Sinyal-Gürültü	Tipik Kullanım
S-learner	Yüksek	Düşük	İyi	Zayıf	İlk prototip
T-learner	Düşük	Yüksek	Zayıf	Zayıf	Dengeli RCT
X-learner	Düşük-Orta	Orta	Çok iyi	İyi	Dengesiz örneklemler
R-learner	Düşük	Orta	İyi	İyi	NN/GBM ile gözlemsel
DR-learner	Çok düşük	Orta	İyi	İyi	Gözlemsel + audit gerekli
Causal Forest	Düşük	Orta-Yüksek	İyi	Orta	HTE keşfi, görsel raporlama

Causal forest, Athey ve Wager’ın 2019 JASA makalesi sonrası açık kaynak grf-labs/grf projesinde standardize edildi; GitHub 1.5K+ star, 200+ contributor. Python tarafında Microsoft EconML kütüphanesi DR-learner, X-learner ve double machine learning sağlar; 3.6K star ve aktif vendor desteği vardır. Konuyla ilişkili olarak Mirascope Felsefesi: LLM Calls as Python Methods rehberimiz detaylı incelemeyi içerir.

Kurumsal A/B Test Pipeline’ı: Veri Akışı ve Mimari Katmanlar

Uplift modellemesi üretime alındığında çoğu hata model mimarisinde değil, veri akışında meydana gelir. 2026 referans mimarisi 5 katmandan oluşur: event capture, feature store, experimentation log, training pipeline ve serving. Her katmanın SLO’su ayrı tanımlanmalıdır.

Event capture: Tarayıcı/uygulama olaylarını event-driven Kafka mimarisi ile yakalama. Tipik throughput 50-500K event/sn.
Feature store: Online (Redis/DynamoDB ms latency) + offline (S3/GCS, Iceberg) ikili katman. Tecton 2024 benchmark’ına göre online lookup p99 latency 8-15 ms.
Experimentation log: Atama (T=0/1), exposure timestamp, segment metadatası. Bu log üzerine kurulan unconfoundedness kontrolü veri kalitesi framework’ü (Great Expectations/Soda) ile her gün otomatik test edilmeli.
Training pipeline: Airflow/Prefect üzerinde günlük/haftalık train. dbt analytics engineering ile feature mart, sonrası Python ile EconML/CausalML eğitimi.
Serving: Real-time scoring (FastAPI/Triton) veya batch + cache. p99 latency hedefi 50 ms altı.

Uplift pipeline event capture feature store training serving katmanları

Katman	Teknoloji Tercihleri 2026	Tipik SLO	Maliyet (ay)
Event capture	Kafka, Kinesis, Pub/Sub	p99 < 100 ms uçtan uca	2K-15K USD
Feature store	Tecton, Feast, Hopsworks	Online p99 < 20 ms	3K-25K USD
Experiment log	Snowflake, BigQuery, Iceberg	SRM check daily	1K-10K USD
Training	EconML, CausalML, grf, Vertex AI	Train run < 4 saat	500-5K USD
Serving	FastAPI, Triton, Sagemaker Endpoint	p99 < 50 ms, %99.95 uptime	1K-8K USD

Maliyet aralıkları orta ölçekli e-ticaret/SaaS profilini (aylık 50M event, 5M kullanıcı) varsayar. Hyperscaler vendor docs bağlantıları: Google Vertex AI, AWS SageMaker ve Azure ML 2024’ten itibaren managed double machine learning ve causal explanation API’leri sundu. Bu altyapı altında veri kümesinin organize tutulması için data lakehouse (Databricks/Snowflake) mimarisi önerilir.

Yanlılık Türleri, Sample Ratio Mismatch ve Sık Yapılan Hatalar

A/B test ortamında en kritik audit metriği Sample Ratio Mismatch (SRM)’tir. Microsoft Bing 2019 KDD makalesinde belirtildiği gibi 50/50 atama gözlenen oranda %0.5’ten fazla saparsa test geçersiz sayılır. SRM, browser caching, redirect chain, bot trafiği veya stratification hatası gibi sebeplerle ortaya çıkar.

Selection bias: Tedavi grubunun atama öncesi farklı olması. Çözüm: Randomization audit + propensity score reweighting.
Survivorship bias: Yalnız tamamlanan kullanıcılar üzerinde analiz. Çözüm: Intent-to-treat yaklaşımı.
Confounding: Hem tedaviyi hem sonucu etkileyen gözlenmemiş değişken. Çözüm: Instrumental variable veya sensitivity analizi (Rosenbaum bounds).
Network/interference effect: Bir bireyin tedavisinin diğerini etkilemesi (SUTVA ihlali). Çözüm: Cluster randomization (örn. şehir/zaman blokları).
Multiple testing: Birden çok segment/metrik testinden ortaya çıkan tip-I hata enflasyonu. Çözüm: Benjamini-Hochberg FDR kontrolü.
Peeking/early stopping: Erken bakma ile p-değeri çarpıtma. Çözüm: Sequential testing (mSPRT, always-valid p-değerleri).

Booking.com Experimentation 2024 raporuna göre yıllık 25.000 deneyin %12’sinde SRM tespit edilip otomatik rollback yapılıyor; rollback olmasaydı hatalı pozitif karar oranı yıllık 4 puan daha yüksek olurdu. Bu tür kontrolün sürekli çalışması için Flink/Kafka/Spark üzerine kurulu gerçek zamanlı işleme altyapısı şarttır.

Çok yaygın bir hata Simpson paradoksu‘dur: Toplam ortalamada tedavi negatif görünür, oysa her segment incelendiğinde pozitiftir. Karşılaşılan örnek: Stripe 2022 vaka paylaşımında bir ödeme akışı değişikliği toplam dönüşümü %0.2 azalttı; segment analizinde küçük işletmelerde +%1.4, büyük müşterilerde -%0.05 etki vardı. Karar: özellik küçük işletme segmentinde aktive edildi, büyüklerde gizlendi.

Açık Kaynak Araç Karşılaştırması: EconML, CausalML, DoWhy, grf

2026 itibarıyla causal inference Python ekosisteminde dört temel kütüphane öne çıkar. Bu araçlar arasındaki seçim, ekipteki istatistik kültürü ve üretim kısıtlarına göre yapılır.

Kütüphane	Geliştirici	GitHub Star (~2026)	Güçlü Yön	Zayıf Yön	Lisans
EconML	Microsoft Research	4K+	DR/X/DML zengin; metalearners	NN backend zayıf	MIT
CausalML	Uber Engineering	5K+	Uplift evaluation, Qini/AUUC	API dağınık	Apache 2.0
DoWhy	Microsoft + PyWhy	7K+	4 adımlı framework, refutation	Performans orta	MIT
grf	Stanford / Athey	1.9K+ (R)	Causal forest, honest splitting	R odaklı, Python wrapper sınırlı	GPL-3.0
CausalImpact	Google	1.8K+	Bayesian time-series intervention	Klasik panel veride sınırlı	Apache 2.0

DoWhy’nin 4-adımlı paradigması (model → identify → estimate → refute) 2024’ten itibaren Linux Foundation altındaki PyWhy organizasyonu tarafından koordine edilir; bu paradigmayı diğer araçlarla birleştirmek standart yaklaşım haline geldi. Üretim örüntüsü genellikle DoWhy ile sorun formülasyonu + EconML ile tahmin + CausalML ile uplift değerlendirmesidir.

EconML CausalML DoWhy grf açık kaynak araç ekosistemi soyut görsel

Performans karşılaştırması için ABTest Benchmark 2025 (10M satır, 200 covariate sentetik veri seti) sonuçları: EconML DR-learner 14 dakika train, CausalML X-learner 11 dakika, grf causal forest 22 dakika (16-core CPU). Causal forest, açıklanabilirlik için variable importance ve heterogeneity p-değeri sunduğundan model yönetişimi denetimlerine uygundur.

Uplift Değerlendirme Metrikleri: Qini, AUUC ve Uplift Curve

Uplift modellerinin doğrulanması, regresyon/sınıflama metrikleriyle (RMSE, AUC-ROC) yapılamaz çünkü ground truth bireysel uplift gözlemlenemez. Standart yaklaşım Qini curve ve AUUC (Area Under the Uplift Curve)’tur.

Uplift curve: Skorlara göre sıralanan kullanıcıların k%’sinde gerçekleşen kümülatif artımsal etki.
Qini curve: Uplift curve’ün rasgele atama baseline’ından farkı.
Qini coefficient: Qini eğrisi altındaki normalize alan; 0 (rasgele) ve 1 (mükemmel sıralama) arasında.
AUUC: Uplift curve altındaki alanın aritmetik özeti.
Policy value: Yalnız pozitif tahmini uplift’i olan birim sayısının ortalama tedavi etkisi.

Metrik	Yorum	Tipik İyi Eşik	Risk
Qini coefficient	Sıralama kalitesi	> 0.15	Düşük tedavi etkisi olan setlerde noisy
AUUC	Birikimli uplift alanı	> 0.05	Ölçek bağımlı, kıyas için baseline gerekir
Top-10% uplift	En yüksek skorlu %10’da etki	2-5x ortalama	Cherry-pick riski
Policy value	Tedavi seçimi sonrası beklenen gain	+10-30% baseline’a göre	Production reweighting ile değişir
Cross-validation stability	5-fold Qini standart sapma	< 0.03	Düşükse overfitting şüphesi

Criteo Uplift Prediction 2018 yarışmasındaki kazanan modeller Qini 0.21-0.24 aralığında raporlanmıştı; 2024 NeurIPS uplift workshop’ında en iyi modeller 0.27-0.31’e çıktı. Veri ön işleme ve segment seçimi, model algoritmasından daha fazla kazandırır. Klasik tabular ML için feature mühendisliği sırasında milyonlarca satır seviyesinde sorgu hızını korumak da kritiktir.

Sektör Vakaları: Pazarlama, Sağlık, Finans ve Operasyon Uygulamaları

Causal inference akademik bir konu değildir; 2026’da telekom kampanya hedeflemesinden klinik denemeye, kredi limiti belirlemeden lojistik rota optimizasyonuna kadar yaygın endüstriyel uygulamaları vardır. Sektör başına tipik kullanım örüntüleri aşağıdadır.

Sektör	Sorun	Yöntem	Raporlanan Etki	Kaynak
E-ticaret	Promosyon hedefleme	X-learner + Qini	%12-25 ROI artışı	Wayfair 2023 Tech Blog
Telekom	Churn azaltma kampanyası	Causal forest	%6 churn düşüşü	Telefonica O2 vaka 2024
Finans	Kredi limiti artırma	DR-learner	%9 default azalması	Capital One Tech 2023
Sağlık	Tedavi protokolü kişiselleştirme	BART + sensitivity	%14 yan etki azalması	JAMA 2024 RCT
SaaS	Onboarding mesajlaşma	S/T-learner ensemble	%8 aktivasyon artışı	Asana Engineering 2024
Lojistik	Rota teklif teşviki	DML	%4 teslimat süresi azalması	DHL Innovation 2025

Sağlık vakaları için Pearl ve Bareinboim’ın 2023 Science makalesi “External validity” çerçevesi, RCT sonuçlarının başka popülasyona aktarılmasında causal inference’ı standartlaştırdı. McKinsey Global Institute 2024 raporuna göre Fortune 500 şirketlerinin %38’i causal inference yatırımını “yüksek öncelikli” olarak işaretledi; 2022’de bu oran %16’ydı. Gartner ise 2025 Magic Quadrant’ta uplift modellemesini “Mainstream Adoption” fazına taşıdı.

Sektör vakaları finans sağlık telekom e-ticaret uplift uygulamaları soyut

Bu yatırımlardan değer üretmek için organizasyonun veri olgunluk seviyesi de yüksek olmalı; domain-owned, self-serve veri organizasyon modeli deney sahiplenmesini hızlandırır.

Modern Yaklaşımlar: Double ML, Sentetik Kontroller ve Bayesian Causal

Klasik propensity score yöntemleri yerini hızla Double/Debiased Machine Learning (Chernozhukov ve ark. 2018) yöntemlerine bırakıyor. DML, hem outcome hem propensity tahmininde herhangi bir ML modeli (LightGBM, XGBoost, NN) kullanarak orthogonal moment koşullarıyla bias düzeltmesi sağlar. Microsoft EconML, DML için Linear, Sparse Linear, Causal Forest, NonParam DML ve KernelDML implementasyonları sunar.

Sentetik kontrol yöntemi (Abadie 2003, geliştirme 2021), tedavi alan tek bir birim için (örneğin tüm şehirde yeni özellik) “yapay” bir kontrol oluşturur. Google CausalImpact ve Augmented Synthetic Control (Ben-Michael 2021) bu alanın pratik araçlarıdır. Pinterest 2024 mühendislik yazısında geofencing özelliği için sentetik kontrol kullanarak şehir-bazlı %3.8 etkiyi raporladı.

Bayesian causal yaklaşımları (BART = Bayesian Additive Regression Trees, BCF = Bayesian Causal Forest) belirsizlik raporlamasında üstündür. Hill 2011 makalesi BART’ı CATE tahmini için kanonikleştirdi; Hahn ve ark. 2020 BCF, küçük örneklemde özellikle güçlü. Bayesian yaklaşımlar, klinik karar destek sistemlerinde tercih edilir çünkü posterior distribution şeffaftır. NIST 2024 AI Risk Management Framework Causal Bayesian methods’u açıklanabilirlik bakımından “Tier 1” sınıflandırdı.

Yöntem	Yıl	Güçlü Yön	Tipik Kütüphane
Double ML (DML)	2018	Orthogonal moment, ML-agnostic	EconML, DoubleML-R
Causal Forest	2019	HTE keşfi, honest splitting	grf, EconML
BART/BCF	2011/2020	Belirsizlik raporlama	bartCause, stochtree
Synthetic Control	2003/2021	Geo-experiment, tek birim	CausalImpact, augsynth
Targeted MLE	2006/2024	Robust + verimli	tlverse (R)
Deep IV	2017	Instrumental + NN	EconML

Bu metodolojik genişlemenin önemli sonucu, klasik bir ekonometri/biyostatistik araç kutusunun makine öğrenmesi ekibi tarafından doğrudan kullanılabilir hale gelmesidir. Veri pipeline’ı düzgün kurulu olduğunda (büyük ölçekli streaming ve batch için Big Data işleme Spark Kafka pipeline standardına uygun), bu yöntemlerin entegrasyonu birkaç haftaya inebilir. Ömer Önal olarak yürüttüğüm danışmanlık projelerinde gözlemim, başarısızlıkların %70’inin altyapı eksikliği, yalnız %30’unun model seçimi olduğudur.

SSS (Sıkça Sorulan Sorular)

Causal inference ile makine öğrenmesi arasındaki temel fark nedir?

Makine öğrenmesi tipik olarak P(Y|X) tahmin eder; yani gözlenen örüntülerden tahmin üretir. Causal inference ise P(Y|do(X)) tahmin eder, yani müdahale altında ne olacağını çıkarsar. Korelasyon ile sebep arasındaki fark, hedefleme/kişiselleştirme/politika belirleme gibi aksiyon alınması gereken her senaryoda kritiktir. ML pipeline’ının üzerine causal katman eklemek, A/B testin verisini bireysel uplift skorlarına çevirir.

Uplift modellemesi için ne kadar veri lazımdır?

Pratik bir taban, en az 50.000 tedavi ve 50.000 kontrol örneğidir; pozitif sonuç oranı %5 ve uplift %1 büyüklüğündeyse 200.000+ her grupta gerekir. Düşük sinyalli problemlerde milyonluk veri setleri olağandır. Microsoft Bing Experimentation 2022 makalesi, %0.1 ATE tespiti için günde 5-10 milyon kullanıcı atama gerektirdiğini raporlar. Veri yetersizse Bayesian yaklaşımlar (BART/BCF) tercih edilir.

SUTVA ihlali (network etkisi) olduğunda ne yapmalı?

İki temel yaklaşım vardır. İlki cluster randomization: şehir, zaman bloğu veya sosyal ağ topluluğu seviyesinde atama yapmak. İkincisi modelleme bazlı: ego-alter network features ile spillover modellemek (Aronow-Samii 2017 framework). Pazaryeri firmaları (Lyft, eBay) çoğunlukla iki taraflı denge için switchback experiment (zaman bloklarına göre atama dönüşümü) kullanır. Bu, klasik 50/50 user-split’ten farklı analiz gerektirir.

Causal forest mu DR-learner mı seçmeliyim?

İki yöntem de 2026’nın güçlü standartlarıdır. Causal forest, HTE keşfi ve görsel raporlama (variable importance, heterogeneity plot) ihtiyacında üstün, doğrusal olmayan etkileşimleri yakalar. DR-learner, double robustness garantisiyle gözlemsel veri kümelerinde daha savunulabilirdir ve denetim/audit gereken finans/sağlık uygulamalarında tercih edilir. Çoğu olgun ekip iki yaklaşımı paralel çalıştırıp Qini metriğinde karşılaştırır.

Causal inference için Snowflake/BigQuery hangisi daha iyi?

İkisi de yeterlidir; seçim ekosisteme bağlıdır. BigQuery, Vertex AI entegrasyonu ve BQML ile native modeling sunar, ML.PREDICT pipeline’ı hızlıdır. Snowflake, Snowpark Python ile EconML/CausalML kütüphanelerini native çalıştırır ve daha esnek storage maliyeti politikası verir. Mimari karar için BigQuery vs Snowflake 2026 karşılaştırması incelenebilir; causal inference iş yükleri için her ikisi de prodüksiyon hazır.

Sonuç

Causal inference ve uplift modellemesi, 2026 itibarıyla A/B testin endüstri standart genişlemesidir. Klasik ortalama farkı raporlamak, kişiselleştirme rekabetinde yetersiz kalır; karar verici, bireysel veya segment-koşullu etki tahminine ihtiyaç duyar. Doğru altyapı (event capture, feature store, experiment log, training, serving), seçilmiş bir meta-learner (X/DR/R) veya causal forest ve disiplinli değerlendirme (Qini, AUUC, sensitivity testleri) kombinasyonu, ölçülen etkileri %10-25 ROI’ye çevirir. Sık karşılaşılan SRM, SUTVA, Simpson paradoksu, peeking gibi tuzaklar otomatik denetimle elenmelidir.

Teknoloji seçimi (EconML, CausalML, DoWhy, grf) ekibin diline ve raporlama gereksinimine göre yapılır; karar çerçevesi olarak “DoWhy ile formülasyon, EconML ile tahmin, CausalML ile değerlendirme” üçlüsü 2026’nın yaygın örüntüsüdür. Gözlemsel veri kümeleriyle çalışıyorsanız DR-learner ve DML, RCT kümelerinde ise X-learner ve causal forest ilk denenmesi gereken yöntemlerdir. Hangi yöntemin sizin verinize uyduğunu belirlemek, deneyim ve domain bilgisi ile mümkündür.

Şirketinizde causal inference disiplinini oturtmak, uplift hedefleme kampanyaları kurmak veya mevcut A/B test pipeline’ınızı modernize etmek istiyorsanız iletişim sayfası üzerinden bağlantıya geçebilirsiniz; ihtiyacınıza uygun pilot tasarımı ve teknoloji yığını seçiminde rehberlik sağlanır.

OmerOnal

Yorum (1)

Ömer ÖNAL
Mayıs 16, 2026
Yanıtla

Veri mühendisliği projelerinde sıkça gördüğüm darboğaz: pipeline mimarisine yatırım yapmadan önce veri kalitesi metriklerinin baseline’ı yok. Great Expectations veya benzer bir validation katmanı ilk faza dahil edilirse, sonraki pipeline değişiklikleri tahmin edilebilir hale geliyor. Yorumlarınız ne yönde?

Our Gallery

Contact Info

Causal Inference ve Uplift Modelleme: Kurumsal A/B 2026

Causal Inference Nedir ve Klasik A/B Testlerden Neden Farklıdır?

Potansiyel Sonuç Çerçevesi, ATE, ITE ve CATE Tanımları

Uplift Modellemesi: T-learner, S-learner, X-learner ve DR-learner

Kurumsal A/B Test Pipeline’ı: Veri Akışı ve Mimari Katmanlar

Yanlılık Türleri, Sample Ratio Mismatch ve Sık Yapılan Hatalar

Açık Kaynak Araç Karşılaştırması: EconML, CausalML, DoWhy, grf

Uplift Değerlendirme Metrikleri: Qini, AUUC ve Uplift Curve

Sektör Vakaları: Pazarlama, Sağlık, Finans ve Operasyon Uygulamaları

Modern Yaklaşımlar: Double ML, Sentetik Kontroller ve Bayesian Causal

SSS (Sıkça Sorulan Sorular)

Causal inference ile makine öğrenmesi arasındaki temel fark nedir?

Uplift modellemesi için ne kadar veri lazımdır?

SUTVA ihlali (network etkisi) olduğunda ne yapmalı?

Causal forest mu DR-learner mı seçmeliyim?

Causal inference için Snowflake/BigQuery hangisi daha iyi?

Sonuç

OmerOnal

Trino vs Apache Drill vs Presto: Federated Query 2026 Karşılaştırması

MySQL 9 Vector Veri Tipi: Sektörün Kayıp Halkası

Yorum (1)

Ömer ÖNAL

Yorum Yap Yanıtı iptal et

İletişim

Kurumsal

Hizmetlerimiz

Our Gallery

Contact Info

Causal Inference ve Uplift Modelleme: Kurumsal A/B 2026

Causal Inference Nedir ve Klasik A/B Testlerden Neden Farklıdır?

Potansiyel Sonuç Çerçevesi, ATE, ITE ve CATE Tanımları

Uplift Modellemesi: T-learner, S-learner, X-learner ve DR-learner

Kurumsal A/B Test Pipeline’ı: Veri Akışı ve Mimari Katmanlar

Yanlılık Türleri, Sample Ratio Mismatch ve Sık Yapılan Hatalar

Açık Kaynak Araç Karşılaştırması: EconML, CausalML, DoWhy, grf

Uplift Değerlendirme Metrikleri: Qini, AUUC ve Uplift Curve

Sektör Vakaları: Pazarlama, Sağlık, Finans ve Operasyon Uygulamaları

Modern Yaklaşımlar: Double ML, Sentetik Kontroller ve Bayesian Causal

SSS (Sıkça Sorulan Sorular)

Causal inference ile makine öğrenmesi arasındaki temel fark nedir?

Uplift modellemesi için ne kadar veri lazımdır?

SUTVA ihlali (network etkisi) olduğunda ne yapmalı?

Causal forest mu DR-learner mı seçmeliyim?

Causal inference için Snowflake/BigQuery hangisi daha iyi?

Sonuç

OmerOnal

Smart Grid Yazilim Cozumleri: Enerji Dijital Donusum 2026

WebRTC Nedir? Mediasoup vs LiveKit Karsilastirmasi 2026

İlgili Yazılar

Trino vs Apache Drill vs Presto: Federated Query 2026 Karşılaştırması

MySQL 9 Vector Veri Tipi: Sektörün Kayıp Halkası

Yorum (1)

Ömer ÖNAL

Yorum Yap Yanıtı iptal et