MIT 2025 Auto Feature Engineering araştırması, deep feature synthesis (DFS) kullanan ekiplerin feature mühendisliği süresini manuel pipeline’a göre %58 azalttığını, model doğruluğunda %3-7 iyileşme sağladığını gösteriyor. ThoughtWorks 2025 Tech Radar’da Featuretools “Trial”, tsfresh zaman-serisi için “Adopt” konumunda.

Feature Engineering Automation 2026: Manuel Pipeline’a Veda

Feature engineering tipik ML projesinin %70 zamanını tüketen aşama; otomasyon bu sürenin yarısını kazandırma potansiyeli taşıyor. Featuretools (relational deep feature synthesis), tsfresh (zaman-serisi feature extraction), AutoFeat ve Boruta_py açık kaynak ekosistemi son 3 yılda olgunlaştı. Gartner 2025 AutoML raporuna göre kurumsal ML ekiplerinin %47’si en az bir auto feature engineering aracı kullanıyor; 2 yıl önce bu oran %19’du. ML pazarında otomasyon trendi geri dönülemez.

Müşterilerimde sık gördüğüm gerçek: Featuretools 200 candidate feature üretiyor, ekip 195’ini eliyor, kalan 5 feature manuel daha hızlı bulunabilirdi. Doğru kullanım: keşif aşamasında geniş feature uzayını taramak için kullanmak; production pipeline’da elenmiş feature’ları manuel inşa etmek. Otomasyon araç, kararı insan vermeli.

Featuretools: Deep Feature Synthesis Mantığı

Featuretools relational dataset’lerden recursively feature türeten Python kütüphanesi. Entity set tanımlanıyor (örn. customers, orders, products tabloları + ilişkileri); DFS algoritması primitive operator’lar (sum, mean, count, std, mode, days_since_last) uygulayarak yeni feature’lar üretiyor. MIT’in 2017’de yayınladığı “Deep Feature Synthesis” makalesi temel; sonradan açık kaynak hale geldi.

Primitive Tipi Örnek Üretilen Feature Tipik Use Case
Aggregate SUM, MEAN, COUNT Müşteri sipariş tutar toplamı Customer 360
Transform YEAR, MONTH, DAY Sipariş ayı/yılı Zaman-bazlı
Cumulative CUMSUM, CUMMAX Kümülatif harcama LTV
Trend TREND, AVG_DIFF Harcama trendi Churn
Composite SUM(MEAN(…)) Recursive aggregate Complex
Feature Engineering Automation 2026: Featuretools ve tsfresh Pattern'leri — Görsel 1
Feature Engineering Automation 2026: Featuretools ve tsfresh Pattern'leri — Görsel 1

tsfresh: Zaman-Serisi için 783 Feature

tsfresh (time series feature extraction based on scalable hypothesis tests) zaman-serisi verilerinden 783+ otomatik feature türeten Python kütüphanesi. Spectral entropy, autocorrelation peak, partial autocorrelation, Fourier coefficients gibi advanced istatistiksel feature’lar manuel yazılması zor olanları otomatize ediyor. IoT, financial time-series, sensor data ve health monitoring use case’lerinde dominant. tsfresh 2025 verilerine göre PyPI’da haftalık 250K+ download.

  • 783+ feature: statistical, frequency domain, complexity measures
  • Statistical hypothesis testing ile feature relevance filtering
  • Parallel processing native (joblib + dask)
  • scikit-learn pipeline ile uyumlu, FeatureUnion’a takılır
  • Endüstriyel sensor + IoT + finans için olgun

Stream processing entegrasyonu için stream processing rehberimize bakabilirsiniz.

Feature Selection: SHAP, Mutual Information, BORUTA

Otomatik feature engineering 200-1000 candidate feature üretiyor; bunların çoğu noise. Feature selection bu noise’u filtreliyor. Üç ana yaklaşım: SHAP value-based (model-agnostic, global+local explanation), mutual information (label ile bilgi paylaşımı), Boruta (shadow feature pattern ile statistical significance). Hangisi doğru? Use case’e bağlı: SHAP geniş kapsamlı + interpretable, mutual information hızlı + model-agnostic, Boruta statistical güvenilir ama yavaş.

Feature Engineering Automation 2026: Featuretools ve tsfresh Pattern'leri — Görsel 2
Feature Engineering Automation 2026: Featuretools ve tsfresh Pattern'leri — Görsel 2

Production Pipeline Hardening: Auto’dan Manuel’e Geçiş

Auto feature engineering keşif için ideal ama production’a doğrudan deploy edilmemeli. Sebep: feature compute süresi yüksek (200 feature × milyon satır), pipeline reproducibility zor (random sampling, hyperparameter), feature drift detection zor (200 feature monitoring overhead). Doğru pattern: keşif aşamasında Featuretools/tsfresh kullan, en önemli 10-20 feature’ı seç, bunları production’da manuel implementasyon (SQL veya Python) ile yazıp dbt/Spark pipeline’a yerleştir. Featuretools resmi dokümantasyonunda bu pattern detaylı.

Aşama Otomasyon Manuel Hibrit
Exploration İdeal Yavaş Otomasyon ağırlıklı
Feature selection SHAP + auto Domain expert Ekip kararı
Production pipeline Risk İdeal Top-N manuel
Monitoring Zor (200 feature) Kolay (10 feature) Manuel
Update freq Otomatik refresh Code review Code review

Sektörel Use Case’ler

Customer 360 ve churn prediction: Featuretools relational DFS ideal. IoT predictive maintenance ve sensor anomaly: tsfresh zaman-serisi feature ları. Fraud detection: hibrit yaklaşım; transactional aggregate (Featuretools) + behavioral time-series (tsfresh). Recommendation engine: embedding + behavioral feature kombinasyonu. Finansal risk: yüksek-regülasyon nedeniyle manuel feature dominant, auto sadece keşif.

Feature Engineering Automation 2026: Featuretools ve tsfresh Pattern'leri — Görsel 3
Feature Engineering Automation 2026: Featuretools ve tsfresh Pattern'leri — Görsel 3

Kurumsal Feature Engineering Otomasyonunda Karşılaşılan Tipik Sorunlar

Danışmanlık projelerinde gözlemlenen tipik darboğazlar:

  • Featuretools/tsfresh production pipeline’a doğrudan deploy ediliyor, compute maliyeti patlıyor
  • 200+ candidate feature üretiliyor ama feature selection adımı atlanıyor, model overfitting
  • SHAP/Boruta gibi selection araçları kullanılmıyor, feature importance bilinmiyor
  • Otomatik feature’ların interpretability’si düşük; business stakeholder’a açıklanamıyor
  • Feature drift detection 200 feature için kurulmuyor, monitoring overhead
  • Domain expert feedback loop’u olmuyor; istatistiksel olarak iyi ama anlamsız feature’lar üretiliyor

Sonuç

Feature engineering otomasyonu 2026’da ML keşif aşamasının standardı; ekip verimini %58 artırıyor. Ancak production pipeline’a otomatik feature’ları doğrudan deploy etmek genelde yanlış strateji. Doğru pattern: Featuretools/tsfresh keşif aşamasında geniş feature uzayını taramak için + SHAP/Boruta ile top-20 feature seçmek + production’da bu feature’ları manuel implementasyon ile yazmak. Bu hibrit yaklaşım hem otomasyon hızını hem production reproducibility’yi sağlıyor. Otomasyon araç, kararı insan vermeli.

Sıkça Sorulan Sorular

Featuretools production’da kullanılabilir mi?

Sınırlı senaryolarda evet. Pipeline her gün batch’te çalışıyorsa ve veri boyutu uygunsa Featuretools production’da yer alabilir. Real-time inference için uygun değil; feature compute süresi 100ms+ olabiliyor. Production için en iyi pattern keşfedilen feature’ları SQL/Spark’a port etmek.

tsfresh ile manuel feature engineering arasında doğruluk farkı ne?

MIT 2025 verisine göre tsfresh model doğruluğunda %3-7 iyileşme sağlıyor (783 feature’dan top-20 seçildiğinde). Manuel domain-expert feature’ları benzer iyileşme sağlayabiliyor ama 5-10 kat fazla zaman alıyor. Hızlı POC için tsfresh, derin domain için manuel ideal.

Feature selection için en güvenilir algoritma ne?

SHAP modern endüstri standardı; model-agnostic, hem global hem local importance veriyor. Boruta statistical olarak daha güvenilir ama yavaş ve büyük feature uzayında impractical. Pratik öneri: ilk pass için SHAP, kritik feature’lar için Boruta confirmation.

Otomatik feature’ların interpretability sorununu nasıl çözmeli?

İki yaklaşım: feature naming convention (örn. “MEAN(orders.amount) by customer_id” anlaşılır), domain expert review (otomatik feature’lar production’a alınmadan önce ekip değerlendirir). İkisi birden uygulanırsa interpretability gap kapanıyor.

Feature engineering otomasyonu hangi ML use case’de avantajlı değil?

Yüksek-regülasyon (banking risk model, healthcare diagnostic) ve explainability zorunlu use case’lerde otomasyon avantajı düşük. Manuel feature engineering bu sektörlerde daha hesap verebilir. NLP ve CV gibi unstructured data’da Featuretools/tsfresh uygulanamıyor; embedding-based feature kullanılıyor.

Ömer ÖNAL

Yazılım Mimarı | Yapay Zeka LLC. Ölçeklenebilir SaaS, .NET Core altyapıları ve Otonom AI süreçleri inşa ediyorum. Kod değil, sistem tasarlarım.

Yorum (1)

  1. Ömer ÖNAL
    Mayıs 23, 2026

    Feature engineering otomasyonu ‘manuel düşünmeden kurtarır’ diye satılıyor, gerçek tam tersi. Müşterilerimde gördüğüm pattern: Featuretools 200 candidate feature üretiyor, ekip 195’ini eliyor, kalan 5 feature manuel daha hızlı bulunabilirdi. Doğru kullanım: keşif aşamasında geniş feature uzayını taramak için kullan, production pipeline’da elenmiş feature’ları manuel inşa et. — Ömer ÖNAL

Yorum Yap

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir