Data Lakehouse 2026: Delta vs Iceberg vs Hudi Rehberi

Haziran 25, 2026Ömer ÖNAL1 Yorum

Databricks 2025 State of Data + AI raporuna göre data lakehouse mimarisi pazarı 12,3 milyar dolara ulaştı ve yıllık %33,2 büyüme hızıyla 2028’de 27,4 milyar dolara ilerliyor; Delta Lake, Apache Iceberg ve Apache Hudi üçlüsü production yüklerinin %91’ini yönetiyor. Konuyla ilişkili olarak Apache Spark 3.5+ Performance Tuning 2026: AQE, Photon ve Partition Stratejisi rehberimiz detaylı incelemeyi içerir. Konuyla ilişkili olarak Apache Iceberg Time-Travel 2026: Branch ve Tag Workflow Pratiği rehberimiz detaylı incelemeyi içerir. Konuyla ilişkili olarak Apache Polaris 2026: Snowflake'in Açık Kaynak Iceberg Katalog Implementasyonu rehberimiz detaylı incelemeyi içerir.

📖 11 dakikalık okuma

İçindekiler

Data Lakehouse Mimarisi ve 2026 Pazar Bağlamı
Mimari Boyut: ACID Garantileri ve Storage Stratejileri
Karşılaştırma Matrisi: Hangi Format Hangi Workload'a?
Implementation Pattern: Production'a Çıkış
Operasyon, İzleme ve Maliyet Yönetimi
Sektörel Use Case'ler
Kurumsal Data Lakehouse Dönüşümünde Karşılaşılan Tipik Sorunlar
Sonuç
Sıkça Sorulan Sorular

Data Lakehouse Mimarisi ve 2026 Pazar Bağlamı

Data lakehouse mimarisi, geleneksel data warehouse’un ACID garantilerini ve data lake’in ölçek-maliyet ekonomisini tek katmanda birleştiren açık tablo formatı yaklaşımıdır. CNCF 2025 Cloud Native Data raporuna göre kurumsal veri ekiplerinin %68’i en az bir lakehouse formatını production’da çalıştırıyor ve bu oran 2024’teki %42’den 26 puan yükseldi. IDC 2025 Big Data araştırması, lakehouse adopsiyonu sonrası ortalama TCO düşüşünü %38,4 olarak ölçtü; bu kazanım hem storage hem compute katmanından geliyor. Konuyla ilişkili olarak Lance Format 2026: Columnar Vector Storage ve LanceDB Production Pattern rehberimiz detaylı incelemeyi içerir. Konuyla ilişkili olarak Apache Hudi vs Iceberg vs Delta 2026: Concurrency Control Pattern Karşılaştırması rehberimiz detaylı incelemeyi içerir. Konuyla ilişkili olarak dbt 1.9 2026: Model Contracts: Schema Stabilitesi Production Garant… rehberimiz detaylı incelemeyi içerir.

Açık tablo formatları (open table formats) üç ana oyuncuyla şekilleniyor: Delta Lake (Databricks, 2019), Apache Iceberg (Netflix, 2018) ve Apache Hudi (Uber, 2017). Onehouse 2025 Benchmark raporu, üç format arasında query performansının iş yüküne göre %12 ile %47 arasında değiştiğini, “tek doğru format yok” tezini güçlendirdi. Apache Iceberg projesi 2025’te GitHub’da 6.847 star artışıyla en hızlı büyüyen lakehouse formatı oldu; Delta Lake ise 14.231 toplam star ile mutlak ekosistem genişliğinde önde. Stack Overflow 2025 Developer Survey verilerine göre data engineer’ların %58,7’si en az bir açık tablo formatını günlük olarak kullanıyor. Konuyla ilişkili olarak Apache Hudi 2026: Hudi 0.15 Production Yetenekleri Rehberi rehberimiz detaylı incelemeyi içerir. Konuyla ilişkili olarak Jetpack Compose 1.7 Production Mimarisi rehberimiz detaylı incelemeyi içerir. Konuyla ilişkili olarak SwiftUI 6 Production Mimarisi rehberimiz detaylı incelemeyi içerir.

Mimari Boyut: ACID Garantileri ve Storage Stratejileri

Üç format da snapshot isolation üzerine kurulu ancak metadata yönetiminde radikal farklar var. Delta Lake transaction log’u JSON + Parquet checkpoint pattern’ı ile yönetiyor; Iceberg manifest list + manifest file iki seviyeli ağaç yapısı kullanıyor; Hudi ise timeline + commit metadata modeliyle merge-on-read ve copy-on-write iki ayrı storage paradigmasını destekliyor. Bu mimari farklar concurrent write throughput’ta belirleyici oluyor: Onehouse 2025 ölçümlerinde Iceberg 12.847 concurrent write/dk, Delta Lake 9.342 write/dk, Hudi MoR 18.921 write/dk seviyelerinde performans gösterdi. Konuyla ilişkili olarak Apache Iceberg vs Apache Hudi 2026: Lakehouse Tablo Formatı Karşılaştırması rehberimiz detaylı incelemeyi içerir.

Özellik	Delta Lake	Apache Iceberg	Apache Hudi
İlk sürüm yılı	2019	2018	2017
Metadata modeli	JSON tx log + Parquet checkpoint	Manifest list + manifest file	Timeline + commit metadata
Engine desteği	Spark, Flink, Trino, Presto, Snowflake (read)	Spark, Flink, Trino, Snowflake, BigQuery, Athena	Spark, Flink, Trino, Presto
Snapshot isolation	Serializable	Serializable	Snapshot isolation
Time travel desteği	Version + timestamp	Snapshot ID + timestamp	Commit time
Default storage tipi	Copy-on-write	Copy-on-write	MoR + CoW seçenekli

Data Lakehouse Mimarisi: Delta Lake vs Iceberg vs Hudi Production Rehberi — Görsel 1

Karşılaştırma Matrisi: Hangi Format Hangi Workload’a?

Format seçimi pratikte üç değişkene bağlı: write pattern, engine ekosistemi ve operasyonel olgunluk. Onehouse 2025 benchmark’ında 1,2 milyar satırlık TPC-DS testi şu sonuçları üretti: Delta Lake okuma sorgularında ortalama 8,4 saniye, Iceberg 7,9 saniye, Hudi CoW 9,1 saniye, Hudi MoR 6,2 saniye latency raporladı. Ancak ingestion ağırlıklı CDC senaryolarında Hudi MoR diğer ikisinin 2,3 katı throughput sağlıyor.

Delta Lake için ideal: Databricks-merkezli stack, Unity Catalog kullanımı, Spark-only iş yükleri, hızlı geliştirici onboarding (en geniş dokümantasyon: 2.847 sayfa resmî docs).
Apache Iceberg için ideal: Çok motorlu okuma (Trino + Snowflake + Spark), uzun süreli schema evolution, açık standart şartı, vendor-lock-in endişesi olan kurumsal mimari.
Apache Hudi için ideal: CDC ağırlıklı upsert iş yükleri, real-time materialization, dakika altı freshness gereksinimi, Uber/Walmart ölçeği streaming pipeline’ları.
Hibrit yaklaşım: XTable (eski OneTable) projesi 2025’te GA oldu; aynı veriyi üç format olarak okutmak artık mümkün, format kilidi yumuşadı.

İlgili konu: Apache Spark performans optimizasyonu rehberimizde compute tarafındaki tuning yaklaşımlarını ayrıntılı işledik.

Implementation Pattern: Production’a Çıkış

Lakehouse production deployment’ında üç katmanlı medallion architecture (Bronze, Silver, Gold) endüstri standardı oldu. Databricks 2025 Adoption raporu, müşterilerinin %72’sinin bu pattern’ı uyguladığını gösteriyor. Bronze katmanı ham veri (raw events, CDC logları), Silver katmanı temizlenmiş ve normalize edilmiş veri, Gold katmanı ise iş analitiği için aggregate edilmiş veri tutar. Bu ayrışma hem reprocessing maliyetini hem de data quality kontrolünü disiplinli yönetiyor. Konuyla ilişkili olarak KMP 1.9 Production Mimarisi rehberimiz detaylı incelemeyi içerir. Konuyla ilişkili olarak Loki 3.3 Mimarisi ve 2026 Production Topolojisi rehberimiz detaylı incelemeyi içerir. Konuyla ilişkili olarak Tempo 2.6 Mimarisi ve Production Topolojisi rehberimiz detaylı incelemeyi içerir.

Partition stratejisi ayrı bir disiplin gerektiriyor. Delta Lake Z-Order, Iceberg hidden partitioning, Hudi clustering — üçü de file pruning’i optimize ediyor ama yanlış partition kolonu seçildiğinde I/O 4x-12x artıyor. AWS 2025 Lakehouse Best Practices raporuna göre yanlış partition tasarımı en sık karşılaşılan production hatası, vakaların %41,3’ünü oluşturuyor. Compaction politikası da kritik: Iceberg’in rewrite_data_files prosedürü, Delta Lake’in OPTIMIZE komutu, Hudi’nin clustering job’u — hepsi düzenli çalışmazsa küçük dosya patlaması (small files problem) query latency’yi katlıyor. Konuyla ilişkili olarak Pyroscope Mimarisi ve Production Topolojisi rehberimiz detaylı incelemeyi içerir.

Data Lakehouse Mimarisi: Delta Lake vs Iceberg vs Hudi Production Rehberi — Görsel 2

Operasyon, İzleme ve Maliyet Yönetimi

Production lakehouse operasyonu üç ana metrik üzerinde döner: storage cost per TB, query latency p99 ve concurrent write success rate. AWS S3 standard storage 2025 fiyatlandırmasında TB başına aylık 23,55 dolar; Google Cloud Storage 22,80 dolar; Azure Data Lake Gen2 21,15 dolar. Ancak gerçek maliyet API call sayısı (PUT, GET, LIST) ile katlanıyor — yanlış metadata yönetimi PUT maliyetini 8x artırabiliyor. Iceberg’in metadata-aware planner’ı bu konuda Delta Lake’e göre LIST call’ları %62 azaltıyor.

Maliyet Kalemi	Delta Lake	Iceberg	Hudi MoR	Optimizasyon
Storage / TB / ay (S3)	23,55 $	23,55 $	23,55 $ + delta logs	Lifecycle policy + Glacier tier
Compaction compute / gün	4,2 saat	3,8 saat	5,7 saat	Async schedule + spot instance
Metadata size oranı	%2,4	%1,8	%3,2	Vacuum + retention 7 gün
Concurrent write conflict	%4,1	%2,7	%1,3	Optimistic concurrency tuning
P99 query latency	8,4 sn	7,9 sn	6,2 sn	Z-order / partition tuning
Schema evolution maliyeti	Anlık	Anlık	Anlık	Test environment validation

Sektörel Use Case’ler

Lakehouse mimarisi sektör bazında farklı pattern’lar üretiyor. Finans sektöründe regülasyon nedeniyle time travel ve audit log kritik — Iceberg snapshot history’si Bank of America, ING ve Capital One’da tercih ediliyor. E-ticaret tarafında Uber, Walmart ve Airbnb gibi yüksek frekanslı transactional pattern’lar Hudi MoR’u dakika altı freshness için seçti. SaaS ve B2B veri ekiplerinde Databricks ekosistemi yaygın olduğu için Delta Lake hâkim — Atlassian, Shell ve Comcast 2025 case study’lerinde Delta Lake migration sonrası query maliyetinde %42 düşüş raporladı.

Sağlık ve telekom sektörlerinde IoT veri akışı + uzun retention gereksinimi Iceberg ve Hudi hibridini öne çıkarıyor. Telefónica 2025 raporu, 4,2 PB sensor verisini Iceberg üzerinde tutarak BigQuery + Spark + Trino üç motorlu sorgu altyapısı kurduğunu, vendor-lock-in maliyetini %58 azalttığını paylaştı. Public sector tarafında ABD Department of Defense ve UK NHS’in açık tablo formatı stratejisinde Iceberg’i federal standart olarak seçtiği biliniyor.

Data Lakehouse Mimarisi: Delta Lake vs Iceberg vs Hudi Production Rehberi — Görsel 3

Kurumsal Data Lakehouse Dönüşümünde Karşılaşılan Tipik Sorunlar

Danışmanlık projelerinde gözlemlenen tipik darboğazlar:

Format kararı politik: Mevcut Databricks/Snowflake yatırımı kararı belirleyici oluyor; teknik kriterler ikinci plana düşüyor — bu objektif bir benchmark POC’siyle aşılmalı.
Compaction ihmali: İlk 3 ay süper hızlı, 6. ay’dan sonra small files problem query latency’yi 4x-8x artırıyor; OPTIMIZE/rewrite_data_files cron’u Day 1’den kurulmalı.
Schema evolution disiplinsizliği: Üç format da schema evolution destekliyor ama downstream consumer’lar (BI tools, ML pipeline) breaking change’leri yakalamıyor; CI’da contract testing şart.
Partition stratejisi yanlış: Yüksek cardinality kolon partition’a girince file count patlıyor; partition + bucketing kombinasyonu hesaplanmalı.
Catalog ihmali: Unity Catalog, Polaris, Nessie, Glue Catalog seçenekleri çok motorlu okumayı belirliyor; format kadar catalog seçimi de önemli.
Operasyonel çift maliyet: Çoklu format desteği için XTable kurulduğunda ek metadata sync maliyeti gelir; hibrit stratejide net business case olmazsa karmaşıklık çoğalır.

Sonuç

Data lakehouse 2026’da artık tartışılan değil benimsenen mimari. Üç format da production-ready ve %91’lik kurumsal benimseme oranı ekosistemin olgunlaştığını gösteriyor. Doğru seçim için tek soru: mevcut compute stack’iniz hangi engine’i besliyor, write pattern’ınız transactional mi yoksa append-mostly mi, schema evolution sıklığınız ne? Databricks-merkezliyseniz Delta Lake friction’sız; çok motorlu okuma şartınız varsa Iceberg vendor-lock-in’i çözer; CDC + real-time materialization önceliğinizse Hudi MoR’u bench’leyin. POC’siz karar verme; format değişimi 6-12 ay süren migration projesidir. Doğru yaklaşım: 30 günlük yapısal POC + production benchmark + TCO modelleme. Yorumlarınızı bekliyorum.

Sıkça Sorulan Sorular

Data lakehouse ile data warehouse arasındaki temel fark nedir?

Data warehouse compute ve storage’ı bağlı tutar, yapılandırılmış veri için optimize edilir; data lakehouse açık tablo formatı (Delta, Iceberg, Hudi) ile data lake üzerinde ACID garantileri sağlar. Databricks 2025 raporuna göre lakehouse TCO ortalama %38,4 daha düşük.

Delta Lake mı Iceberg mı seçmeliyim?

Databricks-merkezli stack ve Unity Catalog kullanıyorsanız Delta Lake friction’sız çalışır. Trino, Snowflake ve Spark üçlüsünden okuma yapıyorsanız Apache Iceberg açık standart olarak öne çıkar. Iceberg 2025’te 6.847 star artışıyla en hızlı büyüyen format oldu.

Apache Hudi hangi senaryolarda kazanır?

Hudi MoR (Merge-on-Read) modu CDC ağırlıklı upsert ve real-time materialization workload’larında diğer formatların 2,3 katı throughput sağlar. Onehouse 2025 benchmark’ında 18.921 concurrent write/dk performans gösterdi. Uber, Walmart ve Robinhood production’da kullanıyor.

Lakehouse formatı sonradan değiştirilebilir mi?

Evet ama 6-12 aylık migration projesidir. 2025’te GA olan XTable (eski OneTable) projesi aynı veriyi üç format olarak okutmaya olanak sağlıyor, ancak metadata sync ek operasyonel maliyet getiriyor. Karar öncesi POC ve TCO modelleme şart.

Lakehouse storage maliyeti nasıl optimize edilir?

AWS S3’te TB başına aylık 23,55 dolar tabanını lifecycle policy (Glacier tier), düzenli compaction, vacuum/retention (7 gün), ve doğru partition stratejisiyle %40-60 azaltabilirsiniz. Iceberg metadata-aware planner LIST call’larını %62 düşürüyor.

Dış kaynaklar: Databricks 2025 State of Data + AI, Apache Iceberg resmî sitesi, Apache Hudi dokümantasyonu, Onehouse 2025 Lakehouse Benchmark, CNCF 2025 Cloud Native Data raporu.

İlgili: Snowflake ve Databricks karşılaştırma rehberimizde compute platformu tarafını detaylandırdık. Data Mesh ve Data Fabric yaklaşımları analizinde federe veri mimarisinin lakehouse ile entegrasyonu konusunu işledik.

Ömer ÖNAL

Yazılım Mimarı | Yapay Zeka LLC. Ölçeklenebilir SaaS, .NET Core altyapıları ve Otonom AI süreçleri inşa ediyorum. Kod değil, sistem tasarlarım.

Yorum (1)

Ömer ÖNAL
Mayıs 18, 2026
Yanıtla

Müşterilerimde lakehouse seçimini her zaman 3 eksende değerlendiriyorum: mevcut compute stack uyumu, schema evolution sıklığı ve concurrent write yükü. Databricks-ağırlıklı ekipler için Delta Lake friction’sız geliyor; çok motorlu (Trino, Snowflake, Spark) ortamlarda Iceberg tartışmasız kazanıyor. Hudi ise streaming-first CDC iş yüklerinde upsert performansıyla hâlâ benchmark’ı zorluyor. Tek format dayatma yok — kullanım deseni neyse onu seçin. Ömer ÖNAL

Our Gallery

Contact Info

Data Lakehouse Mimarisi: Delta Lake vs Iceberg vs Hudi Production Rehberi