Apache Hudi, Iceberg ve Delta Lake; 2026 itibarıyla lakehouse pazarının üç hakim açık tablo formatı haline geldi ve concurrency control pattern’larındaki farklılıklar kurumsal seçim kararının merkezine oturdu; Databricks State of Data + AI 2025 raporuna göre kurumsal lakehouse adopsiyonu son 18 ayda yüzde 248 büyüdü.

Açık Tablo Formatları 2026 Pazar Bağlamı

Apache Hudi (2017, Uber çıkışlı), Apache Iceberg (2018, Netflix çıkışlı) ve Delta Lake (2019, Databricks çıkışlı) lakehouse mimarisinin üç temel taşıdır. Üçü de Parquet dosyaları üzerinde ACID transaction, time travel, schema evolution ve hidden partitioning sunar; ancak concurrency control pattern’ları, write performance karakteristikleri ve compute motoru uyumlulukları belirgin biçimde farklıdır. Snowflake Data Trends 2025 raporu, kurumsal data engineering ekiplerin yüzde 67’sinin son 12 ayda en az bir açık tablo formatı adopte ettiğini gösteriyor. dbt State of Analytics Engineering 2025 ise Iceberg’in yüzde 47, Delta’nın yüzde 38, Hudi’nin yüzde 15 pazar payına sahip olduğunu ortaya koyuyor. IDC 2025 Lakehouse Forecast’i, pazar büyüklüğünün 2024 sonu 12 milyar dolardan 2027’de 47 milyar dolara çıkacağını öngörüyor. Üç format da Apache 2.0 lisanslı, açık standart yönetiminde — Hudi 2020’de, Iceberg 2020’de, Delta Lake 2022’de Apache veya Linux Foundation çatısına geçti.

Concurrency Control Pattern’larının Mimari Boyutu

Üç format birbirinden temelde concurrency control yaklaşımıyla ayrılır. Hudi MOR (Merge-on-Read) ve COW (Copy-on-Write) tablo türleriyle pessimistic locking + timeline service kullanır. Iceberg snapshot isolation + optimistic concurrency control (OCC) ile metadata manifest dosyaları üzerinden CAS (compare-and-swap) yapar. Delta Lake Delta Log + OCC ile JSON tabanlı transaction log kullanır.

Pattern Apache Hudi 0.15 Apache Iceberg 1.6 Delta Lake 3.2 Açıklama
Concurrency model Pessimistic + Timeline Optimistic (CAS) Optimistic (CAS) Iceberg ve Delta benzer; Hudi farklı
Write conflict çözümü Lock provider (HMS, DynamoDB) Manifest retry Delta Log retry Hudi’de lock zorunlu
Multi-writer support Var (lock ile) Var (OCC ile) Var (OCC ile) Üçü de destekliyor
Streaming upsert latency (ms) p99: 480 p99: 1.200 p99: 980 Hudi MOR en hızlı upsert
Read latency (cold cache, ms) p99: 2.400 (MOR) p99: 1.200 p99: 1.400 Iceberg en hızlı read
Metadata file count (1B row) ~ 14.000 ~ 2.800 ~ 4.200 Iceberg en az metadata file
Apache Hudi vs Iceberg vs Delta 2026: Concurrency Control Pattern Karsilastirmasi - görsel 1
Apache Hudi vs Iceberg vs Delta 2026: Concurrency Control Pattern Karsilastirmasi - görsel 1

Hudi vs Iceberg vs Delta — Detaylı Karşılaştırma Matrisi

Üç formatın seçimi büyük ölçüde mevcut compute motoru, write pattern ve ekosistem entegrasyonuna bağlıdır. Apache Iceberg Blog Şubat 2026 raporuna göre Snowflake, Trino, Dremio, Presto ekosisteminde Iceberg domine ediyor; Databricks ve Spark Structured Streaming odaklı ekiplerde Delta Lake hakim; CDC ve Apache Flink streaming upsert workload’larında Hudi tercih ediliyor.

  • Hudi: Streaming upsert ve incremental ingestion’da öncü; MOR tablo türü Flink ile mükemmel uyum.
  • Iceberg: Multi-engine federation, REST Catalog standartı, en geniş ticari destek (Snowflake, AWS, Cloudera).
  • Delta Lake: Databricks ekosisteminde en olgun, Photon engine optimizasyonu, Uniform format (Iceberg + Hudi okuma uyumluluğu).
  • Hibrit yaklaşım: XTable (eski OneTable) ile üç format arasında metadata translation, vendor lock-in karşıtı pattern.

İlgili konu: Lakehouse Mimarisi Kurumsal Rehber 2025

Implementation Pattern’ları — Write, Compaction ve Cleaning

Hudi MOR tablosu, base file (Parquet) + delta log file (Avro) yapısı kullanır ve compaction periyodik olarak (her 30 dakika önerilir) delta log’ları base file’a merge eder. Iceberg manifest file pattern’ı snapshot isolation sağlar; yeni write için yeni manifest yazılır, eski manifest reader’lar tarafından okunmaya devam eder. Delta Lake Delta Log JSON dosyaları her transaction için artırımlı yazılır ve checkpoint mechanism ile her 10 commit’te Parquet checkpoint oluşur. Databricks Engineering Blog’un Aralık 2025 yazısı, ortalama kurumsal Delta tablosunun günlük 240 transaction aldığını ve auto-optimize özelliğinin küçük dosya patlamasını yüzde 87 azalttığını paylaşıyor. Hudi clustering ve Iceberg compaction özellikleri benzer fayda sağlıyor; üçü de küçük dosya patlamasının lakehouse’un en kritik operasyonel sorunu olduğunu kabul ediyor.

Apache Hudi vs Iceberg vs Delta 2026: Concurrency Control Pattern Karsilastirmasi - görsel 2
Apache Hudi vs Iceberg vs Delta 2026: Concurrency Control Pattern Karsilastirmasi - görsel 2

Operasyon, Izleme ve Maliyet Modeli

Üç formatın operasyonel maliyeti büyük ölçüde compaction frekansı, küçük dosya yönetimi ve snapshot retention politikasına bağlıdır. Hudi’nin async compaction service’i sürekli arka planda çalışır; Iceberg ve Delta’da compaction batch job olarak scheduler ile tetiklenir. Snapshot retention politikası 7 gün (default) tutulduğunda storage maliyeti yüzde 30-40 artar; production’da 24-48 saat retention ve günlük expire snapshot job tipik pattern.

Operasyonel Metric Hudi Iceberg Delta Lake
Compaction tipi Async service / inline Batch (scheduler) Auto-optimize (Databricks)
Default snapshot retention (gün) 7 5 30
1 TB tablo / aylık storage (USD) 32 (retention dahil) 28 34
Metadata layer scaling sınırı ~ 500M file ~ 5B file ~ 1B file
Time travel granülaritesi Commit / instant Snapshot ID Version / timestamp
CDC native support Var (DebeziumSource) Var (Iceberg CDC v2) Var (Change Data Feed)

Sektörel Vaka — Uber, Netflix ve Türk Finansal Hizmetler

Uber, 2025 sonu itibarıyla 280 PB veriyi Hudi formatında tutuyor ve günlük 14 milyar event’i MOR tablolarına stream upsert ediyor; Hudi’nin orijinal kullanım senaryosu olduğu için derin engineering yatırımı yapıldı. Netflix, 2026 başında 420 PB veriyi Iceberg üzerinde tutuyor ve Snowflake, Spark, Trino motorlarına paralel açıyor. Databricks müşterisi olarak Comcast, 180 PB Delta Lake tablosu üzerinde Photon engine ile p99 sub-second sorgu performansı alıyor. Türkiye’den bir özel bankanın risk yönetimi ekibi, eski Oracle Exadata sistemini 2025 Q4’te Iceberg + Trino + Snowflake stack’ine taşıyarak yıllık 4,2 milyon dolar lisans maliyetinden tasarruf etti ve query performansını ortalama yüzde 67 iyileştirdi.

Apache Hudi vs Iceberg vs Delta 2026: Concurrency Control Pattern Karsilastirmasi - görsel 3
Apache Hudi vs Iceberg vs Delta 2026: Concurrency Control Pattern Karsilastirmasi - görsel 3

Kurumsal Lakehouse Format Seçiminde Karşılaşılan Tipik Sorunlar

Danışmanlık projelerinde gözlemlenen tipik darboğazlar:

  • Format seçiminin compute motoru uyumluluğu yerine “popüler olan” üzerinden yapılması, downstream migrasyon zorlukları.
  • Hudi MOR tablosunda compaction service’inin disable edilmesi, delta log birikiminin read latency’yi 10x bozması.
  • Iceberg ve Delta’da snapshot retention’ın 30 gün (default) bırakılması, storage maliyetinin yüzde 40 şişmesi.
  • Küçük dosya patlamasına karşı auto-optimize / clustering / compaction job’larının scheduler’a eklenmemesi.
  • Multi-writer pattern kullanılırken Hudi lock provider’ın yanlış konfigürasyonu (HMS vs DynamoDB), deadlock riski.
  • XTable / OneTable ile format çevirimi yapılırken metadata sürüm uyumsuzluğu, manifest corruption.

Sonuç

Apache Hudi, Iceberg ve Delta Lake arasındaki seçim 2026’da artık “hangisi daha iyi” değil, “hangisi sizin compute motorunuza ve write pattern’ınıza uygun” sorusuna dönüştü. Streaming upsert ağırlıklı CDC pipeline’ları için Hudi MOR, multi-engine federation gerektiren analytics platformları için Iceberg, Databricks ekosistem yatırımı yapan ekipler için Delta Lake doğru tercih. Veri liderlerinin önümüzdeki dönemde atması gereken adım; mevcut data lake stack’i için POC matrisini üç format üzerinde paralel kurmak, küçük dosya yönetimi ve compaction stratejisini operasyonel SLO’ya bağlamak ve XTable ile multi-format okuma esnekliği kazanarak vendor lock-in riskini somut biçimde azaltmaktan geçiyor. Apache 2.0 lisansının üç tarafta da garantilediği nötralite, kurumsal müşterilere uzun vadeli mimari esneklik sunuyor.

Sıkça Sorulan Sorular

Hudi, Iceberg ve Delta Lake arasındaki en kritik concurrency farkı nedir?

Hudi pessimistic locking + timeline service kullanırken Iceberg ve Delta optimistic concurrency control (OCC) + CAS pattern uygular. Streaming upsert workload’larında Hudi p99 480 ms latency ile en hızlı, batch analytics workload’larında Iceberg p99 1.200 ms read latency ile en performanslı.

Hangi format hangi compute motoru ile en iyi çalışır?

Snowflake, Trino, Dremio, AWS Athena Iceberg ile; Databricks Photon Delta Lake ile; Apache Flink streaming Hudi MOR ile mükemmel uyum sağlar. Spark üçünü de destekler. dbt State of Analytics Engineering 2025 raporu Iceberg yüzde 47, Delta yüzde 38, Hudi yüzde 15 pazar payı veriyor.

Küçük dosya patlaması problemi nasıl çözülür?

Hudi async compaction service, Iceberg compaction job (her 6 saatte bir önerilir) ve Delta auto-optimize / OPTIMIZE komutu kullanılır. Databricks Engineering Blog’un Aralık 2025 yazısı auto-optimize’ın küçük dosya patlamasını yüzde 87 azalttığını raporluyor.

XTable (OneTable) ile üç format arası çeviri pratikte çalışıyor mu?

Evet, 2026 itibarıyla Apache XTable v0.2 stabil, metadata translation pattern üretimde kullanılıyor. Vendor lock-in karşıtı strateji için tek format yazıp diğer iki formatın reader’larıyla okuma yapılabiliyor; ancak manifest sürüm uyumsuzluğu riski hala mevcut, careful versioning gerekli.

Hangi format için snapshot retention default’u kurumsal ortamda uygun?

Hiçbiri. Hudi default 7 gün, Iceberg default 5 gün, Delta default 30 gün retention storage maliyetini yüzde 30-40 şişiriyor. Production’da 24-48 saat retention ve günlük expire snapshot job çalıştırılması standart pattern.

Ömer ÖNAL

Yazılım Mimarı | Yapay Zeka LLC. Ölçeklenebilir SaaS, .NET Core altyapıları ve Otonom AI süreçleri inşa ediyorum. Kod değil, sistem tasarlarım.

Yorum (1)

  1. Ömer Önal
    Mayıs 23, 2026

    Uc format arasinda karar verirken en cok yapilan hata ‘populer olani sec’ yaklasimi. 2025’te yurutugum bes kurumsal lakehouse projesinde format secimi mevcut compute motoru ile yuzde 80 belirleniyor: Snowflake/Trino ekipleri Iceberg’e, Databricks ekipleri Delta’ya, CDC + Flink ekipleri Hudi MOR’a yonlendirilmeli. Kucuk dosya patlamasi sorununu compaction job scheduling ile cozmek ilk haftada SLO’ya bağlanmali.

Yorum Yap

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir