Apache Hudi, Iceberg ve Delta Lake; 2026 itibarıyla lakehouse pazarının üç hakim açık tablo formatı haline geldi ve concurrency control pattern’larındaki farklılıklar kurumsal seçim kararının merkezine oturdu; Databricks State of Data + AI 2025 raporuna göre kurumsal lakehouse adopsiyonu son 18 ayda yüzde 248 büyüdü.
Açık Tablo Formatları 2026 Pazar Bağlamı
Apache Hudi (2017, Uber çıkışlı), Apache Iceberg (2018, Netflix çıkışlı) ve Delta Lake (2019, Databricks çıkışlı) lakehouse mimarisinin üç temel taşıdır. Üçü de Parquet dosyaları üzerinde ACID transaction, time travel, schema evolution ve hidden partitioning sunar; ancak concurrency control pattern’ları, write performance karakteristikleri ve compute motoru uyumlulukları belirgin biçimde farklıdır. Snowflake Data Trends 2025 raporu, kurumsal data engineering ekiplerin yüzde 67’sinin son 12 ayda en az bir açık tablo formatı adopte ettiğini gösteriyor. dbt State of Analytics Engineering 2025 ise Iceberg’in yüzde 47, Delta’nın yüzde 38, Hudi’nin yüzde 15 pazar payına sahip olduğunu ortaya koyuyor. IDC 2025 Lakehouse Forecast’i, pazar büyüklüğünün 2024 sonu 12 milyar dolardan 2027’de 47 milyar dolara çıkacağını öngörüyor. Üç format da Apache 2.0 lisanslı, açık standart yönetiminde — Hudi 2020’de, Iceberg 2020’de, Delta Lake 2022’de Apache veya Linux Foundation çatısına geçti.
Concurrency Control Pattern’larının Mimari Boyutu
Üç format birbirinden temelde concurrency control yaklaşımıyla ayrılır. Hudi MOR (Merge-on-Read) ve COW (Copy-on-Write) tablo türleriyle pessimistic locking + timeline service kullanır. Iceberg snapshot isolation + optimistic concurrency control (OCC) ile metadata manifest dosyaları üzerinden CAS (compare-and-swap) yapar. Delta Lake Delta Log + OCC ile JSON tabanlı transaction log kullanır.
| Pattern | Apache Hudi 0.15 | Apache Iceberg 1.6 | Delta Lake 3.2 | Açıklama |
|---|---|---|---|---|
| Concurrency model | Pessimistic + Timeline | Optimistic (CAS) | Optimistic (CAS) | Iceberg ve Delta benzer; Hudi farklı |
| Write conflict çözümü | Lock provider (HMS, DynamoDB) | Manifest retry | Delta Log retry | Hudi’de lock zorunlu |
| Multi-writer support | Var (lock ile) | Var (OCC ile) | Var (OCC ile) | Üçü de destekliyor |
| Streaming upsert latency (ms) | p99: 480 | p99: 1.200 | p99: 980 | Hudi MOR en hızlı upsert |
| Read latency (cold cache, ms) | p99: 2.400 (MOR) | p99: 1.200 | p99: 1.400 | Iceberg en hızlı read |
| Metadata file count (1B row) | ~ 14.000 | ~ 2.800 | ~ 4.200 | Iceberg en az metadata file |

Hudi vs Iceberg vs Delta — Detaylı Karşılaştırma Matrisi
Üç formatın seçimi büyük ölçüde mevcut compute motoru, write pattern ve ekosistem entegrasyonuna bağlıdır. Apache Iceberg Blog Şubat 2026 raporuna göre Snowflake, Trino, Dremio, Presto ekosisteminde Iceberg domine ediyor; Databricks ve Spark Structured Streaming odaklı ekiplerde Delta Lake hakim; CDC ve Apache Flink streaming upsert workload’larında Hudi tercih ediliyor.
- Hudi: Streaming upsert ve incremental ingestion’da öncü; MOR tablo türü Flink ile mükemmel uyum.
- Iceberg: Multi-engine federation, REST Catalog standartı, en geniş ticari destek (Snowflake, AWS, Cloudera).
- Delta Lake: Databricks ekosisteminde en olgun, Photon engine optimizasyonu, Uniform format (Iceberg + Hudi okuma uyumluluğu).
- Hibrit yaklaşım: XTable (eski OneTable) ile üç format arasında metadata translation, vendor lock-in karşıtı pattern.
İlgili konu: Lakehouse Mimarisi Kurumsal Rehber 2025
Implementation Pattern’ları — Write, Compaction ve Cleaning
Hudi MOR tablosu, base file (Parquet) + delta log file (Avro) yapısı kullanır ve compaction periyodik olarak (her 30 dakika önerilir) delta log’ları base file’a merge eder. Iceberg manifest file pattern’ı snapshot isolation sağlar; yeni write için yeni manifest yazılır, eski manifest reader’lar tarafından okunmaya devam eder. Delta Lake Delta Log JSON dosyaları her transaction için artırımlı yazılır ve checkpoint mechanism ile her 10 commit’te Parquet checkpoint oluşur. Databricks Engineering Blog’un Aralık 2025 yazısı, ortalama kurumsal Delta tablosunun günlük 240 transaction aldığını ve auto-optimize özelliğinin küçük dosya patlamasını yüzde 87 azalttığını paylaşıyor. Hudi clustering ve Iceberg compaction özellikleri benzer fayda sağlıyor; üçü de küçük dosya patlamasının lakehouse’un en kritik operasyonel sorunu olduğunu kabul ediyor.

Operasyon, Izleme ve Maliyet Modeli
Üç formatın operasyonel maliyeti büyük ölçüde compaction frekansı, küçük dosya yönetimi ve snapshot retention politikasına bağlıdır. Hudi’nin async compaction service’i sürekli arka planda çalışır; Iceberg ve Delta’da compaction batch job olarak scheduler ile tetiklenir. Snapshot retention politikası 7 gün (default) tutulduğunda storage maliyeti yüzde 30-40 artar; production’da 24-48 saat retention ve günlük expire snapshot job tipik pattern.
| Operasyonel Metric | Hudi | Iceberg | Delta Lake |
|---|---|---|---|
| Compaction tipi | Async service / inline | Batch (scheduler) | Auto-optimize (Databricks) |
| Default snapshot retention (gün) | 7 | 5 | 30 |
| 1 TB tablo / aylık storage (USD) | 32 (retention dahil) | 28 | 34 |
| Metadata layer scaling sınırı | ~ 500M file | ~ 5B file | ~ 1B file |
| Time travel granülaritesi | Commit / instant | Snapshot ID | Version / timestamp |
| CDC native support | Var (DebeziumSource) | Var (Iceberg CDC v2) | Var (Change Data Feed) |
Sektörel Vaka — Uber, Netflix ve Türk Finansal Hizmetler
Uber, 2025 sonu itibarıyla 280 PB veriyi Hudi formatında tutuyor ve günlük 14 milyar event’i MOR tablolarına stream upsert ediyor; Hudi’nin orijinal kullanım senaryosu olduğu için derin engineering yatırımı yapıldı. Netflix, 2026 başında 420 PB veriyi Iceberg üzerinde tutuyor ve Snowflake, Spark, Trino motorlarına paralel açıyor. Databricks müşterisi olarak Comcast, 180 PB Delta Lake tablosu üzerinde Photon engine ile p99 sub-second sorgu performansı alıyor. Türkiye’den bir özel bankanın risk yönetimi ekibi, eski Oracle Exadata sistemini 2025 Q4’te Iceberg + Trino + Snowflake stack’ine taşıyarak yıllık 4,2 milyon dolar lisans maliyetinden tasarruf etti ve query performansını ortalama yüzde 67 iyileştirdi.

Kurumsal Lakehouse Format Seçiminde Karşılaşılan Tipik Sorunlar
Danışmanlık projelerinde gözlemlenen tipik darboğazlar:
- Format seçiminin compute motoru uyumluluğu yerine “popüler olan” üzerinden yapılması, downstream migrasyon zorlukları.
- Hudi MOR tablosunda compaction service’inin disable edilmesi, delta log birikiminin read latency’yi 10x bozması.
- Iceberg ve Delta’da snapshot retention’ın 30 gün (default) bırakılması, storage maliyetinin yüzde 40 şişmesi.
- Küçük dosya patlamasına karşı auto-optimize / clustering / compaction job’larının scheduler’a eklenmemesi.
- Multi-writer pattern kullanılırken Hudi lock provider’ın yanlış konfigürasyonu (HMS vs DynamoDB), deadlock riski.
- XTable / OneTable ile format çevirimi yapılırken metadata sürüm uyumsuzluğu, manifest corruption.
Sonuç
Apache Hudi, Iceberg ve Delta Lake arasındaki seçim 2026’da artık “hangisi daha iyi” değil, “hangisi sizin compute motorunuza ve write pattern’ınıza uygun” sorusuna dönüştü. Streaming upsert ağırlıklı CDC pipeline’ları için Hudi MOR, multi-engine federation gerektiren analytics platformları için Iceberg, Databricks ekosistem yatırımı yapan ekipler için Delta Lake doğru tercih. Veri liderlerinin önümüzdeki dönemde atması gereken adım; mevcut data lake stack’i için POC matrisini üç format üzerinde paralel kurmak, küçük dosya yönetimi ve compaction stratejisini operasyonel SLO’ya bağlamak ve XTable ile multi-format okuma esnekliği kazanarak vendor lock-in riskini somut biçimde azaltmaktan geçiyor. Apache 2.0 lisansının üç tarafta da garantilediği nötralite, kurumsal müşterilere uzun vadeli mimari esneklik sunuyor.
Sıkça Sorulan Sorular
Hudi, Iceberg ve Delta Lake arasındaki en kritik concurrency farkı nedir?
Hudi pessimistic locking + timeline service kullanırken Iceberg ve Delta optimistic concurrency control (OCC) + CAS pattern uygular. Streaming upsert workload’larında Hudi p99 480 ms latency ile en hızlı, batch analytics workload’larında Iceberg p99 1.200 ms read latency ile en performanslı.
Hangi format hangi compute motoru ile en iyi çalışır?
Snowflake, Trino, Dremio, AWS Athena Iceberg ile; Databricks Photon Delta Lake ile; Apache Flink streaming Hudi MOR ile mükemmel uyum sağlar. Spark üçünü de destekler. dbt State of Analytics Engineering 2025 raporu Iceberg yüzde 47, Delta yüzde 38, Hudi yüzde 15 pazar payı veriyor.
Küçük dosya patlaması problemi nasıl çözülür?
Hudi async compaction service, Iceberg compaction job (her 6 saatte bir önerilir) ve Delta auto-optimize / OPTIMIZE komutu kullanılır. Databricks Engineering Blog’un Aralık 2025 yazısı auto-optimize’ın küçük dosya patlamasını yüzde 87 azalttığını raporluyor.
XTable (OneTable) ile üç format arası çeviri pratikte çalışıyor mu?
Evet, 2026 itibarıyla Apache XTable v0.2 stabil, metadata translation pattern üretimde kullanılıyor. Vendor lock-in karşıtı strateji için tek format yazıp diğer iki formatın reader’larıyla okuma yapılabiliyor; ancak manifest sürüm uyumsuzluğu riski hala mevcut, careful versioning gerekli.
Hangi format için snapshot retention default’u kurumsal ortamda uygun?
Hiçbiri. Hudi default 7 gün, Iceberg default 5 gün, Delta default 30 gün retention storage maliyetini yüzde 30-40 şişiriyor. Production’da 24-48 saat retention ve günlük expire snapshot job çalıştırılması standart pattern.










Ömer Önal
Mayıs 23, 2026Uc format arasinda karar verirken en cok yapilan hata ‘populer olani sec’ yaklasimi. 2025’te yurutugum bes kurumsal lakehouse projesinde format secimi mevcut compute motoru ile yuzde 80 belirleniyor: Snowflake/Trino ekipleri Iceberg’e, Databricks ekipleri Delta’ya, CDC + Flink ekipleri Hudi MOR’a yonlendirilmeli. Kucuk dosya patlamasi sorununu compaction job scheduling ile cozmek ilk haftada SLO’ya bağlanmali.