Databricks Data+AI Summit 2025’te açıklanan rakamlara göre Unity Catalog üzerinde yönetilen Iceberg tablolarının sayısı yıllık %340 büyüdü; Snowflake’in 2025 Q3 sonuçlarına göre Iceberg tablolarını sorgulayan müşteri oranı %71’e ulaştı. AWS S3 Tables ile Apache Iceberg artık birinci sınıf storage primitive haline geldi, Microsoft Fabric OneLake aynı temel üzerinde inşa edildi ve Confluent Tableflow ile Kafka topic’leri doğrudan Iceberg tablosu olarak yayınlanmaya başlandı. Data Lakehouse 2026’da bir mimari trend olmaktan çıkıp, kurumsal veri platformunun varsayılan şablonu haline geldi. Bu rehberde Databricks, Snowflake ve açık Iceberg ekosisteminin teknik temellerini, fiyat dinamiklerini, ACID modellerini, time travel uygulamalarını ve workload bazlı seçim kriterlerini ele alıyoruz.

Data Lakehouse Mimarisi: Lake ve Warehouse Birleşmesinin Anatomisi
Data Lakehouse, klasik data warehouse‘un ACID garantileri, governance ve SQL performansını; data lake‘in ucuz object storage, açık format ve yapılandırılmamış veri esnekliğiyle birleştiren mimaridir. Üç katmanlı yapıdan oluşur: en altta storage (S3, ADLS Gen2, GCS), ortada open table format (Iceberg, Delta, Hudi) ve en üstte birden fazla compute engine (Spark, Trino, Flink, Snowflake, DuckDB). Bu ayrım sayesinde compute ve storage bağımsız ölçeklenir, vendor lock-in azalır ve aynı veri seti hem BI hem ML hem streaming yükleri için tek kopya olarak kullanılır.
2026 itibarıyla lakehouse modelini olgunlaştıran üç teknik unsur şudur: metadata layer‘ın object storage üzerine taşınması, commit protokolünün atomic snapshot model üzerine kurulması ve catalog interoperability sayesinde aynı tabloya farklı engine’lerin REST API ile erişebilmesi. Unity Catalog, Apache Polaris, AWS Glue ve Snowflake Open Catalog’un tümü Iceberg REST Catalog spec’ini benimseyince, tabloların hangi engine ile sorgulanacağına runtime’da karar verilebilir hale geldi.
| Boyut | Data Warehouse | Data Lake | Data Lakehouse |
|---|---|---|---|
| Storage | Proprietary kolon formatı | Object storage (raw) | Object storage + open table format |
| Şema yönetimi | Schema-on-write katı | Schema-on-read serbest | Schema-on-write + evolution |
| ACID transactions | Tam destek | Yok | Tam destek (Iceberg, Delta, Hudi) |
| Yapılandırılmamış veri | Sınırlı | Tam destek | Tam destek |
| BI sorgu performansı | Çok yüksek | Düşük-orta | Yüksek (vectorized engine) |
| ML/AI iş yükleri | Zayıf | İyi | Mükemmel (Spark/Ray native) |
| Compute-storage ayrımı | Çoğunlukla bağlı | Ayrı | Ayrı + multi-engine |
| Maliyet (TB/ay) | ~80-200 USD | ~23-30 USD | ~35-65 USD |
| Tipik vendor lock-in | Yüksek | Düşük | Format seçimine bağlı |
Açık Tablo Formatları: Iceberg, Delta Lake ve Hudi Karşılaştırması
Lakehouse’ın kalbi açık tablo formatlarıdır. Apache Iceberg, Netflix’in 2018’de açtığı, ASF top-level olan ve 2025 itibarıyla AWS S3 Tables ile Snowflake Open Catalog dahil tüm büyük vendor’larca desteklenen vendor-neutral format. Delta Lake, Databricks geliştirimi, Linux Foundation altında, Photon ile en yüksek scan performansını veren format. Apache Hudi, Uber’in incremental ingestion için geliştirdiği, copy-on-write ve merge-on-read tablo tiplerini ilk tanıtan format. Üçü de ACID, time travel, schema evolution ve hidden partitioning sunar; metadata modelleri, commit protokolü ve ekosistem desteği bakımından farklılaşır.
| Özellik | Apache Iceberg | Delta Lake | Apache Hudi |
|---|---|---|---|
| Geliştiren | Netflix, ASF top-level | Databricks, Linux Foundation | Uber, ASF top-level |
| Metadata modeli | Manifest + manifest list | JSON transaction log + checkpoint | Timeline + commit metadata |
| Commit protokolü | Atomic snapshot swap | Optimistic concurrency | Concurrent writers + MVCC |
| Schema evolution | Add/drop/rename/reorder | Add/drop/rename | Add/drop/rename |
| Hidden partitioning | Var (transform-based) | Yok (generated columns ile) | Sınırlı |
| Tablo tipleri | Tek tip (snapshot) | Tek tip + CDF | CoW ve MoR |
| Multi-engine desteği | Spark, Trino, Flink, Snowflake, BigQuery, DuckDB | Spark, Trino, Flink (sınırlı) | Spark, Flink, Presto |
| 2025 yıllık benimseme büyümesi | %340 | %85 | %42 |
| Time travel granularity | Snapshot ID + timestamp | Version + timestamp | Instant time |
| REST Catalog spec | Native | Unity Catalog ile | Yok |

2025’te Databricks’in Tabular akuizisyonu (1 milyar USD üzeri) ile Delta ve Iceberg’in yakınsama yol haritası açıklandı: Delta Lake UniForm zaten Delta tablolarını Iceberg metadata olarak sunabiliyor. Snowflake tarafında Polaris Catalog açık kaynak yayınlandı ve Iceberg REST Catalog spec’i ile interoperable çalışıyor.
ACID Transactions ve Optimistic Concurrency Mekanizması
Lakehouse’ın klasik data lake’ten en kritik farkı ACID transaction garantileridir. Object storage’ın eventual consistency ve append-only doğasına rağmen, Iceberg ve Delta Lake atomic snapshot model ile transactional davranış sağlar. Yazıcı yeni dosyaları storage’a yükler, sonra metadata’ya atomic swap ile referans ekler; okuyucu her seferinde tek bir snapshot’a karşı sorgu çalıştırır ve eski snapshot’lar retention süresi boyunca okunabilir kalır.
- Atomicity: Bir commit ya tüm dosyaları metadata’ya ekler ya da hiçbirini; partial write yoktur. Iceberg’de manifest list swap, Delta’da transaction log’a yeni JSON kaydı bunu sağlar.
- Consistency: Schema validation commit anında yapılır; uyumsuz kayıt eklenmeye çalışılırsa commit reddedilir.
- Isolation: Snapshot isolation seviyesinde çalışılır; okuyucu açtığı snapshot’ı gördüğü gibi kalır, paralel yazıcıların etkisi sonradan görülür.
- Durability: Object storage’ın 99,999999999% durability’si (S3 standart) sayesinde commit edilen veri kalıcıdır; metadata da aynı bucket’ta saklanır.
- Optimistic concurrency: Conflict varsa yeni gelen commit reddedilir ve writer retry yapar; bu nedenle long-running write işlemlerinde merge conflict riski artar.
| ACID Özelliği | Iceberg Uygulaması | Delta Lake Uygulaması | Hudi Uygulaması |
|---|---|---|---|
| Atomic commit | Manifest list swap (catalog) | _delta_log JSON append | .hoodie commit dosyası |
| Snapshot isolation | Snapshot ID seviyesinde | Version seviyesinde | Instant time seviyesinde |
| Conflict detection | Catalog OCC check | Transaction log replay | Timeline check |
| Conflict resolution | Retry + rewrite | Retry + rewrite | Merge yazıcısı otomatik çözer |
| MERGE INTO desteği | v2 row-level deletes | Native MERGE | Native upsert (PK gerekli) |
| Tipik commit latency | 200-500 ms | 150-400 ms | 300-700 ms |
| Concurrent writer ölçeği | 10-20 | 10-20 | 50+ (MoR mode) |
Time Travel ve Schema Evolution: Veri Geçmişine Pencere
Time travel, lakehouse’un öne çıkan üretim özelliklerindendir. Snapshot bazlı metadata sayesinde bir tablonun geçmiş bir saniyedeki hali sorgulanabilir; audit, rollback, A/B karşılaştırma ve ML reproducibility senaryolarında kritiktir. Iceberg’de SELECT * FROM tablo FOR SYSTEM_VERSION AS OF 123456 veya FOR SYSTEM_TIME AS OF '2026-04-15 09:00' sorgusu eski snapshot’a yönlendirir; Delta’da VERSION AS OF ve TIMESTAMP AS OF aynı işi yapar. Schema evolution tarafında Iceberg unique ID-bazlı kolon takibi sayesinde rename, reorder ve nested struct evolution güvenli yapılır; eski parquet dosyaları rewrite gerektirmez ve petabyte ölçeğindeki tablolarda saatler süren rewrite’lar ortadan kalkar.
- Snapshot retention: Production’da 7-30 gün retention ve haftalık
expire_snapshotsçağrısı standarttır. - Time travel maliyeti: Eski snapshot metadata fazladan okuma gerektirir; planning %5-15 yavaşlar ama scan aynıdır.
- Schema evolution:
ADD COLUMNher zaman güvenli;DROP COLUMNveRENAMEreader uyumluluğu sonrası yapılmalı. - Partition evolution: Iceberg hidden partitioning ile
day(ts)‘denhour(ts)‘ye geçiş tablo rewrite gerektirmez. - Branching ve tagging: Iceberg v2’de Git-benzeri branch/tag desteği; A/B test, blue-green deployment, hot-fix için.
| Schema Değişikliği | Iceberg | Delta Lake | Hudi | Klasik Parquet |
|---|---|---|---|---|
| ADD COLUMN | Güvenli | Güvenli | Güvenli | Rewrite gerekli |
| DROP COLUMN | Güvenli | Güvenli (CDF kapalıysa) | Sınırlı | Rewrite gerekli |
| RENAME COLUMN | Güvenli (ID-based) | Güvenli (mapping mode) | Yok | Yok |
| REORDER COLUMNS | Güvenli | Güvenli | Yok | Yok |
| WIDEN TYPE (int→long) | Güvenli | Güvenli | Güvenli | Rewrite gerekli |
| Nested struct evolution | Güvenli | Sınırlı | Sınırlı | Yok |
| Partition spec evolution | Güvenli | Yok | Yok | Yok |

Databricks vs Snowflake vs Redshift Spectrum vs BigQuery Omni
Lakehouse compute katmanında öne çıkanlar: Databricks ve Snowflake tam yönetimli platformları, Redshift Spectrum S3 üzerinde external table sorgulamayı, BigQuery Omni ve BigLake multi-cloud federated query’i temsil eder. Microsoft Fabric Lakehouse OneLake üzerine inşa edilerek Power BI ve Synapse ile native entegre çalışır; AWS tarafında Athena, EMR ve son olarak S3 Tables ile birinci sınıf Iceberg desteği geldi. Databricks Photon engine vectorized C++ ile Spark’ın 4-8 katı performans verir; Snowflake-managed Iceberg tablolarında external table’a göre %50-70 daha hızlı scan elde edilir; Confluent Tableflow Kafka topic’lerini doğrudan Iceberg olarak materialize ederek Kafka compaction ile lakehouse historisini tek format altında birleştirir.
| Platform | Tablo Formatı | Compute Engine | Catalog | ML/AI Native | Tipik 50TB Aylık |
|---|---|---|---|---|---|
| Databricks | Delta Lake + Iceberg (UniForm) | Photon (vectorized Spark) | Unity Catalog | Var (MLflow, Mosaic) | ~26.500 USD |
| Snowflake | Iceberg (managed + external) | Snowflake Engine | Polaris (Open) | Snowpark ML, Cortex | ~31.200 USD |
| Redshift Spectrum | Parquet + Iceberg + Delta | Redshift RA3 + Spectrum | AWS Glue | Redshift ML (SageMaker) | ~22.800 USD |
| BigQuery Omni + BigLake | Iceberg + Hudi + Delta | Dremel | Dataplex | BigQuery ML, Vertex | ~24.500 USD |
| Microsoft Fabric Lakehouse | Delta Lake (OneLake) | Spark + T-SQL Endpoint | Purview | Synapse ML + Fabric ML | ~21.700 USD |
| AWS S3 Tables + Athena/EMR | Iceberg (managed) | Athena, EMR, Trino | S3 Tables Catalog | Harici (SageMaker) | ~14.300 USD |
| Apache Iceberg + Trino + Polaris | Iceberg | Trino, Starburst | Apache Polaris | Harici | ~13.900 USD |
AWS S3 Tables, Microsoft Fabric ve Confluent Tableflow: 2025-2026 Yeni Primitive’leri
2025’in lakehouse alanındaki en büyük yapısal değişikliği AWS S3 Tables‘ın genel kullanıma açılması oldu: S3 artık Iceberg tablosunu birinci sınıf storage primitive olarak yöneten, otomatik compaction, snapshot expiration ve unreferenced file cleanup işlemlerini servis sunan bir katman. Klasik lakehouse’da 1-2 platform mühendisi gerektiren maintenance işleri otomatikleşti. Microsoft Fabric OneLake tüm Microsoft veri ürünlerinin tek Delta Lake katmanında çalışmasını sağlar; “shortcut” özelliği ile S3 ve ADLS’deki tablolara kopyalamadan referans verilir. Confluent Tableflow Kafka topic’lerini gerçek zamanlı Iceberg olarak yayınlar; Kappa mimarisi ilk kez tek storage layer’a indirgenebiliyor.
- AWS S3 Tables: Otomatik compaction (1 saatte 1), snapshot expire (varsayılan 7 gün),
s3tables://URL scheme, Athena/EMR/Trino native entegrasyon, S3 Tables Catalog REST API. - Microsoft Fabric OneLake: Tek Delta Lake storage, shortcut ile cross-cloud referans, Power BI Direct Lake mode, T-SQL endpoint, Spark notebook ortamı entegre.
- Confluent Tableflow: Kafka topic → Iceberg materialize, schema registry entegre, exactly-once delivery, Tableflow Catalog Iceberg REST spec uyumlu.
- Snowflake Open Catalog (Polaris): Apache Polaris üzerine inşa, Iceberg REST Catalog, multi-engine erişim (Snowflake + Spark + Trino), Iceberg vendor-neutral kontrol.
- Databricks Unity Catalog Federation: Diğer cataloglardan (Polaris, Glue) tabloları federate eder; fiziksel kopya gerektirmeden cross-catalog governance.
Medallion Mimarisi ile Bronze, Silver, Gold Katmanları
Lakehouse üzerinde de facto referans pattern medallion architecture‘tır. Ham veri Bronze katmana minimal dönüşümle ingest edilir; Silver’da temizlenmiş, deduplicate ve şema normalize edilmiş veri tutulur; Gold’da business KPI’lar için agregat tablolar bulunur. Pratik öneri: Bronze append-only Iceberg, retention 30-90 gün; Silver’da CDC pattern ile MERGE INTO, retention 30 gün; Gold’da haftalık tam yeniden hesaplama. Orkestre için Spark ve Kafka tabanlı modern pipeline’lar tercih edilebilir; düşük latency’de Flink + Iceberg sink pattern’i ile saniye altı materialization elde edilir.
- Bronze: Raw payload + ingest_ts + source_partition; minimal validation; PII tagging metadata.
- Silver: Cleansed schema; deduplication; SCD Type 2 history; data quality tests (Great Expectations veya Soda Core).
- Gold: Business entities; fact-dimension model; pre-aggregated tablolar; BI semantic layer.
- Catalog policy: Bronze layer “raw” zone’da, Silver “trusted”, Gold “certified” tag’i ile; Unity Catalog/Polaris üzerinde policy.
- Compaction policy: Bronze daily compaction, Silver weekly, Gold on-write; küçük dosya problemini sürekli izole edin.
Maliyet Modelleri ve TCO: Storage, Compute ve Operasyon
Lakehouse maliyeti üç ana kalemden oluşur: storage (TB başına 23-25 USD/ay), compute (DBU, credit, slot saat, EC2 instance) ve operasyon (governance, monitoring, maintenance işgücü). Açık kaynak Iceberg + Trino setup’ı yalın storage + EC2 maliyetine indirgenebilir, fakat compaction ve snapshot expiration için 1-2 platform mühendisi yıllık 250-400 bin USD ek yük getirir. Snowflake credit-based modelde 60 saniyelik auto-suspend ile compute zekice optimize edilir; Databricks DBU + cloud compute modelde Photon’un 4-8x performansı aynı sorguyu daha kısa sürede tamamlayıp net maliyeti düşürür. BigQuery slot-based modelde on-demand veya capacity reservation seçimi %30-50 fark yaratır; Redshift Spectrum scan’lenen TB başına ~5 USD ile büyük tablolarda kontrolsüz büyür, Lake Formation tablo seviyesi limit şarttır.
| Platform | Compute Birim Fiyatı | Storage TB/ay | 50TB Workload Aylık Compute | Operasyon İşgücü | 3 Yıllık TCO |
|---|---|---|---|---|---|
| Databricks Premium | 0,55 USD/DBU + EC2 | 23 USD (S3 Standard) | ~21.000 USD | 0,5 FTE | ~1.450.000 USD |
| Snowflake Enterprise | 3 USD/credit | 40 USD (Snowflake) | ~28.000 USD | 0,3 FTE | ~1.610.000 USD |
| BigQuery (slot reservation) | ~2.000 USD/100 slot ay | 23 USD (GCS) | ~22.000 USD | 0,4 FTE | ~1.380.000 USD |
| Redshift Spectrum | RA3 instance + 5 USD/TB scan | 23 USD (S3) | ~19.500 USD | 0,6 FTE | ~1.350.000 USD |
| Microsoft Fabric F64 | ~8.500 USD/ay capacity | OneLake dahil | ~17.500 USD | 0,4 FTE | ~1.180.000 USD |
| AWS S3 Tables + Athena | 5 USD/TB scan + S3 Tables | ~25 USD | ~11.500 USD | 0,4 FTE | ~840.000 USD |
| Iceberg + Trino + Polaris (self-host) | EC2 spot | 23 USD (S3) | ~8.500 USD | 1,5 FTE | ~990.000 USD |

Governance, Veri Kalitesi ve KVKK Uyum Modeli
Lakehouse’un BI tablolarına ek olarak yapılandırılmamış veri ve ML feature store’larını barındırması, governance katmanını klasik DW’den çok daha kritik kılar. Unity Catalog, Snowflake Horizon, Apache Polaris ve Microsoft Purview; tablo, görünüm, satır ve kolon seviyesinde RBAC ve ABAC tabanlı yetkilendirme sunar. KVKK uyumluluğu için PII kolonlarına maskeleme, dynamic row-level filtering ve token-based pseudonymization standart pratiklerdir. Veri kalitesi tarafında Great Expectations, Soda ve Monte Carlo framework’leri Silver’da expectation testleri çalıştırır; başarısız batch’lerin Gold’a propagate olmasını engeller. Veri yönetişimi GDPR/KVKK katalog rehberindeki retention, sensitivity tagging ve data product owner rolleri lakehouse’a doğrudan uygulanır.
- Tablo seviyesi metadata: Owner, sensitivity, retention, certification level zorunlu alanlar.
- Kolon seviyesi tagging: PII, PCI, PHI, SOX kategorileri ile dinamik masking policy.
- Row-level security: tenant_id veya region filter’ı catalog seviyesinde tanımlanır, tüm engine’lerde uygulanır.
- Audit log: Tüm read/write/grant olayları SIEM’e (Splunk, Sentinel) iletilir; anomali tespiti çalıştırılır.
- Data contract: Producer-consumer arasında şema garantisi; CI’da contract testleri ile breaking change engellenir.
Streaming Ingestion, Vector ve Federated Sorgu Entegrasyonları
Modern lakehouse sadece batch için değil; streaming, vector ve federated sorgu için de tek platform olur. Druid, Pinot ve Trino federated query engine karşılaştırmamızdaki Trino + Iceberg pattern’i, S3 üzerindeki Iceberg tablolarını PostgreSQL ve MySQL gibi operasyonel sistemlerle birleştirir. Vector embedding boyut optimizasyonu teknikleriyle lakehouse’a embedding kolonları eklenir; Snowflake Cortex, Databricks Vector Search ve AWS S3 Vectors bu pattern’i destekler. RAG altyapı kurulum rehberindeki chunk + embedding tabloları artık Iceberg üzerinde tutuluyor; hibrit BM25 + vector arama ve metadata filter’ları tek SQL sorgusunda mümkün. Confluent Tableflow + Iceberg ile aynı veri hem stream processing (Flink), hem BI (Snowflake), hem ML training (Spark/Databricks) workload’larına servis edilir.
Sık Sorulan Sorular
Apache Iceberg ve Delta Lake arasında 2026 için hangisini seçmeliyim?
Eğer ekibiniz tamamen Databricks ekosistemindeyse Delta Lake daha iyi entegre çalışır; Photon engine ile en yüksek scan performansını verir ve Unity Catalog ile en zengin governance’ı sunar. Multi-cloud, multi-engine, Snowflake + Spark + Trino + Flink karışık ortamlarda Apache Iceberg vendor-neutral standart olarak çok daha güvenli tercihtir; AWS S3 Tables, Snowflake Open Catalog ve Confluent Tableflow gibi yeni primitive’lerin tümü Iceberg’e doğru hareket etti. Delta Lake UniForm ve Databricks’in Tabular akuizisyonu sonrası iki format zaten yakınsıyor; sıfırdan başlayan projelerde Iceberg uzun vadeli açıklık avantajı için daha güvenli seçim, mevcut Databricks ekipleri için Delta Lake mantıklı kalmaya devam ediyor.
AWS S3 Tables klasik Iceberg üzerinde Trino çalıştırmaktan ne kadar farklı?
AWS S3 Tables Iceberg’i birinci sınıf storage primitive olarak yönetir; otomatik compaction (saatte bir), snapshot expiration, unreferenced file cleanup ve metadata indexing AWS tarafından çalıştırılır. Klasik kurulumda bu işleri yapmak için Airflow DAG’ları ve 1-2 platform mühendisi gerekirken, S3 Tables ile bunlar otomatik ve yaklaşık %3 daha düşük scan latency. Karşılığında platform vendor lock-in artar (S3 Tables Catalog AWS-spesifik), fakat dosyalar hâlâ açık Iceberg formatında olduğundan dilediğiniz zaman başka bir catalog’a migrate edebilirsiniz. Küçük-orta ekipler için TCO açısından S3 Tables genellikle daha avantajlıdır.
Snowflake’ten Iceberg’e geçmek gerekli mi?
Tamamen geçmek zorunda değilsiniz; Snowflake artık Iceberg tablolarını natively okuyor ve yazıyor. İki pattern var: Snowflake-managed Iceberg (Snowflake catalog’unda) veya externally-managed Iceberg (Polaris, Glue, Unity üzerinde Snowflake okuma). External Iceberg, Spark/Flink/Databricks ile aynı tabloya yazıp Snowflake ile BI sorgulamayı mümkün kılar; vendor lock-in’i belirgin şekilde azaltır. Yeni başlayan projeler için external Iceberg + Snowflake okuma pattern’i hem açıklık hem performans dengesi sunar; klasik Snowflake native format’tan migrate etmek ise gereksiz risk içerir, mevcut çalışan tablolarda dokunmamak daha sağlıklıdır.
Lakehouse OLTP’nin yerini alır mı?
Hayır, lakehouse OLTP için tasarlanmadı. Object storage tabanlı snapshot model commit latency 150-500 ms aralığındadır ve transactional workload için uygun değildir. Tipik mimari hâlâ OLTP için PostgreSQL/MySQL (milisaniye-altı transaction), analitik için lakehouse (Iceberg/Delta + Spark/Snowflake) ve real-time analytics için ClickHouse/Pinot/Druid pattern’idir. CDC ile OLTP veritabanından lakehouse’a saniye-altı replication artık standart (Debezium + Flink + Iceberg sink). Lakehouse’u OLTP yapmaya çalışmak transactional database tarafında performans ve operasyonel sorun çıkarır.
Küçük şirketler için lakehouse erken yatırım mı?
1 TB altı veriye sahip ve sadece BI raporlaması yapan küçük şirketler için tam lakehouse mimarisi aşırı yatırımdır; PostgreSQL + DuckDB veya BigQuery serverless gibi daha basit çözümler yeterlidir. 10 TB üstü, makine öğrenmesi planlayan veya birden çok veri kaynağını birleştiren şirketler için lakehouse erken sayılmaz; AWS S3 Tables + Athena pattern’i ile çok düşük operasyonel yük ile başlanabilir. 2026 itibarıyla yeni başlangıçlar için doğrudan Iceberg üzerinde inşa etmek geri dönüşü olmayan bir teknoloji yatırımı değil; aksine açık format sayesinde gelecekteki vendor seçimini açık bırakan en güvenli yol.
Sonuç: Workload Bazlı Platform Verdict’i
Data Lakehouse 2026 itibarıyla kurumsal veri mimarisinin varsayılan şablonu haline geldi. Doğru platform seçimi tek bir “kazanan” üzerinden değil, workload profiline göre yapılır. ML-ağırlıklı, Spark-native, MLflow kullanan ekipler için Databricks; Delta + Photon kombinasyonu sınıfının lideri. SQL-ağırlıklı BI, operasyonel kolaylık önceliklendiren ekipler için Snowflake; Iceberg native desteği ile vendor lock-in endişesi azaldı. Maliyet hassas, açık standartlara değer veren ekipler için AWS S3 Tables + Athena/Trino + Apache Polaris; otomatik maintenance ve vendor-neutral format ile en düşük TCO. Microsoft 365 ve Power BI ekosistemindeki kurumlar için Microsoft Fabric Lakehouse; OneLake + shortcut + Direct Lake pattern’i en doğal devamlılık. Streaming ve gerçek zamanlı analitik öncelikli ekipler için Confluent Tableflow + Iceberg + Flink kombinasyonu; Kappa mimarisi tek storage layer ile gerçekleştirilebilir. Hangi platform seçilirse seçilsin Iceberg/Delta tablo formatı, medallion disiplini, Unity Catalog/Polaris governance ve Great Expectations bazlı veri kalitesi testleri lakehouse yatırımının başarısını belirleyen ortak temel pratiklerdir.
Daha fazla okuma: Apache Iceberg resmi dokümantasyonu, Delta Lake dokümantasyonu, Databricks Engineering Blog, Snowflake Blog, AWS S3 Tables, Microsoft Fabric Lakehouse, Confluent Tableflow.










Ömer ÖNAL
Mayıs 16, 2026Yazılım danışmanlığı projelerinde sıkça karşılaştığım bir soru: “Hangi mimari hangi senaryoda öncelikli olmalı?” Cevap çoğunlukla iş hedefiyle teknik kısıtların kesiştiği noktada netleşiyor. Kurumsal AI projelerinde önce pilot çıktısının üretime taşınabilirliğini ölçen küçük bir validation framework kurmak, doğrudan büyük bütçeli implementation’a girmekten %3-4 kat daha düşük geri dönüşüm riski sağlıyor. Yorumlarınıza açığım.