Data Lakehouse 2026: Databricks, Snowflake, Iceberg Rehberi

Q: Snowflake'ten Iceberg'e geçmek gerekli mi?

Tamamen geçmek zorunda değilsiniz; Snowflake artık Iceberg tablolarını natively okuyor ve yazıyor. İki pattern var: Snowflake-managed Iceberg veya externally-managed Iceberg. External Iceberg, Spark/Flink/Databricks ile aynı tabloya yazıp Snowflake ile BI sorgulamayı mümkün kılar; vendor lock-in'i belirgin şekilde azaltır. Yeni başlayan projeler için external Iceberg + Snowflake okuma pattern'i hem açıklık hem performans dengesi sunar.

Veri & Analitik

Haziran 12, 2026Ömer ÖNAL1 Yorum

Databricks Data+AI Summit 2025’te açıklanan rakamlara göre Unity Catalog üzerinde yönetilen Iceberg tablolarının sayısı yıllık %340 büyüdü; Snowflake’in 2025 Q3 sonuçlarına göre Iceberg tablolarını sorgulayan müşteri oranı %71’e ulaştı. AWS S3 Tables ile Apache Iceberg artık birinci sınıf storage primitive haline geldi, Microsoft Fabric OneLake aynı temel üzerinde inşa edildi ve Confluent Tableflow ile Kafka topic’leri doğrudan Iceberg tablosu olarak yayınlanmaya başlandı. Data Lakehouse 2026’da bir mimari trend olmaktan çıkıp, kurumsal veri platformunun varsayılan şablonu haline geldi. Bu rehberde Databricks, Snowflake ve açık Iceberg ekosisteminin teknik temellerini, fiyat dinamiklerini, ACID modellerini, time travel uygulamalarını ve workload bazlı seçim kriterlerini ele alıyoruz. Konuyla ilişkili olarak Trino vs Apache Drill vs Presto: Federated Query 2026 Karşılaştırması rehberimiz detaylı incelemeyi içerir. Konuyla ilişkili olarak Apache Iceberg vs Apache Hudi 2026: Lakehouse Tablo Formatı Karşılaştırması rehberimiz detaylı incelemeyi içerir.

📖 18 dakikalık okuma

İçindekiler

Data Lakehouse Mimarisi: Lake ve Warehouse Birleşmesinin Anatomisi
Açık Tablo Formatları: Iceberg, Delta Lake ve Hudi Karşılaştırması
ACID Transactions ve Optimistic Concurrency Mekanizması
Time Travel ve Schema Evolution: Veri Geçmişine Pencere
Databricks vs Snowflake vs Redshift Spectrum vs BigQuery Omni
AWS S3 Tables, Microsoft Fabric ve Confluent Tableflow: 2025-2026 Yeni Primitive'leri
Medallion Mimarisi ile Bronze, Silver, Gold Katmanları
Maliyet Modelleri ve TCO: Storage, Compute ve Operasyon
Governance, Veri Kalitesi ve KVKK Uyum Modeli
Streaming Ingestion, Vector ve Federated Sorgu Entegrasyonları
Sık Sorulan Sorular
Sonuç: Workload Bazlı Platform Verdict'i

Data Lakehouse Mimarisi: Lake ve Warehouse Birleşmesinin Anatomisi

Data Lakehouse, klasik data warehouse‘un ACID garantileri, governance ve SQL performansını; data lake‘in ucuz object storage, açık format ve yapılandırılmamış veri esnekliğiyle birleştiren mimaridir. Üç katmanlı yapıdan oluşur: en altta storage (S3, ADLS Gen2, GCS), ortada open table format (Iceberg, Delta, Hudi) ve en üstte birden fazla compute engine (Spark, Trino, Flink, Snowflake, DuckDB). Bu ayrım sayesinde compute ve storage bağımsız ölçeklenir, vendor lock-in azalır ve aynı veri seti hem BI hem ML hem streaming yükleri için tek kopya olarak kullanılır.

2026 itibarıyla lakehouse modelini olgunlaştıran üç teknik unsur şudur: metadata layer‘ın object storage üzerine taşınması, commit protokolünün atomic snapshot model üzerine kurulması ve catalog interoperability sayesinde aynı tabloya farklı engine’lerin REST API ile erişebilmesi. Unity Catalog, Apache Polaris, AWS Glue ve Snowflake Open Catalog’un tümü Iceberg REST Catalog spec’ini benimseyince, tabloların hangi engine ile sorgulanacağına runtime’da karar verilebilir hale geldi.

Boyut	Data Warehouse	Data Lake	Data Lakehouse
Storage	Proprietary kolon formatı	Object storage (raw)	Object storage + open table format
Şema yönetimi	Schema-on-write katı	Schema-on-read serbest	Schema-on-write + evolution
ACID transactions	Tam destek	Yok	Tam destek (Iceberg, Delta, Hudi)
Yapılandırılmamış veri	Sınırlı	Tam destek	Tam destek
BI sorgu performansı	Çok yüksek	Düşük-orta	Yüksek (vectorized engine)
ML/AI iş yükleri	Zayıf	İyi	Mükemmel (Spark/Ray native)
Compute-storage ayrımı	Çoğunlukla bağlı	Ayrı	Ayrı + multi-engine
Maliyet (TB/ay)	~80-200 USD	~23-30 USD	~35-65 USD
Tipik vendor lock-in	Yüksek	Düşük	Format seçimine bağlı

Açık Tablo Formatları: Iceberg, Delta Lake ve Hudi Karşılaştırması

Lakehouse’ın kalbi açık tablo formatlarıdır. Apache Iceberg, Netflix’in 2018’de açtığı, ASF top-level olan ve 2025 itibarıyla AWS S3 Tables ile Snowflake Open Catalog dahil tüm büyük vendor’larca desteklenen vendor-neutral format. Delta Lake, Databricks geliştirimi, Linux Foundation altında, Photon ile en yüksek scan performansını veren format. Apache Hudi, Uber’in incremental ingestion için geliştirdiği, copy-on-write ve merge-on-read tablo tiplerini ilk tanıtan format. Üçü de ACID, time travel, schema evolution ve hidden partitioning sunar; metadata modelleri, commit protokolü ve ekosistem desteği bakımından farklılaşır.

Özellik	Apache Iceberg	Delta Lake	Apache Hudi
Geliştiren	Netflix, ASF top-level	Databricks, Linux Foundation	Uber, ASF top-level
Metadata modeli	Manifest + manifest list	JSON transaction log + checkpoint	Timeline + commit metadata
Commit protokolü	Atomic snapshot swap	Optimistic concurrency	Concurrent writers + MVCC
Schema evolution	Add/drop/rename/reorder	Add/drop/rename	Add/drop/rename
Hidden partitioning	Var (transform-based)	Yok (generated columns ile)	Sınırlı
Tablo tipleri	Tek tip (snapshot)	Tek tip + CDF	CoW ve MoR
Multi-engine desteği	Spark, Trino, Flink, Snowflake, BigQuery, DuckDB	Spark, Trino, Flink (sınırlı)	Spark, Flink, Presto
2025 yıllık benimseme büyümesi	%340	%85	%42
Time travel granularity	Snapshot ID + timestamp	Version + timestamp	Instant time
REST Catalog spec	Native	Unity Catalog ile	Yok

2025’te Databricks’in Tabular akuizisyonu (1 milyar USD üzeri) ile Delta ve Iceberg’in yakınsama yol haritası açıklandı: Delta Lake UniForm zaten Delta tablolarını Iceberg metadata olarak sunabiliyor. Snowflake tarafında Polaris Catalog açık kaynak yayınlandı ve Iceberg REST Catalog spec’i ile interoperable çalışıyor.

ACID Transactions ve Optimistic Concurrency Mekanizması

Lakehouse’ın klasik data lake’ten en kritik farkı ACID transaction garantileridir. Object storage’ın eventual consistency ve append-only doğasına rağmen, Iceberg ve Delta Lake atomic snapshot model ile transactional davranış sağlar. Yazıcı yeni dosyaları storage’a yükler, sonra metadata’ya atomic swap ile referans ekler; okuyucu her seferinde tek bir snapshot’a karşı sorgu çalıştırır ve eski snapshot’lar retention süresi boyunca okunabilir kalır.

Atomicity: Bir commit ya tüm dosyaları metadata’ya ekler ya da hiçbirini; partial write yoktur. Iceberg’de manifest list swap, Delta’da transaction log’a yeni JSON kaydı bunu sağlar.
Consistency: Schema validation commit anında yapılır; uyumsuz kayıt eklenmeye çalışılırsa commit reddedilir.
Isolation: Snapshot isolation seviyesinde çalışılır; okuyucu açtığı snapshot’ı gördüğü gibi kalır, paralel yazıcıların etkisi sonradan görülür.
Durability: Object storage’ın 99,999999999% durability’si (S3 standart) sayesinde commit edilen veri kalıcıdır; metadata da aynı bucket’ta saklanır.
Optimistic concurrency: Conflict varsa yeni gelen commit reddedilir ve writer retry yapar; bu nedenle long-running write işlemlerinde merge conflict riski artar.

ACID Özelliği	Iceberg Uygulaması	Delta Lake Uygulaması	Hudi Uygulaması
Atomic commit	Manifest list swap (catalog)	_delta_log JSON append	.hoodie commit dosyası
Snapshot isolation	Snapshot ID seviyesinde	Version seviyesinde	Instant time seviyesinde
Conflict detection	Catalog OCC check	Transaction log replay	Timeline check
Conflict resolution	Retry + rewrite	Retry + rewrite	Merge yazıcısı otomatik çözer
MERGE INTO desteği	v2 row-level deletes	Native MERGE	Native upsert (PK gerekli)
Tipik commit latency	200-500 ms	150-400 ms	300-700 ms
Concurrent writer ölçeği	10-20	10-20	50+ (MoR mode)

Time Travel ve Schema Evolution: Veri Geçmişine Pencere

Time travel, lakehouse’un öne çıkan üretim özelliklerindendir. Snapshot bazlı metadata sayesinde bir tablonun geçmiş bir saniyedeki hali sorgulanabilir; audit, rollback, A/B karşılaştırma ve ML reproducibility senaryolarında kritiktir. Iceberg’de SELECT * FROM tablo FOR SYSTEM_VERSION AS OF 123456 veya FOR SYSTEM_TIME AS OF '2026-04-15 09:00' sorgusu eski snapshot’a yönlendirir; Delta’da VERSION AS OF ve TIMESTAMP AS OF aynı işi yapar. Schema evolution tarafında Iceberg unique ID-bazlı kolon takibi sayesinde rename, reorder ve nested struct evolution güvenli yapılır; eski parquet dosyaları rewrite gerektirmez ve petabyte ölçeğindeki tablolarda saatler süren rewrite’lar ortadan kalkar.

Snapshot retention: Production’da 7-30 gün retention ve haftalık expire_snapshots çağrısı standarttır.
Time travel maliyeti: Eski snapshot metadata fazladan okuma gerektirir; planning %5-15 yavaşlar ama scan aynıdır.
Schema evolution: ADD COLUMN her zaman güvenli; DROP COLUMN ve RENAME reader uyumluluğu sonrası yapılmalı.
Partition evolution: Iceberg hidden partitioning ile day(ts)‘den hour(ts)‘ye geçiş tablo rewrite gerektirmez.
Branching ve tagging: Iceberg v2’de Git-benzeri branch/tag desteği; A/B test, blue-green deployment, hot-fix için.

Schema Değişikliği	Iceberg	Delta Lake	Hudi	Klasik Parquet
ADD COLUMN	Güvenli	Güvenli	Güvenli	Rewrite gerekli
DROP COLUMN	Güvenli	Güvenli (CDF kapalıysa)	Sınırlı	Rewrite gerekli
RENAME COLUMN	Güvenli (ID-based)	Güvenli (mapping mode)	Yok	Yok
REORDER COLUMNS	Güvenli	Güvenli	Yok	Yok
WIDEN TYPE (int→long)	Güvenli	Güvenli	Güvenli	Rewrite gerekli
Nested struct evolution	Güvenli	Sınırlı	Sınırlı	Yok
Partition spec evolution	Güvenli	Yok	Yok	Yok

Databricks vs Snowflake vs Redshift Spectrum vs BigQuery Omni

Lakehouse compute katmanında öne çıkanlar: Databricks ve Snowflake tam yönetimli platformları, Redshift Spectrum S3 üzerinde external table sorgulamayı, BigQuery Omni ve BigLake multi-cloud federated query’i temsil eder. Microsoft Fabric Lakehouse OneLake üzerine inşa edilerek Power BI ve Synapse ile native entegre çalışır; AWS tarafında Athena, EMR ve son olarak S3 Tables ile birinci sınıf Iceberg desteği geldi. Databricks Photon engine vectorized C++ ile Spark’ın 4-8 katı performans verir; Snowflake-managed Iceberg tablolarında external table’a göre %50-70 daha hızlı scan elde edilir; Confluent Tableflow Kafka topic’lerini doğrudan Iceberg olarak materialize ederek Kafka compaction ile lakehouse historisini tek format altında birleştirir.

Platform	Tablo Formatı	Compute Engine	Catalog	ML/AI Native	Tipik 50TB Aylık
Databricks	Delta Lake + Iceberg (UniForm)	Photon (vectorized Spark)	Unity Catalog	Var (MLflow, Mosaic)	~26.500 USD
Snowflake	Iceberg (managed + external)	Snowflake Engine	Polaris (Open)	Snowpark ML, Cortex	~31.200 USD
Redshift Spectrum	Parquet + Iceberg + Delta	Redshift RA3 + Spectrum	AWS Glue	Redshift ML (SageMaker)	~22.800 USD
BigQuery Omni + BigLake	Iceberg + Hudi + Delta	Dremel	Dataplex	BigQuery ML, Vertex	~24.500 USD
Microsoft Fabric Lakehouse	Delta Lake (OneLake)	Spark + T-SQL Endpoint	Purview	Synapse ML + Fabric ML	~21.700 USD
AWS S3 Tables + Athena/EMR	Iceberg (managed)	Athena, EMR, Trino	S3 Tables Catalog	Harici (SageMaker)	~14.300 USD
Apache Iceberg + Trino + Polaris	Iceberg	Trino, Starburst	Apache Polaris	Harici	~13.900 USD

AWS S3 Tables, Microsoft Fabric ve Confluent Tableflow: 2025-2026 Yeni Primitive’leri

2025’in lakehouse alanındaki en büyük yapısal değişikliği AWS S3 Tables‘ın genel kullanıma açılması oldu: S3 artık Iceberg tablosunu birinci sınıf storage primitive olarak yöneten, otomatik compaction, snapshot expiration ve unreferenced file cleanup işlemlerini servis sunan bir katman. Klasik lakehouse’da 1-2 platform mühendisi gerektiren maintenance işleri otomatikleşti. Microsoft Fabric OneLake tüm Microsoft veri ürünlerinin tek Delta Lake katmanında çalışmasını sağlar; “shortcut” özelliği ile S3 ve ADLS’deki tablolara kopyalamadan referans verilir. Confluent Tableflow Kafka topic’lerini gerçek zamanlı Iceberg olarak yayınlar; Kappa mimarisi ilk kez tek storage layer’a indirgenebiliyor.

AWS S3 Tables: Otomatik compaction (1 saatte 1), snapshot expire (varsayılan 7 gün), s3tables:// URL scheme, Athena/EMR/Trino native entegrasyon, S3 Tables Catalog REST API.
Microsoft Fabric OneLake: Tek Delta Lake storage, shortcut ile cross-cloud referans, Power BI Direct Lake mode, T-SQL endpoint, Spark notebook ortamı entegre.
Confluent Tableflow: Kafka topic → Iceberg materialize, schema registry entegre, exactly-once delivery, Tableflow Catalog Iceberg REST spec uyumlu.
Snowflake Open Catalog (Polaris): Apache Polaris üzerine inşa, Iceberg REST Catalog, multi-engine erişim (Snowflake + Spark + Trino), Iceberg vendor-neutral kontrol.
Databricks Unity Catalog Federation: Diğer cataloglardan (Polaris, Glue) tabloları federate eder; fiziksel kopya gerektirmeden cross-catalog governance.

Medallion Mimarisi ile Bronze, Silver, Gold Katmanları

Lakehouse üzerinde de facto referans pattern medallion architecture‘tır. Ham veri Bronze katmana minimal dönüşümle ingest edilir; Silver’da temizlenmiş, deduplicate ve şema normalize edilmiş veri tutulur; Gold’da business KPI’lar için agregat tablolar bulunur. Pratik öneri: Bronze append-only Iceberg, retention 30-90 gün; Silver’da CDC pattern ile MERGE INTO, retention 30 gün; Gold’da haftalık tam yeniden hesaplama. Orkestre için Spark ve Kafka tabanlı modern pipeline’lar tercih edilebilir; düşük latency’de Flink + Iceberg sink pattern’i ile saniye altı materialization elde edilir.

Bronze: Raw payload + ingest_ts + source_partition; minimal validation; PII tagging metadata.
Silver: Cleansed schema; deduplication; SCD Type 2 history; data quality tests (Great Expectations veya Soda Core).
Gold: Business entities; fact-dimension model; pre-aggregated tablolar; BI semantic layer.
Catalog policy: Bronze layer “raw” zone’da, Silver “trusted”, Gold “certified” tag’i ile; Unity Catalog/Polaris üzerinde policy.
Compaction policy: Bronze daily compaction, Silver weekly, Gold on-write; küçük dosya problemini sürekli izole edin.

Maliyet Modelleri ve TCO: Storage, Compute ve Operasyon

Lakehouse maliyeti üç ana kalemden oluşur: storage (TB başına 23-25 USD/ay), compute (DBU, credit, slot saat, EC2 instance) ve operasyon (governance, monitoring, maintenance işgücü). Açık kaynak Iceberg + Trino setup’ı yalın storage + EC2 maliyetine indirgenebilir, fakat compaction ve snapshot expiration için 1-2 platform mühendisi yıllık 250-400 bin USD ek yük getirir. Snowflake credit-based modelde 60 saniyelik auto-suspend ile compute zekice optimize edilir; Databricks DBU + cloud compute modelde Photon’un 4-8x performansı aynı sorguyu daha kısa sürede tamamlayıp net maliyeti düşürür. BigQuery slot-based modelde on-demand veya capacity reservation seçimi %30-50 fark yaratır; Redshift Spectrum scan’lenen TB başına ~5 USD ile büyük tablolarda kontrolsüz büyür, Lake Formation tablo seviyesi limit şarttır.

Platform	Compute Birim Fiyatı	Storage TB/ay	50TB Workload Aylık Compute	Operasyon İşgücü	3 Yıllık TCO
Databricks Premium	0,55 USD/DBU + EC2	23 USD (S3 Standard)	~21.000 USD	0,5 FTE	~1.450.000 USD
Snowflake Enterprise	3 USD/credit	40 USD (Snowflake)	~28.000 USD	0,3 FTE	~1.610.000 USD
BigQuery (slot reservation)	~2.000 USD/100 slot ay	23 USD (GCS)	~22.000 USD	0,4 FTE	~1.380.000 USD
Redshift Spectrum	RA3 instance + 5 USD/TB scan	23 USD (S3)	~19.500 USD	0,6 FTE	~1.350.000 USD
Microsoft Fabric F64	~8.500 USD/ay capacity	OneLake dahil	~17.500 USD	0,4 FTE	~1.180.000 USD
AWS S3 Tables + Athena	5 USD/TB scan + S3 Tables	~25 USD	~11.500 USD	0,4 FTE	~840.000 USD
Iceberg + Trino + Polaris (self-host)	EC2 spot	23 USD (S3)	~8.500 USD	1,5 FTE	~990.000 USD

Governance, Veri Kalitesi ve KVKK Uyum Modeli

Lakehouse’un BI tablolarına ek olarak yapılandırılmamış veri ve ML feature store’larını barındırması, governance katmanını klasik DW’den çok daha kritik kılar. Unity Catalog, Snowflake Horizon, Apache Polaris ve Microsoft Purview; tablo, görünüm, satır ve kolon seviyesinde RBAC ve ABAC tabanlı yetkilendirme sunar. KVKK uyumluluğu için PII kolonlarına maskeleme, dynamic row-level filtering ve token-based pseudonymization standart pratiklerdir. Veri kalitesi tarafında Great Expectations, Soda ve Monte Carlo framework’leri Silver’da expectation testleri çalıştırır; başarısız batch’lerin Gold’a propagate olmasını engeller. Veri yönetişimi GDPR/KVKK katalog rehberindeki retention, sensitivity tagging ve data product owner rolleri lakehouse’a doğrudan uygulanır.

Tablo seviyesi metadata: Owner, sensitivity, retention, certification level zorunlu alanlar.
Kolon seviyesi tagging: PII, PCI, PHI, SOX kategorileri ile dinamik masking policy.
Row-level security: tenant_id veya region filter’ı catalog seviyesinde tanımlanır, tüm engine’lerde uygulanır.
Audit log: Tüm read/write/grant olayları SIEM’e (Splunk, Sentinel) iletilir; anomali tespiti çalıştırılır.
Data contract: Producer-consumer arasında şema garantisi; CI’da contract testleri ile breaking change engellenir.

Streaming Ingestion, Vector ve Federated Sorgu Entegrasyonları

Modern lakehouse sadece batch için değil; streaming, vector ve federated sorgu için de tek platform olur. Druid, Pinot ve Trino federated query engine karşılaştırmamızdaki Trino + Iceberg pattern’i, S3 üzerindeki Iceberg tablolarını PostgreSQL ve MySQL gibi operasyonel sistemlerle birleştirir. Vector embedding boyut optimizasyonu teknikleriyle lakehouse’a embedding kolonları eklenir; Snowflake Cortex, Databricks Vector Search ve AWS S3 Vectors bu pattern’i destekler. RAG altyapı kurulum rehberindeki chunk + embedding tabloları artık Iceberg üzerinde tutuluyor; hibrit BM25 + vector arama ve metadata filter’ları tek SQL sorgusunda mümkün. Confluent Tableflow + Iceberg ile aynı veri hem stream processing (Flink), hem BI (Snowflake), hem ML training (Spark/Databricks) workload’larına servis edilir.

Sık Sorulan Sorular

Apache Iceberg ve Delta Lake arasında 2026 için hangisini seçmeliyim?

Eğer ekibiniz tamamen Databricks ekosistemindeyse Delta Lake daha iyi entegre çalışır; Photon engine ile en yüksek scan performansını verir ve Unity Catalog ile en zengin governance’ı sunar. Multi-cloud, multi-engine, Snowflake + Spark + Trino + Flink karışık ortamlarda Apache Iceberg vendor-neutral standart olarak çok daha güvenli tercihtir; AWS S3 Tables, Snowflake Open Catalog ve Confluent Tableflow gibi yeni primitive’lerin tümü Iceberg’e doğru hareket etti. Delta Lake UniForm ve Databricks’in Tabular akuizisyonu sonrası iki format zaten yakınsıyor; sıfırdan başlayan projelerde Iceberg uzun vadeli açıklık avantajı için daha güvenli seçim, mevcut Databricks ekipleri için Delta Lake mantıklı kalmaya devam ediyor.

AWS S3 Tables klasik Iceberg üzerinde Trino çalıştırmaktan ne kadar farklı?

AWS S3 Tables Iceberg’i birinci sınıf storage primitive olarak yönetir; otomatik compaction (saatte bir), snapshot expiration, unreferenced file cleanup ve metadata indexing AWS tarafından çalıştırılır. Klasik kurulumda bu işleri yapmak için Airflow DAG’ları ve 1-2 platform mühendisi gerekirken, S3 Tables ile bunlar otomatik ve yaklaşık %3 daha düşük scan latency. Karşılığında platform vendor lock-in artar (S3 Tables Catalog AWS-spesifik), fakat dosyalar hâlâ açık Iceberg formatında olduğundan dilediğiniz zaman başka bir catalog’a migrate edebilirsiniz. Küçük-orta ekipler için TCO açısından S3 Tables genellikle daha avantajlıdır.

Snowflake’ten Iceberg’e geçmek gerekli mi?

Tamamen geçmek zorunda değilsiniz; Snowflake artık Iceberg tablolarını natively okuyor ve yazıyor. İki pattern var: Snowflake-managed Iceberg (Snowflake catalog’unda) veya externally-managed Iceberg (Polaris, Glue, Unity üzerinde Snowflake okuma). External Iceberg, Spark/Flink/Databricks ile aynı tabloya yazıp Snowflake ile BI sorgulamayı mümkün kılar; vendor lock-in’i belirgin şekilde azaltır. Yeni başlayan projeler için external Iceberg + Snowflake okuma pattern’i hem açıklık hem performans dengesi sunar; klasik Snowflake native format’tan migrate etmek ise gereksiz risk içerir, mevcut çalışan tablolarda dokunmamak daha sağlıklıdır.

Lakehouse OLTP’nin yerini alır mı?

Hayır, lakehouse OLTP için tasarlanmadı. Object storage tabanlı snapshot model commit latency 150-500 ms aralığındadır ve transactional workload için uygun değildir. Tipik mimari hâlâ OLTP için PostgreSQL/MySQL (milisaniye-altı transaction), analitik için lakehouse (Iceberg/Delta + Spark/Snowflake) ve real-time analytics için ClickHouse/Pinot/Druid pattern’idir. CDC ile OLTP veritabanından lakehouse’a saniye-altı replication artık standart (Debezium + Flink + Iceberg sink). Lakehouse’u OLTP yapmaya çalışmak transactional database tarafında performans ve operasyonel sorun çıkarır.

Küçük şirketler için lakehouse erken yatırım mı?

1 TB altı veriye sahip ve sadece BI raporlaması yapan küçük şirketler için tam lakehouse mimarisi aşırı yatırımdır; PostgreSQL + DuckDB veya BigQuery serverless gibi daha basit çözümler yeterlidir. 10 TB üstü, makine öğrenmesi planlayan veya birden çok veri kaynağını birleştiren şirketler için lakehouse erken sayılmaz; AWS S3 Tables + Athena pattern’i ile çok düşük operasyonel yük ile başlanabilir. 2026 itibarıyla yeni başlangıçlar için doğrudan Iceberg üzerinde inşa etmek geri dönüşü olmayan bir teknoloji yatırımı değil; aksine açık format sayesinde gelecekteki vendor seçimini açık bırakan en güvenli yol.

Sonuç: Workload Bazlı Platform Verdict’i

Data Lakehouse 2026 itibarıyla kurumsal veri mimarisinin varsayılan şablonu haline geldi. Doğru platform seçimi tek bir “kazanan” üzerinden değil, workload profiline göre yapılır. ML-ağırlıklı, Spark-native, MLflow kullanan ekipler için Databricks; Delta + Photon kombinasyonu sınıfının lideri. SQL-ağırlıklı BI, operasyonel kolaylık önceliklendiren ekipler için Snowflake; Iceberg native desteği ile vendor lock-in endişesi azaldı. Maliyet hassas, açık standartlara değer veren ekipler için AWS S3 Tables + Athena/Trino + Apache Polaris; otomatik maintenance ve vendor-neutral format ile en düşük TCO. Microsoft 365 ve Power BI ekosistemindeki kurumlar için Microsoft Fabric Lakehouse; OneLake + shortcut + Direct Lake pattern’i en doğal devamlılık. Streaming ve gerçek zamanlı analitik öncelikli ekipler için Confluent Tableflow + Iceberg + Flink kombinasyonu; Kappa mimarisi tek storage layer ile gerçekleştirilebilir. Hangi platform seçilirse seçilsin Iceberg/Delta tablo formatı, medallion disiplini, Unity Catalog/Polaris governance ve Great Expectations bazlı veri kalitesi testleri lakehouse yatırımının başarısını belirleyen ortak temel pratiklerdir.

Daha fazla okuma: Apache Iceberg resmi dokümantasyonu, Delta Lake dokümantasyonu, Databricks Engineering Blog, Snowflake Blog, AWS S3 Tables, Microsoft Fabric Lakehouse, Confluent Tableflow.

Ömer ÖNAL

Yazılım Mimarı | Yapay Zeka LLC. Ölçeklenebilir SaaS, .NET Core altyapıları ve Otonom AI süreçleri inşa ediyorum. Kod değil, sistem tasarlarım.

Yorum (1)

Ömer ÖNAL
Mayıs 16, 2026
Yanıtla

Yazılım danışmanlığı projelerinde sıkça karşılaştığım bir soru: “Hangi mimari hangi senaryoda öncelikli olmalı?” Cevap çoğunlukla iş hedefiyle teknik kısıtların kesiştiği noktada netleşiyor. Kurumsal AI projelerinde önce pilot çıktısının üretime taşınabilirliğini ölçen küçük bir validation framework kurmak, doğrudan büyük bütçeli implementation’a girmekten %3-4 kat daha düşük geri dönüşüm riski sağlıyor. Yorumlarınıza açığım.

Our Gallery

Contact Info

Data Lakehouse Mimarisi: Databricks, Snowflake ve Apache Iceberg