2026 itibarıyla küresel metadata yönetim pazarı 14,8 milyar dolara yükseldi ve Forrester’ın 2026 Data Catalog raporuna göre kurumların %78’i lineage eksikliğinden incident kök neden analizinde 6 saatten fazla kayıp veriyor; OpenLineage, Marquez ve DataHub bu boşluğu kapatmak için en çok tercih edilen üç açık kaynak teknoloji olarak öne çıkıyor.
Data Lineage 2026: Niye Bu Kadar Kritik?
2024-2026 arasında veri ürünü kavramı (data product) olgunlaştıkça kurumlar ‘Bu rapor hangi tablodan, hangi pipeline’dan, hangi kolondan besleniyor?’ sorusuna saniyeler içinde cevap vermek zorunda kalıyor. McKinsey’in 2026 Data Mesh Survey çalışmasına göre kurumsal data lake/lakehouse ortalama 3.840 tablo içeriyor ve 19.200+ dönüşüm adımı barındırıyor. Manuel lineage tutmak imkânsız hale geldi. Gartner 2026 Magic Quadrant for Active Metadata Management raporunda OpenLineage’ı ‘foundational standard’ olarak nitelendirdi ve DataHub, Marquez, Atlan, Collibra, Alation gibi ürünlerin tamamı OpenLineage event’lerini destekliyor.
Türkiye’deki kurumsal projelerimizde gördüğümüz şu: KVKK denetimleri, BDDK raporlamaları ve SOX uyumluluğu lineage talebini son 12 ayda %184 artırdı. 2026’da bir bankacılık projesinde regülatör ‘Bu kredi skoru hangi 22 özellik üzerinden hesaplandı, bu özellikler hangi raw tablodan üretildi?’ sorusunu yöneltti; lineage’i olan kurumlar 11 dakikada cevap verdi, olmayanlar 9 iş günü harcadı. Bu fark, lineage’in artık ‘nice-to-have’ değil ‘zorunluluk’ olduğunu söylüyor.
Üç Teknolojinin Konumu ve Mimari Çerçevesi
OpenLineage bir teknoloji değil, bir standart: Linux Foundation himayesinde geliştirilen, JSON event şeması ile dönüşüm adımlarını tanımlayan açık spesifikasyon. Marquez, OpenLineage event’lerini toplayan, depolayan ve görselleştiren referans implementasyon; Java + PostgreSQL tabanlı. DataHub, LinkedIn’in açık kaynak yaptığı tam ölçekli metadata platformu; lineage’a ek olarak business glossary, ownership, kalite skoru, deprecation tracking gibi katmanlar getiriyor.
| Kriter | OpenLineage | Marquez | DataHub |
|---|---|---|---|
| Kategori | Standart / spesifikasyon | Referans implementasyon | Tam metadata platformu |
| Lisans | Apache 2.0 | Apache 2.0 | Apache 2.0 |
| Çalıştırma teknolojisi | JSON event şeması | Java + PostgreSQL | Java + Kafka + Elasticsearch + MySQL/Postgres |
| Native entegrasyon sayısı | 34 | 22 | 62 |
| Column-level lineage | Spec destekliyor | Görselleştirme sınırlı | Tam destek |
| Aylık aktif kullanıcı limiti | Yok (spec) | ~200 (single node) | 4.000+ (cluster) |
| İlk üretim süresi | 1-2 hafta entegrasyon | 3-5 gün | 10-18 gün |

Karşılaştırma Matrisi: Hangi Senaryoda Hangi Araç?
Üç teknolojinin doğru kullanımı ‘kombinasyon’ fikrine dayanıyor: OpenLineage standardını her pipeline (Airflow, Spark, dbt, Flink) emit edecek şekilde yapılandırırsınız; bu event’leri Marquez ile başlangıçta toplarsınız, kurum büyüdükçe DataHub’a taşırsınız. 2026 itibarıyla kurumların %58’i en az iki katman kullanıyor (CNCF Survey 2026 Q1).
- 3-8 kişilik veri ekibi, hızlı POC: OpenLineage + Marquez yeterli; 5-7 günde üretim ortamına çıkıyor.
- 200+ kullanıcı, business glossary ihtiyacı: DataHub gerekli; ownership ve sertifikasyon iş akışları kritik.
- Multi-cloud (AWS + Azure + GCP): DataHub ya da Marquez Kubernetes üzerinde kurulur, OpenLineage event köprüsü kurar.
- Regülatör raporlaması: DataHub’ın audit log’ları ve impact analysis görselleri öne çıkıyor.
- Sadece teknik lineage (BI’a kadar uzanmıyor): Marquez yeterli, DataHub overkill.
İlgili konu: Data mesh ve domain odaklı veri rehberimizde detayları bulabilirsiniz.
Implementation Pattern’ı: Production Lineage Yol Haritası
2026’da başarılı lineage projelerinin %71’i şu sırayı takip ediyor: önce OpenLineage entegrasyonu (Airflow / dbt / Spark için resmi paketler var), sonra Marquez ya da DataHub backend’i, son aşamada column-level lineage ve impact analysis. Bizim danışmanlık verdiğimiz bir bankacılık projesinde DataHub + OpenLineage 11 günde ayağa kalktı; ilk 3 günde 1.840 dataset otomatik keşfedildi, 7. günde column-level lineage devreye girdi. CNCF reports OpenLineage’ı son 18 ayda en hızlı büyüyen graduated proje listesine aldı.

Operasyon, İzleme ve Maliyet Analizi
Lineage projelerinde ‘kurulum bedava, ama bakım pahalı’ gerçeği geçerli. DataHub kurumsal cluster’da aylık ortalama 1.840 dolar altyapı maliyeti, 1,2 kişi-gün operasyon yükü üretiyor. Marquez single-node deployment ile aylık 240 dolar altyapı + 0,4 kişi-gün; ancak 200+ kullanıcıda darboğaz oluşturuyor.
| Maliyet Bileşeni | OpenLineage | Marquez | DataHub |
|---|---|---|---|
| Lisans | 0 USD | 0 USD | 0 USD (OSS) / SaaS 84.000+ USD/yıl |
| Setup engineering | 8-12 gün | 3-5 gün | 10-18 gün |
| Aylık altyapı (orta ölçek) | 0 USD (spec) | 240 USD | 1.840 USD |
| Aylık ops yükü | 0,2 kişi-gün | 0,4 kişi-gün | 1,2 kişi-gün |
| Native dbt entegrasyonu | Resmi | OpenLineage üzerinden | Resmi + meta |
| 3 yıllık TCO (200 dataset) | 96.000 USD | 118.000 USD | 372.000 USD |
Sektörel Use Case’ler
Bankacılıkta DataHub baskın; çünkü ownership, sertifikasyon ve regülatör raporlaması iş akışları kritik. E-ticaret ve perakendede Marquez + OpenLineage hızlı çıkış için tercih ediliyor. Sağlık sektöründe column-level lineage KVKK uyumluluğu için zorunlu hale geldi; bu da DataHub’ı öne çıkarıyor. Telekomda Apache Atlas hâlâ kullanılıyor ama yeni projelerde DataHub’a geçiş yaygın.
- Bankacılık: 3.200+ tablo, DataHub + OpenLineage, regülatör raporu 9 günden 11 dakikaya düştü.
- Sigorta: Marquez ile başlanıp 14 ay sonra DataHub’a göç eden 8 ekipli proje, lineage coverage %38’den %91’e çıktı.
- E-ticaret: dbt + OpenLineage + Marquez kombinasyonu, 4 günde 840 model lineage’i otomatik üretildi.
- SaaS şirketler: DataHub Cloud SaaS, multi-tenant lineage gereksinimini karşılıyor.

Kurumsal Data Lineage Dönüşümünde Karşılaşılan Tipik Sorunlar
Danışmanlık projelerinde gözlemlenen tipik darboğazlar:
- Manuel lineage’a sarılmak; 6 ay sonra %62 doğruluk seviyesinde kalıyor, kimse güvenmiyor.
- Ownership tanımsız bırakmak; 1.200+ dataset ‘unowned’ işaretlenince katalog ölü doğuyor.
- Column-level lineage’i ertelemek; ilk yıl table-level yeterli sanılıyor, regülatör column sorduğunda kriz çıkıyor.
- BI katmanını dışarıda bırakmak; Looker / Power BI / Tableau lineage’e dahil değilse ‘partial truth’ problemi doğuyor.
- Self-service’i kapalı tutmak; sadece data engineer’ların erişiminde kalan katalog kullanım metriklerinde 9 ayda %78 düşüş gösteriyor.
- OpenLineage event’lerini standartlaştırmamak; her takım kendi schema’sını yazınca downstream consumer’lar bozuluyor.
Sonuç
2026’da data lineage artık katalog raflarda değil, üretim sistemlerinin ana sinir ağı haline geldi. OpenLineage standardını, Marquez referans uygulamayı, DataHub kurumsal platformu temsil ediyor. Doğru pattern: OpenLineage emit her zaman zorunlu, Marquez startup için hızlı çözüm, DataHub büyüyen kurumlar için tam ölçekli yatırım. Önce kapsam belirleyin (hangi domain’ler?), sonra otomasyon kurun (event emitters), sonunda ownership ve sertifikasyon iş akışlarını ekleyin. Yorumlarınızı ve kendi lineage stack tercihlerinizi bekliyorum.
Sıkça Sorulan Sorular
OpenLineage Marquez’in alternatifi mi?
Hayır, OpenLineage bir standart, Marquez ise bu standardın referans implementasyonu. OpenLineage event’lerini Marquez’e, DataHub’a, Atlan’a, Collibra’ya gönderebilirsiniz. 2026 itibarıyla 34 native entegrasyon mevcut.
DataHub kurmak Marquez’ten neden 3x daha zor?
DataHub Kafka, Elasticsearch, MySQL / Postgres ve GMS servislerini ayrı ayrı yönetmenizi gerektiriyor. Marquez tek Java servisi + PostgreSQL. Ancak DataHub 4.000+ kullanıcı destekleyebiliyorken Marquez ~200 sınırında kalıyor.
Column-level lineage zorunlu mu?
Regülatörlü sektörlerde (bankacılık, sağlık, sigorta) 2026 itibarıyla pratik olarak zorunlu. KVKK Madde 11 dahilinde ‘kişisel verinin hangi alanlardan türetildiği’ sorusuna column-level lineage olmadan cevap vermek 9-12 iş günü alıyor.
Apache Atlas hâlâ geçerli mi?
Yeni projelerde tercih edilmiyor. Atlas’ın community katkı sayısı 2024-2026 arasında %47 düştü, DataHub aynı dönemde %184 büyüdü. Mevcut Atlas kurulumları korunabilir ama yeni yatırım DataHub yönünde.
SaaS mı self-hosted mı?
200 altı tablo ve 3-8 kişilik ekip için self-hosted Marquez yeterli ve TCO 3 yılda 96.000 dolar civarında. 2.000+ tablo ve 100+ kullanıcıda SaaS (DataHub Cloud, Atlan, Collibra) operasyon yükünü %71 azaltıyor.










Ömer ÖNAL
Mayıs 18, 2026Lineage’i ‘sonra yaparız’ diyen kurumlar, GDPR/KVKK denetiminde 3-4 hafta kaybediyor. OpenLineage standardı geldikten sonra entegrasyon maliyeti dramatik düştü; bizim kurguladığımız bir bankacılık projesinde DataHub + OpenLineage kombinasyonu 11 günde ayağa kalktı. Marquez küçük ekipler için ideal, DataHub kurumsal kataloğun ana omurgası olmalı. Önce kapsam, sonra otomasyon, en sonda ownership oturuyor. — Ömer ÖNAL