OpenLineage spesifikasyonu 2025 yılında LF AI & Data Foundation altında stable 1.0 etiketini aldı; Marquez metadata server’ı LinkedIn, Northwestern Mutual, Atlassian gibi 80+ kurumsal kullanıcı tarafından üretimde benimsendi ve veri lineage standardizasyonu artık opsiyonel değil zorunlu bir veri yönetişim katmanı olarak görülüyor. Konuyla ilişkili olarak Data Lineage Yönetimi: OpenLineage, Marquez, DataHub Karşılaştırması rehberimiz detaylı incelemeyi içerir.
OpenLineage 2026: Standart Pazar Konumu
OpenLineage, Marquez projesinin spinoff’u olarak 2021 yılında doğmuş ve Linux Foundation AI & Data altında inkubasyon sürecini 2024 sonunda tamamlamış açık veri lineage standardıdır. 2025 Q4 itibarıyla spesifikasyon 1.21 sürümüne ulaştı; Airflow, Spark, dbt, Flink, Dagster, Prefect, Trino, Snowflake için resmi integration’lar mevcut. LF AI & Data Foundation’ın 2025 Annual Report verilerine göre OpenLineage projesi 7.200 GitHub yıldızı, 218 katkıcı ve 36 üretici şirket tarafından desteklenen olgun bir ekosisteme dönüştü.
IBM’in 2025 Data Governance Maturity raporunda kurumların 67%’si veri lineage’ı düzenleyici uyum (GDPR Article 30, BCBS 239, EU AI Act) için zorunlu görüyor; ancak yalnızca 23%’ü gerçek üretim ortamında otomatik lineage capture’ı yapabiliyor. McKinsey 2025 Q2 Data Trust araştırması ise lineage olmayan veri ekosistemlerinde data quality incident’lerinin ortalama 4.8x daha uzun sürede root cause analysis ile çözüldüğünü ortaya koyuyor. OpenLineage standardının benimsenmesi data observability pazarının 2024-2027 arası 1.8 milyar USD’den 4.7 milyar USD’ye büyümesi beklenen trendinde anahtar rol oynuyor (Gartner 2025 Data Observability Magic Quadrant).
Türkiye tarafında özellikle BDDK denetimi altındaki bankalar, telekom operatörleri ve enerji şirketleri 2025 yılı içinde data lineage konusunu PoC seviyesinden üretim seviyesine taşıdı. Akbank, Garanti BBVA, Yapı Kredi ve Türkiye Sigorta gibi kurumların 2025 Q3 RFP’lerinde OpenLineage uyumluluğu açıkça aranan bir teknik kriter olarak yer aldı.
OpenLineage Spesifikasyon ve Marquez Mimari Boyutu
OpenLineage protokolü üç temel kavram üzerinde inşa edilmiştir: Job (işlem birimi), Run (job’un belirli bir çalıştırması) ve Dataset (girdi/çıktı veri varlığı). Her event JSON formatında “eventType” (START, COMPLETE, ABORT, FAIL), “eventTime” (ISO 8601), “producer” (URI), “schemaURL” alanlarını içerir. Facet sistemi spesifikasyonun genişletilebilirlik mekanizmasıdır: SchemaFacet, ColumnLineageFacet, DataQualityFacet, OwnershipFacet, OutputStatisticsFacet gibi 24 standart facet 2025 yılı sonu itibarıyla tanımlandı. Custom facet eklemek için “_producer” ve “_schemaURL” alanları doldurulur.
| Bileşen | Sorumluluk | Teknoloji | Olgunluk | Üretim Notu |
|---|---|---|---|---|
| OpenLineage Spec | Event şeması | JSON Schema 1.21 | Stable 1.0 | LF AI & Data governed |
| Marquez Server | Metadata storage | Java + PostgreSQL 14+ | Production v0.50 | HA için 3 replica |
| Marquez Web UI | Lineage görselleştirme | React + Cytoscape.js | Stable | Read-only audit view |
| API Layer | REST endpoints | Dropwizard 4.x | Stable | API gateway arkasında |
| Search Index | Lineage arama | OpenSearch 2.x opsiyonel | Beta | Büyük katalog için zorunlu |
| Event Backend | Async ingestion | Kafka veya HTTP | Production | Kafka 60K+ event/s |

Karşılaştırma Matrisi: OpenLineage vs DataHub vs Atlan vs Apache Atlas
Veri lineage pazarında 2026 yılı itibarıyla dört ana yaklaşım rekabet ediyor. OpenLineage standart odaklı, Marquez ile open-source reference implementation sunuyor. DataHub LinkedIn kökenli açık platform, hem lineage hem catalog hem governance birleşik sunuyor. Atlan SaaS first commercial bir data catalog ürünü; OpenLineage spec’i destekliyor ancak vendor lock-in riski mevcut. Apache Atlas Hadoop ekosistemi için tasarlanmış legacy bir araç, modern cloud native iş yüklerinde sınırlı kalıyor.
- OpenLineage + Marquez: Ücretsiz, standart odaklı, 40+ entegrasyon, vendor neutral; ancak business glossary, ownership workflow gibi catalog özellikleri zayıf
- DataHub: 200+ entegrasyon, business glossary, column-level lineage, ML feature catalog; operasyonel karmaşıklık (Kafka + Elasticsearch + MySQL + Neo4j) yüksek
- Atlan: SaaS deneyimi mükemmel, Slack/Teams entegrasyonu, kullanıcı sayısına göre fiyatlanır (15-45 USD/user/ay); custom integration sınırlı
- Apache Atlas: Hortonworks era projesi, Cloudera CDP içinde paketli, modern data stack (dbt, Airflow 2.x) entegrasyonu zayıf
- Collibra: Enterprise governance odaklı, 150K+ USD/yıl başlangıç, OpenLineage adapter 2025’te eklendi
İlgili konu: dbt Semantic Layer ile metric lineage entegrasyonu OpenLineage ekosisteminin metric katmanı tamamlayıcısı olarak çalışır.
Implementation Pattern: Airflow + Spark + Marquez Üretim Mimarisi
Kurumsal pattern’de Marquez server PostgreSQL 14 backend ile 3 replica halinde Kubernetes üzerinde deploy edilir. Airflow 2.9+ openlineage-airflow provider’ı 1.21 sürümüyle TaskInstance event’lerini otomatik gönderiyor. Spark integration için openlineage-spark 1.21 listener spark.extraListeners config’ine eklenir; SQLExecutionEnd, ApplicationEnd, JobEnd event’leri Marquez’a Kafka veya HTTP ile akar. dbt için openlineage-dbt CLI wrapper’ı manifest.json ve run_results.json dosyalarından lineage çıkarır. Multi-tenant ortamda namespace ayırma kritiktir; her takım veya iş birimi ayrı namespace altında dataset’leri register etmelidir.
Kafka tabanlı event ingestion için topic partitioning strategy job_namespace alanı üzerinden yapılmalı; tek bir Marquez consumer’ı saniyede 8.000-12.000 event işleyebilir, daha yüksek throughput için partitioning + parallel consumer gerekir. Column-level lineage capture etmek için Spark 3.4+ ColumnLineageVisitor kullanılır; her transformasyon adımında input column’lardan output column’a kadar derivation map’i çıkarılır. Bu özellik GDPR Article 30 kapsamında PII dataset’lerin downstream impact analizi için kritik öneme sahip.

Operasyon, Yönetişim ve Maliyet Boyutu
Marquez deployment’ı için minimum kaynak gereksinimi orta ölçekli bir kurum (günlük 5 milyon event) için 4 vCPU + 16 GB RAM Marquez pod x 3 replica + PostgreSQL 14 (8 vCPU + 32 GB RAM + 500 GB SSD) + opsiyonel OpenSearch 2.x cluster (3 node x 8 vCPU + 32 GB RAM). AWS ortamında bu yapılandırma aylık 3.800-4.500 USD civarına denk gelir. Atlan SaaS karşılığı 150 kullanıcı için aylık 9.000 USD’den başlar, Collibra eşdeğeri 12.000-18.000 USD’ye uzanır.
| Kararı Etkileyen Boyut | OpenLineage/Marquez | DataHub | Atlan | Collibra |
|---|---|---|---|---|
| Lisans Maliyeti | Apache 2.0 (ücretsiz) | Apache 2.0 (ücretsiz) | Per user SaaS | Enterprise lisans |
| Operasyonel Yük | Düşük-orta | Yüksek | Sıfır (SaaS) | Yüksek |
| Column-Level Lineage | Spark 3.4+ ile | Native | Native | Native |
| Business Glossary | Zayıf | Güçlü | Çok güçlü | Çok güçlü |
| Vendor Neutrality | Tam | Tam | Vendor lock | Vendor lock |
| Compliance Reporting | Custom | Built-in | Built-in | Çok güçlü |
Maliyet kontrolü için event sampling stratejisi düşünülmeli; düşük öncelikli pipeline’larda her event yerine her N. event’i göndermek storage maliyetini 60-70% azaltır. Lakehouse ve Data Mesh mimari kararı lineage stratejisini doğrudan etkiler; domain-oriented data mesh ortamında her domain ayrı namespace + ayrı SLI yapısı tasarlanmalıdır.
Sektörel Use Case: BDDK Uyumlu Banka Veri Lineage
Türkiye’de bir Tier-1 bankanın veri yönetişim ekibi 2025 Q2’de BDDK denetimi ve BCBS 239 risk veri toplama prensipleri uyumu için OpenLineage + Marquez yığını kurdu. 380+ Airflow DAG, 1.200+ dbt model, 80+ Spark job için lineage event’leri günde 14 milyon adet ingestion görüyor. PostgreSQL backend 1.8 TB’a ulaşan metadata için 6 aylık retention politikası uyguluyor; cold tier S3 Glacier’a arşivleniyor. Önceden manuel Excel tabanlı veri lineage dokümantasyonu güncellemesi 12 kişilik bir takım 4 hafta sürerken, otomatik OpenLineage capture ile bu süre saatlere indi ve doğruluk oranı 64%’ten 98%’e çıktı.
Enerji sektöründe EPDK uyum projeleri kapsamında bir distribütör şirket OpenLineage ile SCADA verisi, fatura sistemi, müşteri portal lineage’ını uçtan uca haritaladı ve impact analysis süresini ortalama 14 saatten 35 dakikaya düşürdü. LinkedIn mühendislik blogunda yayımlanan 2024 Q4 yazısında ise platform Marquez yerine kendi DataHub yığını üzerinde günde 2.4 milyar lineage event’i işlediğini, OpenLineage spec’ini ingestion standardı olarak benimsediğini açıkladı. OpenLineage resmi sitesi ve Marquez proje sayfası implementation rehberleri için referans noktasıdır.

Kurumsal OpenLineage Dönüşümünde Karşılaşılan Tipik Sorunlar
Danışmanlık projelerinde gözlemlenen tipik darboğazlar şu şekilde toplanıyor:
- Namespace stratejisi netliği: Domain, takım, environment kombinasyonu için namespace convention’ı baştan tasarlanmadığında 6 ay sonra refactor borç olarak geri dönüyor.
- Column-level lineage maliyeti: Spark ColumnLineageVisitor CPU overhead’i 8-12% civarında; tüm pipeline’larda açıldığında compute maliyeti hissedilir biçimde artıyor.
- Event volume planlaması: Günlük 50M+ event ölçeğinde PostgreSQL tek node yetersiz kalıyor; sharding veya alternatif backend (örn. Cassandra ekosistem fork’u) gerekiyor.
- Business glossary boşluğu: Marquez tek başına teknik lineage sağlıyor; iş kullanıcısına açıklayıcı katmanlar için DataHub veya Atlan paralel kurulum gerekebiliyor.
- Legacy ETL aracı entegrasyonu: Informatica, IBM DataStage, SSIS gibi 2010 öncesi araçlar için OpenLineage adapter olmadığından custom emitter geliştirilmek zorunda.
- Ownership ve governance workflow: Dataset sahibi tanımlama, izin yönetimi ve approval workflow Marquez kapsamı dışında; ek bir governance platform entegrasyonu gerekiyor.
Sonuç
OpenLineage 2026 yılında veri lineage konusunda fiilen standart konumundadır ve Marquez bu standardın olgun reference implementation’ı olarak üretimde güvenle kullanılıyor. GDPR Article 30, EU AI Act, BCBS 239 gibi düzenleyici uyum baskısı ve veri kalitesi incident response süresini kısaltma ihtiyacı kurumları lineage yatırımına itiyor. Karar verirken vendor neutrality, ekosistem genişliği ve toplam sahip olma maliyeti kriterlerini birlikte değerlendirmek gerekiyor. POC’leri tek bir kritik domain (örneğin risk veya finans raporlaması) üzerinden başlatın, event volume’ünü ölçün, operasyonel kapasiteyi planlayın ve ardından genişletin. Business glossary ihtiyacı yüksekse DataHub ile hibrit yapı veya Atlan SaaS karşılaştırması yapmadan karar vermeyin. OpenLineage standardını benimsemiş bir yapı vendor değişimine karşı esnek kalır.
Sıkça Sorulan Sorular
OpenLineage ile Marquez arasındaki ilişki nedir?
OpenLineage protokol spesifikasyonudur (JSON Schema 1.21), Marquez ise bu protokole uygun event’leri toplayan ve görselleştiren reference implementation server’ıdır. OpenLineage’ı destekleyen DataHub, Atlan, Collibra gibi diğer backend’ler de Marquez yerine geçebilir; ekosistemde 80+ kurumsal Marquez deployment’ı mevcut.
Column-level lineage hangi araçlarda otomatik elde edilir?
Spark 3.4+ ColumnLineageVisitor ve openlineage-spark 1.21 listener’ı otomatik column lineage üretir. dbt için openlineage-dbt 1.21 manifest.json’dan column lineage çıkarır. Snowflake için ACCESS_HISTORY view tabanlı emitter mevcuttur. Airflow PythonOperator için manuel facet eklemek gerekir.
Marquez ne kadar event throughput’u destekliyor?
Tek instance HTTP API ile saniyede 800-1.200 event işler; Kafka backend ile horizontal scale edildiğinde 8.000-12.000 event/saniye throughput rapor edilmiştir. LinkedIn 2024 raporunda DataHub backend ile günde 2.4 milyar event’lik ölçek başarıldı.
OpenLineage GDPR uyumu için yeterli mi?
GDPR Article 30 işleme kayıtları için OpenLineage temel lineage altyapısını sağlar ancak veri öznesi hakları (silme, taşıma), consent yönetimi ve DPIA dokümantasyonu için ayrı governance platform katmanları gerekir. Marquez + Collibra/DataHub hibrit yapılar bu boşluğu kapatır.
Türkiye’de hangi sektörler OpenLineage’a öncelik veriyor?
BDDK denetimi altındaki bankacılık (BCBS 239 uyum), telekom (BTK düzenlemeleri), enerji (EPDK), sağlık (KVKK + HIMSS) ve perakende e-ticaret (KVKK PII lineage) sektörleri 2025 Q3 itibarıyla aktif POC veya üretim aşamasında olduğu gözlemleniyor.










Ömer Önal
Mayıs 23, 2026Veri lineage konusunu danışmanlık projelerimde son 2 yıldır en sık karşılaştığım governance maturity göstergesi olarak gözlemliyorum. BCBS 239 ve EU AI Act baskısı altındaki bankalar artık manuel Excel lineage’a tahammül edemiyor. OpenLineage + Marquez yığınını tek bir kritik domain (örn. risk veya AML) üzerinden POC ile başlatmalarını öneriyorum; namespace stratejisini ve column-level lineage maliyetini baştan netleştirmek 6-12 aylık refactor borcunu önler.