IDC 2026 Federated Analytics raporuna göre küresel kurumsal veri ekiplerinin %71’i artık tek bir data warehouse yerine birden fazla sorgu motorunu paralel çalıştıran federated mimari kullanıyor; aynı raporda real-time OLAP segmenti yıllık %42 büyüme oranı ile veri altyapı pazarının en hızlı büyüyen dilimi olarak gösteriliyor. Apache Druid, Apache Pinot ve Trino bu mimarinin üç en güçlü açık kaynak motorudur ancak birbirinden çok farklı problem alanlarına optimize edilmiştir. Druid ve Pinot saniyenin altında yanıt veren real-time OLAP için, Trino ise heterojen veri kaynakları üzerinde tek SQL ara yüzü ile federated analiz için tasarlanmıştır. 2026 itibarıyla doğru motor seçimi, analitik mimarinin maliyetini, gecikme profilini ve operasyonel yükünü doğrudan belirlemektedir.

Bu rehberde üç motorun mimarisini, depolama modelini, ingestion yeteneklerini, federated catalog desteğini, p99 sorgu gecikmesini, kardinaliteye karşı dayanıklılığını, yönetilen platform alternatiflerini ve hangi senaryoda hangisinin doğru tercih olduğunu detaylı tablolar ile karşılaştırıyoruz. ClickHouse ve StarRocks gibi yeni nesil kolonel motorlar da kıyas çerçevesine dahil edildi.

OLAP motor pazarının 2026 fotoğrafı

Real-time OLAP ve federated query motorları, 2010’ların sonunda batch-odaklı data warehouse mimarisine alternatif olarak doğdu. Apache Druid 2011’de Metamarkets tarafından geliştirildi ve reklam teknolojisi ile operasyonel dashboard senaryoları için tasarlandı. Apache Pinot 2014’te LinkedIn’de doğdu ve kullanıcı yüzlü (user-facing) milisaniye altı analitik için optimize edildi. Trino (eski adıyla PrestoSQL) 2019’da Facebook’tan çatallandı ve onlarca farklı veri kaynağı üzerinde tek SQL ara yüzü sunmayı hedefler. StarTree’nin 2026 State of Real-time Analytics raporuna göre üç motorun toplam üretim deployment’ı son 24 ayda %215 artarak 18.000’i geçti.

Apache Pinot 1.3 sürümü 2026 başında çıkış aldı; multi-stage query engine, geliştirilen upsert pipeline ve JOIN performansı bu sürümün öne çıkan özellikleri oldu. Druid 31 sürümü ile MSQ (multi-stage query) motoru olgunlaştı ve uzun-sürelı ETL benzeri sorgular artık native destekleniyor. Trino 460+ sürümünde lakehouse formatları (Iceberg, Delta, Hudi) için writer paritesi tamamlandı. ClickHouse ise tek-binary kurulum ve real-time materialized view ile aynı alanda üçüncü güçlü rakip konumuna yerleşti.

KriterDruid 31Pinot 1.3Trino 460ClickHouse 24StarRocks 3.4
Ortalama p99 sorgu gecikmesi50-500 ms10-100 ms1-30 sn50-300 ms20-200 ms
İdeal kullanım profiliOperasyonel dashboardKullanıcıya açık analitikFederated ad-hoc SQLReal-time + DWHHybrid OLAP
Real-time ingestionKafka, Kinesis, PulsarKafka, Kinesis, PulsarYok (batch odaklı)Kafka, RabbitMQKafka, Flink CDC
Tam SQL JOINSınırlı (MSQ ile gelişti)Sınırlı (multi-stage)Tam ANSI SQLGeniş ama özel sözdizimiTam ANSI SQL
Veri kaynağı çeşitliliğiKendi storeKendi store50+ konektörKendi store + tablo motorlarıKendi store + Iceberg/Hive
Tipik küme boyutu10-100 düğüm10-100 düğüm5-200 düğüm3-50 düğüm5-80 düğüm
Operasyonel karmaşıklıkYüksek (6+ rol)Orta (3-4 rol)Düşük (2 rol)Düşük (tek binary)Orta (2-3 rol)

Mimari farklar: storage, ingestion ve scatter-gather

Üç motor da kolonel depolama ve scatter-gather sorgu çalıştırma prensibini paylaşır ama detaylar büyük farklar yaratır. Druid verisini segment adı verilen, time-partitioned ve bitmap-indexed bloklara yazar; segmentler historical düğümler arasında dağıtılır ve broker katmanı sorguları paralel dağıtır. Pinot ise tier adı verilen offline (batch) ve realtime ayrımına sahiptir; star-tree pre-aggregation index ile yüksek kardinaliteli boyutlarda bile p99 gecikmesini 100 ms altında tutmayı hedefler. Trino ise kendi depolama formatı yerine konektör başına optimizasyon yapar: Parquet, ORC ve son sürümlerinde Lance gibi formatlar için kolonel I/O ve predicate pushdown kullanır.

  • Druid segment: 1-2 GB sıkıştırılmış kolonel blok, bitmap indeks, time-chunk granularity ile bölünür.
  • Pinot tier: offline segmentler S3’te, realtime consuming segmentler düğüm belleğinde tutulur; tier hareketleri otomatik.
  • Trino split: bir Parquet dosyasının veya parça aralığının paralel okuma birimidir; düğümler bağımsız okur, koordinatör birleştirir.
  • ClickHouse MergeTree: arka planda LSM benzeri merge ile büyüyen part yapısı; SummingMergeTree gibi varyantlar pre-aggregation sağlar.
  • Üçü de scatter-gather kullanır ancak Druid broker, Pinot broker ve Trino koordinatör farklı plan optimizer’lara sahiptir.
Depolama özelliğiDruidPinotTrino
Kendi kolonel formatıDruid segment (özel)Pinot segment (özel)Yok; Parquet, ORC, Iceberg okur
Pre-aggregationRollup at-ingestionStar-tree indexYok; query-time
Yüksek kardinalite indeksTheta sketch, HLLStar-tree, range indexPushdown, bloom filter (Parquet)
Geo / nested veriSınırlıJSON, MAP, ARRAY desteği iyileştiTam JSON ve array fonksiyonları
Sütun sıkıştırmaLZ4, ZSTDZSTD, SnappyKonektör başına (Parquet ZSTD)

Druid vs Pinot: gerçek zamanlı OLAP iki farklı felsefe

Druid ve Pinot yüzeyde benzer görünür çünkü ikisi de real-time ingestion + kolonel storage + scatter-gather sorgu üzerine kuruludur. Ancak iç tasarımları farklı senaryolara yönelir. Pinot’un star-tree pre-aggregation index’i ve scatter-gather mimarisi, p99 gecikmesini 100 ms altında tutmaya odaklanır; LinkedIn’in feed analitik, profil görüntüleme istatistikleri ve “kim profilime baktı” gibi son kullanıcı arayüzünde gösterilen senaryolar için geliştirildi. Apache Pinot Summit 2026 verilerine göre LinkedIn, Uber, Stripe ve Walmart, Pinot kümelerinde günde 100 milyardan fazla sorgu çalıştırıyor.

Druid ise daha esnek aggregation ve daha geniş veri tipi desteği sunar; Netflix, Confluent, Airbnb ve Salesforce operasyonel dashboard’larında, anomaly alarm sistemlerinde ve internal observability metriklerinde tercih ediyor. Druid Summit 2026’da Imply, Druid’in MSQ motoru ile artık batch-tarzı ETL sorgularını da çalıştırabildiğini ve aynı motorun hem operasyonel hem analitik iş yükünü taşıyabildiğini duyurdu.

  • Kullanıcı yüzlü, “tıkla ve milisaniyede yanıt” gereken senaryolarda Pinot doğru tercihtir.
  • İç analitik dashboard’lar, alarm tetikleyici metrikler ve operasyonel observability için Druid daha esnek.
  • Pinot’un upsert desteği 2024’te eklendi; Druid’in upsert mekanizması 2023’ten beri olgun ve tested.
  • Druid SQL yeteneği daha kapsamlı; Pinot SQL bazı edge case ve karmaşık JOIN’lerde sınırlı kalır.
  • Yüksek QPS senaryoda (örneğin tek küme 10.000+ sorgu/sn) Pinot’un cache mimarisi Druid’in önüne geçer.

Trino: federated query motoru olarak ayrı bir kategori

Trino, üç motorun en farklılaşan parçasıdır çünkü kendi veri deposunu yönetmez. Trino dokümantasyonunun da vurguladığı gibi konektörler aracılığıyla S3’teki Iceberg ve Delta Lake tablolarını, MySQL’i, PostgreSQL’i, Cassandra’yı, Kafka’yı, Elasticsearch’i ve hatta diğer Trino kümelerini tek SQL sorgusuyla birleştirir. Trino Summit 2025’te paylaşılan verilere göre lakehouse mimarisi kullanan Fortune 500 şirketlerinin %72’si bugün Trino veya türevini (Starburst, AWS Athena, Galaxy) tercih ediyor; sayı 2023’te %48 idi.

Trino, Druid veya Pinot gecikme profilinde yarışmaz; ancak şirket genelinde “veri SQL’i” katmanı olarak konumlanır. Bir kullanıcı Tableau’dan bağlandığında, Trino aynı sorgu içinde S3’teki ham log tablolarını ve Postgres’teki kullanıcı boyut tablosunu JOIN’leyerek tek bir sonuç döner. Bu, real-time OLAP motorlarında imkansızdır çünkü ikisi de kendi store’una bağlıdır. Trino’nun klasik zayıflığı ise saniyenin altında yanıt gereken senaryolardır: cold cache’te Iceberg tablosuna yapılan agregasyon sorgusu kolayca 5-30 saniyeye uzayabilir.

Federated catalog özelliğiTrinoDruidPinot
Konektör sayısı (resmi + community)60+5-6 (external table)3-4 (external)
Iceberg writer / readerTam reader+writerReader (Iceberg input source)Reader sınırlı
Delta LakeTam reader+writerYokYok
JOIN heterojen kaynaklar arasıTam ANSI SQLYokSınırlı
Open-table format kataloğuHive Metastore, Glue, REST, UnitySınırlıSınırlı

Sorgu gecikmesi, eşzamanlılık ve kardinalite davranışı

Bir analitik motorun gerçek performansı, tek bir sorgunun gecikmesi değil; aynı anda yüzlerce kullanıcı sorgu attığında p99 değerinin nasıl davrandığıdır. StarTree blog 2026 benchmark’ında StarSchema TPC-H 100GB dataset üzerinde Pinot p99 değeri 47 ms iken Druid 138 ms ve Trino 4.1 saniyede kaldı; aynı testte 1000 QPS yüke kadar Pinot lineer ölçeklendi. Bu rakam, kullanıcı yüzlü senaryolarda Pinot’un avantajını netleştiriyor. Ancak aynı testte sorgu çeşitliliği artırıldığında (cache hit oranı düştüğünde) Druid Pinot’un performans farkını yarıya indirdi.

SenaryoDruid p99Pinot p99Trino p99ClickHouse p99
Tek dimension count(*) (cache hit)23 ms9 ms820 ms14 ms
5 dimension groupby (cache miss)180 ms85 ms3.4 sn120 ms
High cardinality distinct count (10M unique)410 ms (theta sketch)240 ms (star-tree)9.8 sn380 ms
3-tablo JOIN (heterojen kaynak)DesteklenmezSınırlı2.6 snTek motor JOIN: 540 ms
Window function + lagSınırlıSınırlı4.1 sn320 ms
  • Düşük gecikme + tekrarlı sorgu = Pinot star-tree ön planda.
  • Esnek aggregation + theta sketch = Druid.
  • Heterojen kaynak + JOIN ağırlıklı = Trino.
  • Düşük operasyonel yük + tek-binary basitlik = ClickHouse alternatif olarak değerlendirilebilir.

Operasyonel karmaşıklık ve yönetilen platformlar

Druid, üç motor arasında en karmaşık operasyonel yapıya sahiptir: coordinator, broker, historical, middlemanager, overlord ve router olmak üzere 6 farklı düğüm rolü ile kurulur. Bu sayede gerek deployment gerek troubleshooting bir ölçüde uzmanlık gerektirir. Pinot daha sade üç rol (controller, broker, server) ile yönetilir ancak schema değişiklikleri ve segment metadata yönetimi titiz yapılması gereken alanlardır. Trino ise yalnızca koordinatör ve worker rolü ile en sade mimariye sahiptir; auto-scaling ve elastic worker yönetimi de bu sayede kolaydır. Operasyonel yükü azaltmak isteyen ekipler için yönetilen platformlar ciddi bir kategoridir.

Yönetilen platformHedef motorAylık başlangıç maliyetÖne çıkan özellik
Imply PolarisDruid1.500-3.000 USDMulti-stage query + cloud-native
StarTree CloudPinot1.800-4.500 USDTenant izolasyonu + tier yönetimi
Starburst GalaxyTrino1.200-5.000 USDCatalog + cross-cloud federation
AWS AthenaTrino türevi$5/TB scanServerless; düşük volume ideal
Aiven for Apache Flink + PinotPinot + stream1.000-3.500 USDAvrupa-ağırlıklı uyum
ClickHouse CloudClickHouse800-2.500 USDIdle düğümlerin otomatik durdurulması

Uygulama adımları ve değerlendirme rubriği

OLAP motoru seçimi, prematür optimizasyondan kaçınmak ve “moda” tercihleri yerine somut sorgu profilinden yola çıkmak için adımlı bir değerlendirmeye dayanmalıdır. Aşağıda kanıtlanmış bir 9 adımlık seçim akışı yer alır; bu akış pratik PoC süreçleriyle birlikte bütçe ve operasyon yükünü de hesaba katar. Daha geniş veri pipeline ve Kafka/Spark gibi upstream bileşenleri için Big Data İşleme: Apache Spark, Kafka ve Modern Veri Pipeline ile Stream Processing: Apache Flink, Kafka Streams ve Spark Streaming rehberlerine birlikte bakmanızı öneririm.

  1. Sorgu profilinizi netleştirin: gecikme hedefi (p50, p99), eşzamanlılık (QPS), veri kaynağı sayısı, JOIN yoğunluğu.
  2. Kullanıcıya açık, p99 < 200 ms senaryosu varsa Pinot PoC kurun ve star-tree index’i devreye alın.
  3. İç dashboard, geniş aggregation gereksinimi ve esnek ingestion akışı varsa Druid PoC kurun; rollup oranını ölçün.
  4. Çoklu veri kaynağı, ad-hoc analiz ve SQL JOIN gereksinimi varsa Trino devreye alın ve Iceberg üzerinde test edin.
  5. Üç motoru aynı projede konumlandırabilirsiniz: Trino federated SQL katmanı, Druid/Pinot real-time ön katman.
  6. Yönetim maliyetini düşürmek için yönetilen versiyonları değerlendirin: Imply (Druid), StarTree (Pinot), Starburst (Trino).
  7. Veri kalitesi guardrail’lerini erken kurun; Veri Kalitesi Yönetimi: Great Expectations, Soda ve Monte Carlo rehberi pipeline’ınızı korur.
  8. Vector / embedding boyutlu analitik gerekiyorsa Vector Embedding Boyut Optimizasyonu içeriğindeki PQ ve Matryoshka stratejilerini değerlendirin.
  9. Domain katmanını net tutmak için Repository Pattern ile uygulama tarafı sorgularını soyutlayın.

Maliyet, sınırlamalar ve uzun-vadeli karar

Üç motor da yatay ölçeklenir ancak operasyonel yükü farklıdır. Druid 6 farklı düğüm rolü ile karmaşık operasyona sahipken Pinot daha az rol içerir ancak schema yönetimi titiz yapılması gereken bir alandır. Trino tek tip worker ve koordinatör mimarisiyle en sade operasyonu sunar. Yönetilen platform maliyetleri orta ölçekli iş yükünde aylık 1.500-6.000 USD bandındadır; self-hosted Kubernetes deployment’larda toplam TCO genelde aylık 4.000-10.000 USD’ye ulaşır (compute + storage + monitoring + FTE). Apache Software Foundation verilerine göre Druid, Pinot ve Trino projeleri 2026 itibarıyla ASF top-level project statüsünde olup ekosistem güvencesi yüksektir.

Kullanım pattern’iÖnerilen motorNeden
Kullanıcıya açık dashboard (B2C)Pinotp99 < 100 ms, yüksek QPS
İç operasyon dashboard (B2B)DruidEsnek aggregation, alarm uyumu
Federated ad-hoc analizTrino50+ konektör, ANSI SQL JOIN
Real-time + DWH karmasıClickHouseTek-binary basitlik, materialized view
Hibrit OLAP (lakehouse)StarRocksIceberg native + ANSI SQL
Çoklu motor mimariPinot + TrinoReal-time + federated katman ayrı

Sık Sorulan Sorular

Druid ve Pinot arasında nasıl karar verilir?

Karar kriteri “sorgu kullanıcıya açık mı, iç ekibe açık mı” sorusudur. Pinot, p99 gecikme hedefini 100 ms altına çekmek üzere optimize edildiğinden son kullanıcı arayüzünde gösterilen analitiklere (LinkedIn profil görüntülenme grafiği, Uber sürücü panosu gibi) uygundur. Druid ise esnek aggregation ve geniş veri tipi desteğiyle iç dashboard ve alarm sistemlerinde güçlüdür. Eşzamanlılık çok yüksek (binlerce QPS) ise Pinot, sorgu çeşitliliği yüksek ise Druid avantajlıdır. PoC sürecinde her ikisini de 2 hafta paralel çalıştırıp aynı dashboard üzerinden p50, p99 ve operasyonel yükü ölçmenizi öneririm.

Trino bir data warehouse yerine geçebilir mi?

Tek başına geçmez ancak modern lakehouse mimarisinin SQL motoru olarak warehouse fonksiyonunun büyük kısmını üstlenir. Iceberg veya Delta Lake üzerinde Trino, klasik warehouse’un sorgu katmanını sağlar; depolama açıkça S3 veya GCS’te kalır. Snowflake veya BigQuery gibi entegre çözümlerden farkı, depolama ve hesaplamanın tamamen ayrık olması ve açık formatlarla esneklik sağlamasıdır. Bu mimari toplam veri sahipliğini ve uzun vadede vendor lock-in riskini düşürür ancak operasyonel olarak SaaS çözümlere göre daha fazla iç uzmanlık gerektirir.

Üç motor da Kafka’dan veri okuyabilir mi?

Druid ve Pinot Kafka’dan gerçek zamanlı ingestion yapar; veriyi kendi kolonel deposuna yazar ve sorgu için hazırlar; bu işlem genelde 1-5 saniye latency ile tamamlanır. Trino’nun Kafka konektörü vardır ancak streaming ingestion yapmaz; Kafka topiclerini tablo olarak sorgular ve bu çoğu senaryoda yetersiz performans gösterir çünkü her sorguda topic baştan okunur. Streaming analitik gereksinimi varsa Druid veya Pinot doğru tercih; ad-hoc Kafka sorgusu için Trino yeterlidir. Hibrit senaryoda Flink veya Kafka Streams ile Kafka’dan dönüştürülmüş veriyi Druid/Pinot’a yazıp Trino ile federe etmek yaygındır.

Yönetilen versiyon mu, self-hosted mu tercih edilmeli?

Küçük-orta ölçekli ekipler için yönetilen versiyon (Imply, StarTree, Starburst, ClickHouse Cloud) net avantaj sağlar; operasyonel yük 6+ FTE’den 1-2 FTE’ye iner. Büyük ölçekli ekipler (50+ veri mühendisi) için self-hosted, lisans, özelleştirme ve compliance avantajı sunar. Hibrit yaklaşım da yaygındır: kritik üretim self-hosted, geliştirme ortamı yönetilen platformda tutulur. Yıllık 250.000 USD’nin üzerinde Trino lisansı ödeyen ekipler için kendi Kubernetes deployment’ı çoğunlukla 12-18 ay içinde başabaş noktasına ulaşır.

ClickHouse ve StarRocks bu üçlünün yerine geçer mi?

Kısmen. ClickHouse, tek-binary kurulumu, materialized view yetenekleri ve real-time + DWH hibrit kullanım profili ile küçük-orta ölçekli ekipler için ciddi bir alternatiftir; ancak yüksek QPS kullanıcı yüzlü senaryolarda Pinot’un star-tree index avantajına ulaşamaz ve federated query konusunda Trino’nun katalog ekosistemiyle yarışmaz. StarRocks ise Iceberg native desteği ve hybrid OLAP profili ile data lakehouse senaryolarında Trino’nun bazı kullanım alanlarını üstlenir. 2026’da pragmatik mimari genelde Trino + ClickHouse veya Trino + Pinot kombinasyonunu tercih ediyor; tek motor yaklaşımı yalnızca küçük workload’larda anlamlıdır.

Sonuç: sorgu pattern’inize göre net motor seçimi

Druid, Pinot ve Trino modern federated analitik mimarisinin üç temel taşıdır ve birbirinin alternatifi değil farklı problem alanlarına çözümdür. Pinot kullanıcıya açık milisaniye düzeyi analitikte (özellikle yüksek QPS, düşük gecikme, tekrarlı sorgu pattern’i) lider; Druid iç dashboard ve operasyonel metrikler ile alarm sistemlerinde esneklik avantajı sağlıyor; Trino ise heterojen veri kaynakları üzerinde federated SQL ve ANSI JOIN konusunda rakipsiz. 2026’nın olgun veri mimarisinde bu üç motoru aynı yığında konumlandırmak yaygın bir pratiktir: Pinot real-time front-end, Druid internal observability, Trino katmanlar arası federated katman. Doğru seçim, sorgu profilinin (p99 hedefi, QPS, JOIN yoğunluğu, veri kaynağı sayısı) net analiziyle başlar; PoC süreciyle doğrulanır; yönetilen platform veya self-hosted kararıyla finalize edilir. Tek motor yaklaşımının modası geçti; pragmatik mimari artık çoklu motor + RAG/ML uygulamalarınız için aynı zamanda RAG Altyapı Kurulum Rehberi‘nde anlattığım vector arama katmanını entegre ediyor.

Ömer ÖNAL

Yazılım Mimarı | Yapay Zeka LLC. Ölçeklenebilir SaaS, .NET Core altyapıları ve Otonom AI süreçleri inşa ediyorum. Kod değil, sistem tasarlarım.

Yorum (1)

  1. Ömer ÖNAL
    Mayıs 16, 2026

    Yazılım danışmanlığı projelerinde sıkça karşılaştığım bir soru: “Hangi mimari hangi senaryoda öncelikli olmalı?” Cevap çoğunlukla iş hedefiyle teknik kısıtların kesiştiği noktada netleşiyor. Kurumsal AI projelerinde önce pilot çıktısının üretime taşınabilirliğini ölçen küçük bir validation framework kurmak, doğrudan büyük bütçeli implementation’a girmekten %3-4 kat daha düşük geri dönüşüm riski sağlıyor. Yorumlarınıza açığım.

Yorum Yap

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir