Kubeflow vs MLflow vs BentoML 2026: ML Serving Karsilastirma

Q: MLflow tek başına production serving için yeterli mi?

Düşük trafikli (<100 RPS) iç araçlar veya batch inference için mlflow models serve yeterli olabilir. 200 RPS üstü, p95 latency <200 ms hedefi veya GPU inference söz konusuysa BentoML veya KServe önerilir. MLflow Registry'i serving katmanı ile birleştirmek standart kalıptır; iki bileşen birbirini tamamlar, ikame etmez.

Q: Kubeflow kurmak için kaç kişilik bir ekip gerekir?

Self-managed Kubeflow için minimum 1 Kubernetes platform mühendisi + 1 MLOps mühendisi (toplam 1.5-2 FTE) yıllık bakım için gereklidir. İlk kurulum 3-4 ay sürebilir. Bu maliyetten kaçınmak isteyen kurumlar Vertex AI Pipelines, SageMaker Pipelines veya Azure ML Pipelines yönetilen seçeneklerine yöneliyor; KFP DSL bu üçünde de büyük ölçüde uyumlu çalışıyor.

Q: BentoML neden MLflow serve'den hızlı?

BentoML üç tekniği birleştirir: adaptive batching (gelen istekleri mikropencerede grouplar), runner-service ayrımı (GIL bypass) ve framework-spesifik backend'ler (TorchScript, ONNX, TensorRT, vLLM). MLflow serve Flask/FastAPI üzerinde tek process'tir ve batching default aktif değildir. Aynı modelle 4 vCPU pod'da BentoML 4-5x throughput, 3-4x daha düşük p95 latency raporluyor.

Q: Üçünü birden kullanmak overkill mi?

Çoğu enterprise için değil. Tipik kalıp: MLflow deney takibi + model registry, Kubeflow pipeline + distributed training, BentoML serving. Bu üçü rakip değil farklı katmanlardır. CNCF 2024 raporuna göre kurumsal MLOps yığınlarının yaklaşık %23'ü bu üçünü birlikte kullanıyor. Küçük ekipler için fazla; 30+ kişilik organizasyonlar için yatırım kendini hızlı amorti ediyor.

Q: Vertex AI Pipelines kullanırsam Kubeflow'a ihtiyacım var mı?

Hayır, Vertex AI Pipelines Kubeflow Pipelines DSL ile aynı kodu çalıştırır ancak altyapıyı Google yönetir. KFP v2 SDK ile yazdığınız pipeline Vertex'te değişiklik olmadan çalışır. Self-managed Kubeflow'un sağladığı Notebook Controller, Katib gibi ek bileşenlere ihtiyaç duymuyorsanız Vertex Pipelines toplam sahip olma maliyetini ciddi ölçüde düşürür. SageMaker ve Azure ML Pipelines da benzer abstraksiyonlar sunar.

Yapay Zeka & LLM

Mayıs 16, 2026OmerOnal1 Yorum

MLflow, Kubeflow ve BentoML karşılaştırması 2026’da ML platform kararı veren ekipler için en kritik üç seçeneği masaya yatırır: MLflow deneyle takip ve model registry odağında lider, Kubeflow Kubernetes üzerinde uçtan uca pipeline orkestrasyonu için endüstri standardı, BentoML ise modeli üretime saniyeler içinde paketleyip yüksek throughput’lu bir serving servisine dönüştürmek için optimize edilmiş bir framework. CNCF 2024 Annual Survey raporuna göre kurumsal MLOps yığınlarının yaklaşık %58’i en az iki, %23’ü üçünü birden farklı katmanlarda birlikte kullanıyor. Bu yazı; mimari farkları, performans benchmark’ları, toplam sahip olma maliyetini ve hangi senaryoda hangisinin seçilmesi gerektiğini somut rakamlarla ortaya koyar. Hedef: ML platform mühendisi, MLOps lead’i ve teknik karar verici için yatırım yapılacak yığını netleştirmek. Konuyla ilişkili olarak Ollama vs vLLM vs TGI 2026: Lokal LLM Serving Karsilastirma rehberimiz detaylı incelemeyi içerir. Konuyla ilişkili olarak Mojo Programlama Dili 2026: Python Uyumlu AI Performans Dili rehberimiz detaylı incelemeyi içerir.

📖 16 dakikalık okuma

İçindekiler

MLflow, Kubeflow ve BentoML Nedir? Temel Konumlandırma
Mimari Karşılaştırma: Bileşenler ve Veri Akışı
Deney Takibi ve Model Registry: MLflow'un Asıl Gücü
Pipeline Orkestrasyonu: Kubeflow'un Kale Kazandığı Alan
Model Serving Performansı: BentoML'in Throughput Avantajı
Maliyet Karşılaştırması ve Toplam Sahip Olma
Güvenlik, Uyumluluk ve Kurumsal Gereksinimler
Ekosistem Entegrasyonu ve LLM Desteği
Karar Çerçevesi: Hangi Senaryo Hangi Araç?
Sıkça Sorulan Sorular
Sonuç

MLflow, Kubeflow ve BentoML Nedir? Temel Konumlandırma

Üç araç da “MLOps” şemsiyesi altında konumlanıyor ama farklı katmanları çözüyor. MLflow 2018’de Databricks tarafından açık kaynak yayınlandı; deney takibi, model registry, project paketleme ve hafif serving içerir. Kubeflow 2018’de Google’da başlayıp 2023’te CNCF Incubating projesi oldu; Kubernetes-native pipeline’lar, KFP DSL’i ve KServe entegrasyonu sunar. BentoML 2019’da bağımsız bir şirket olarak doğdu; modeli OCI uyumlu “Bento” formatına paketler ve Yatai veya BentoCloud üzerinden auto-scaling serving sağlar. Üçü de Apache 2.0 lisanslıdır; ancak hedef kullanıcı profili net biçimde ayrışır.

2026 itibarıyla GitHub yıldız sayıları kabaca şöyle: MLflow yaklaşık 19.000, Kubeflow Pipelines yaklaşık 3.700, BentoML yaklaşık 7.300. Stack Overflow Developer Survey 2024 raporunda ML practitioner’ların %31’i MLflow, %14’ü Kubeflow, %9’u BentoML kullandığını belirtti. Rakamlar yanıltıcı olmamalı: GitHub yıldızı popülerlik, ancak üretim deployment’larında Kubernetes ortamlarında Kubeflow ve BentoML birlikte daha sık görülüyor.

Bu üç araç birbirinin tam ikamesi değil. MLflow deneyleri takip eder ve modelleri sürümler. Kubeflow bu modellerin train/test/deploy pipeline’ını otomatize eder. BentoML modeli paketleyip yüksek performanslı bir HTTP/gRPC servisine çevirir. Çoğu kurumsal yığın üçünü farklı katmanlarda birlikte kullanır; örneğin MLflow Registry + Kubeflow Pipelines + BentoML serving üçlüsü 2024-2026 arasında en sık rastlanan kombinasyondur.

Özellik	MLflow	Kubeflow	BentoML
İlk yayın	2018 (Databricks)	2018 (Google)	2019 (bağımsız)
Lisans	Apache 2.0	Apache 2.0	Apache 2.0
Ana odak	Tracking + Registry	Pipeline orkestrasyonu	Model serving + paketleme
Çalışma ortamı	Local / VM / K8s	Yalnız Kubernetes	Local / K8s / Cloud
Yönetim modeli	Linux Foundation	CNCF Incubating	Bağımsız + BentoCloud
GitHub yıldızı (yaklaşık)	~19.000	~3.700 (KFP)	~7.300
Yönetilen hizmet	Databricks, AzureML	GCP Vertex AI Pipelines	BentoCloud, Yatai

MLflow tracking ve model registry mimarisi sembolik 3D gorsel

Mimari Karşılaştırma: Bileşenler ve Veri Akışı

Mimari kararlar performansı ve operasyonel yükü doğrudan belirler. MLflow dört ana bileşenden oluşur: Tracking Server (PostgreSQL/MySQL backend + S3/GCS artifact store), Model Registry, Projects ve Models. Tracking Server tek tip stateless Python process’idir; HA için load balancer arkasına 2-3 replika koyulur. Artifact store ortalama bir kurumda yıllık 200 GB-2 TB arasında büyür; S3 standard sınıfta 1 TB için yaklaşık 23 USD/ay maliyetle yönetilebilir.

Kubeflow daha karmaşıktır. Bileşen listesi: Kubeflow Pipelines (Argo Workflows tabanlı), Katib (hiperparametre tuning), KServe (serving), Notebook Controller (Jupyter), Training Operator (PyTorch/TF distributed). Tam kurulum 25-30 Kubernetes deployment, 80+ CRD ve 6-8 GB RAM minimum gerektirir. Argo Workflows v3.5+ ile DAG execution overhead pod başına yaklaşık 200-400 ms; Vertex AI Pipelines kullanırsanız altyapı tamamen Google tarafında yönetilir ve pipeline başına yaklaşık 0.03 USD execution fee uygulanır.

BentoML mimarisi sade: BentoML Service (Python class), Runner (model inference worker), Bento (OCI image benzeri paket), Yatai (deployment platform) veya BentoCloud (yönetilen). Runner-Service ayrımı önemli; Service IO-bound HTTP işini, Runner CPU/GPU-bound inference’i ayrı process’lerde çalıştırır. Bu mimari sayesinde BentoML, Python GIL kilidini bypass edip multi-core CPU’larda doğrusala yakın throughput ölçeklemesi sağlar. Üretim sürümü olan BentoML 1.2+ ile async serving ve adaptive batching default aktif gelir.

Mimari boyut	MLflow	Kubeflow	BentoML
Çekirdek bileşen sayısı	4	15+ (modüler)	5
Kubernetes zorunlu?	Hayır	Evet	Hayır (önerilen)
Minimum RAM (production)	2 GB	16 GB (control plane)	2 GB
State store	SQL + obj store	etcd + SQL + MinIO	Dosya sistemi / OCI registry
Multi-tenancy	Kısıtlı (3.x ile auth)	Tam (Profile CRD)	Yatai/BentoCloud ile
Pipeline DSL	Yok (workflow değil)	KFP Python DSL	Yok (serving odaklı)
Default observability	Tracking UI	Argo UI + KServe metrics	Prometheus + OpenTelemetry

Mimari karmaşıklık doğrudan kurulum süresine yansır. Greenfield bir Kubernetes cluster’a Kubeflow 1.9 kurmak ortalama 6-12 saat, ilk pipeline çalıştırmak ise 2-3 gün konfigürasyon gerektirir. MLflow için aynı süre tek pod kurulumunda 30 dakika. BentoML için lokal geliştirici makinesinde 5 dakika, Kubernetes serving deployment’ı için 1-2 saattir. Mimari benzerlikler için RAG altyapısı kurulum rehberi de Kubernetes katmanı için referans alınabilir.

Deney Takibi ve Model Registry: MLflow’un Asıl Gücü

MLflow Tracking, hiperparametre, metrik, artifact ve kod sürümünü tek bir “run” altında bağlar. mlflow.log_param(), mlflow.log_metric(), mlflow.autolog() API’leri scikit-learn, PyTorch, XGBoost, LightGBM, TensorFlow ve HuggingFace Transformers ile ilk satırda entegre olur. Autolog özelliği 35+ framework’te param ve metric’i otomatik yakalar; bu özellik 2024 sonrası gelen LLM autolog desteğiyle birlikte LangChain, OpenAI ve Anthropic çağrılarını da kapsar.

Model Registry, MLflow’un kurumsal benimsenmesini tetikleyen bileşen. Üç ana state vardır: None, Staging, Production, Archived. 2.9+ sürümleriyle birlikte “model alias” kavramı geldi; “champion”, “challenger” gibi etiketlerle blue-green deployment patternlerini destekler. Bir kurumsal MLflow kurulumunda tipik aktif model sayısı 50-300, registered model versiyonu yıllık 2.000-10.000 arasındadır. PostgreSQL backend bu yükte 4 vCPU / 16 GB RAM ile rahat çalışır.

Avantaj: 5 dakikada lokal kurulum, autolog ile sıfır kod değişikliği, Databricks/Azure ML/SageMaker yönetilen sürümleri.
Avantaj: Geniş ekosistem; HuggingFace, LangChain, prompt registry, LLM evaluation entegrasyonu 2.x’te resmi.
Dezavantaj: Pipeline orkestrasyonu yok — workflow ihtiyacı için Airflow/Prefect/Argo lazım.
Dezavantaj: Built-in serving (mlflow models serve) production-grade değil; 200-300 RPS üstüne ölçeklenmez.
Ne zaman seç: Veri bilimi ekibi 3-30 kişi, deney sayısı yüksek, serving ikincil.

LLM ekosistemine adaptasyon MLflow’un 2024-2026 yol haritasının merkezindeydi. MLflow 2.10+ LLM evaluation ile gelen mlflow.evaluate() fonksiyonu, LLM çıktısını “toxicity”, “relevance”, “faithfulness” gibi metriklerle değerlendirir; RAG evaluation için de heuristic + LLM-as-a-judge skorları üretir. Bu konuda detay için RAG Evaluation framework karşılaştırması faydalıdır.

Pipeline Orkestrasyonu: Kubeflow’un Kale Kazandığı Alan

Kubeflow Pipelines (KFP) v2 DSL’i Python decorator tabanlıdır: @dsl.component ile bir Python fonksiyonu container’lı bir adıma dönüşür, @dsl.pipeline ile DAG inşa edilir. Argo Workflows backend pipeline’ı CRD olarak Kubernetes’a yazar; her adım izole bir pod’da çalışır. Bu, fault isolation ve farklı GPU tiplerinin (A100, H100, L4) farklı adımlara atanması açısından kritiktir; tek bir pipeline içinde T4 ile preprocessing + H100 ile training + L4 ile inference yapılabilir.

Caching, KFP’nin görünmez gücüdür. Aynı input ve aynı container hash’i için adım cached işaretlenir; tipik bir feature engineering pipeline’ında %40-70 zaman tasarrufu sağlar. Vertex AI Pipelines bu cache’i 90 güne kadar saklar. KServe ise Kubeflow ekosisteminin serving katmanıdır: InferenceService CRD’si ile model deployment yapılır, autoscaling (KEDA + scale-to-zero), canary deployment, model explainability (Alibi) ve drift detection (Alibi Detect) yerleşik gelir. NVIDIA Triton, TorchServe, TFServing, ONNX Runtime ve transformers backend’leri desteklenir.

KFP yetenek	Açıklama	2026 status
Pipeline DSL v2	Python-native, IR derleme	Stable
Step caching	Input + image hash bazlı	Default aktif
Loop / condition	dsl.ParallelFor, dsl.Condition	Stable
GPU scheduling	NodeSelector + tolerations	Stable
Run scheduling	RecurringRun CRD (cron)	Stable
Lineage tracking	ML Metadata (MLMD)	Beta
Vertex entegrasyonu	KFP DSL → Vertex Pipelines	GA
Pipeline versioning	Pipeline + PipelineVersion CRD	Stable

Operasyonel maliyet yüksek. CNCF End User Survey 2024’e göre Kubeflow kurulan kurumların %62’si dedike bir platform engineering ekibi gerektirdiğini, %44’ü ise yönetimi azaltmak için Vertex AI Pipelines’a göç ettiğini belirtti. Self-managed Kubeflow için tipik ekip büyüklüğü 2-4 mühendis. CNCF Annual Survey 2024 raporundaki MLOps istatistikleri kararı belirleyici olabilir.

Kubeflow pipeline orkestrasyonu DAG mimarisi soyut gorseli

Model Serving Performansı: BentoML’in Throughput Avantajı

Serving performansını üç eksende ölçeriz: latency (p50, p95, p99), throughput (RPS) ve resource verimliliği (RPS / CPU). BentoML resmi benchmark’larında (2024 release notes), aynı PyTorch BERT-base modeli için tek 4 vCPU pod’da BentoML 1.2 adaptive batching ile yaklaşık 480 RPS p95 latency 95 ms; MLflow models serve aynı koşulda yaklaşık 110 RPS p95 latency 350 ms; KServe + TorchServe yaklaşık 410 RPS p95 latency 110 ms üretir.

BentoML’in temel kazancı üç tekniğin birleşiminden gelir: adaptive batching (gelen istekleri 5-20 ms pencerede grouplar), parallel runner workers (her CPU core’una izole worker) ve framework-spesifik runner backend’ler (PyTorch JIT, ONNX Runtime, TensorRT). 2026’da bento’ya entegre edilen vLLM ve TensorRT-LLM backend’leri sayesinde LLM serving için 7B parametreli modelde tek A100 GPU üzerinde 1.500+ token/s throughput raporlanıyor.

Senaryo	MLflow serve	KServe + TorchServe	BentoML 1.2
BERT-base, 4 vCPU, 1 pod (RPS)	~110	~410	~480
BERT-base p95 latency (ms)	~350	~110	~95
ResNet-50, 1 T4 GPU (RPS)	~190	~720	~810
LLM 7B, 1 A100, token/s	Desteklemez	~1.350 (vLLM)	~1.520 (vLLM backend)
Cold start (s)	8-15	20-45	3-7
Autoscaling	Manuel	KEDA + KPA	BentoCloud auto / Yatai
Multi-model serving	Hayır	Evet (InferenceGraph)	Evet (Service composition)

Avantaj: Adaptive batching default aktif — el ayarı gerekmiyor.
Avantaj: Python-native; bentoml.io API’leri ile request/response pydantic schema ile validate edilir.
Dezavantaj: Self-managed Yatai dokümantasyonu 2026 başında hâlâ Kubeflow KServe kadar olgun değil.
Dezavantaj: Multi-region failover BentoCloud paid tier gerektiriyor.
Ne zaman seç: Latency p95 <150 ms hedefi, >200 RPS sürekli yük, hızlı iterasyon.

Serving optimizasyonunda model paketleme kadar inference runtime da kritik. BentoML Runners dokümantasyonu Triton, vLLM ve TensorRT-LLM backend’lerini detaylandırır. Eğer kullanım senaryosu LLM ağırlıklıysa, LLM özelleştirme yöntemleri de seçimi etkiler — fine-tuned ağırlıkları nasıl serve edeceğiniz framework’ünüze yön verir.

Maliyet Karşılaştırması ve Toplam Sahip Olma

Üç araç da open source ve ücretsiz; ancak gerçek maliyet altyapı + operasyon + yönetilen sürümlerden gelir. Bir orta ölçekli kurum (5 veri bilimci, 3 ML mühendisi, 20 production modeli) için 2026 yıllık TCO tahminleri aşağıda. Hesaplama; AWS EU-West-1 us-east-1 referans fiyatları, %30 yedek kapasite ve 1 senior MLOps mühendis (yaklaşık 150.000 USD/yıl Avrupa ortalaması) varsayımıyla yapıldı.

Kalem	MLflow (self-hosted)	Kubeflow (self-hosted)	BentoML (self-hosted)	Managed (Databricks/Vertex/BentoCloud)
Yıllık compute (USD)	~6.000	~28.000	~12.000	~45.000-90.000
Storage (S3 + DB, USD/yıl)	~3.000	~6.000	~2.000	Pakete dahil
İlk kurulum FTE-ay	0.5	3-4	1	0.5
Yıllık bakım FTE	0.2	1.5-2.0	0.5	0.3
Toplam yıllık (USD, FTE dahil)	~39.000	~283.000	~89.000	~90.000-165.000

Tablodaki en şaşırtıcı veri Kubeflow self-hosted’ın FTE maliyetidir. McKinsey “State of AI 2024” raporunun Avrupa kesitinde, kurumsal MLOps platformlarının operasyonel maliyetinin %72’sinin insan kaynağı, yalnız %28’inin altyapı olduğu raporlandı. Kubeflow’u kendiniz işletmek ekibe bir Kubernetes platform mühendisi eklemeyi gerektirir; bu maliyetten kaçınmak için %48 kurum 2024-2026 arasında Vertex AI Pipelines veya AWS SageMaker Pipelines’a göç etti.

Databricks Managed MLflow, ekstra ücret almaz — Databricks lisansı içinde dahildir. BentoCloud starter tier yaklaşık 199 USD/ay’dan başlar, production tier kullanım bazlıdır (vCPU-saat ve GPU-saat). Vertex AI Pipelines fiyat tablosu pipeline başına yaklaşık 0.03 USD execution + altta çalışan Vertex Training/Prediction maliyetini ekler. Yatai self-hosted’tır ve ücretsizdir; BentoCloud’a alternatif olarak kuruluyor.

BentoML yuksek throughput model serving adaptive batching kavrami

Güvenlik, Uyumluluk ve Kurumsal Gereksinimler

Kurumsal benimseme güvenlik ve uyumluluk üzerinden kararlaştırılır. MLflow 2.9+ ile dahili OIDC/OAuth auth + experiment-level permissions geldi; 3.0 release’inde role-based access control (RBAC) genişletildi. Ancak hâlâ multi-tenancy Kubeflow’un Profile CRD’sinin sağladığı sertlikte değil. Kubeflow her kullanıcıya izole bir namespace + service account + Istio AuthorizationPolicy ile çok kiracılı SaaS kurumları için mantıklıdır.

BentoML kendi başına auth katmanı sağlamaz; arkasına Envoy/Istio veya BentoCloud auth gateway konumlandırılır. Bu, “tek bir başına” deployment için zayıflık gibi görünse de en pratik kalıbı sunar: BentoML inference servis, auth ağ geçidi tarafında çözülür. ENISA “ML Security Guidelines 2024” dokümanı, model serving için ayrı bir auth katmanını best practice olarak işaretler.

Güvenlik özelliği	MLflow	Kubeflow	BentoML
OIDC / OAuth2 auth	3.0 native	Native (Dex)	Yok (proxy gerekir)
RBAC	Experiment-level	Namespace + K8s RBAC	BentoCloud’da
Network izolasyonu	Tek pod	Istio service mesh	Pod-level NetworkPolicy
Audit log	Tracking events	Argo + K8s events	Prometheus + OTEL
Model imzalama	Manuel	Cosign + Notary	Bento checksum
SOC 2 (managed)	Databricks: Evet	Vertex: Evet	BentoCloud: Evet
HIPAA	Databricks: Evet	Vertex: Evet	Enterprise plan

NIST AI Risk Management Framework (AI RMF 1.0, 2023) ML platformlarından “documented model lineage” ve “version-pinned reproducibility” bekler. Üç araç da bunu sağlar ama farklı yollarla: MLflow run + model registry, Kubeflow MLMD lineage, BentoML Bento sürüm hash’leri. Finansal regülasyon kapsamında BDDK denetimine giren bir banka için Kubeflow Profile + MLflow Registry kombinasyonu en güçlü audit trail’i üretir. Detaylar için NIST AI RMF resmi sayfasını inceleyebilirsiniz.

Ekosistem Entegrasyonu ve LLM Desteği

2024-2026 arasında her üç framework de “LLM-first” yönde evrildi. MLflow 2.10+ ile LangChain, LlamaIndex, OpenAI, Anthropic SDK autolog desteği gelmiş, prompt registry ve LLM evaluation API’leri eklenmişti. Kubeflow tarafında KServe huggingface backend, Ray Serve entegrasyonu ve vLLM custom runtime sample’ları repository’de mevcut. BentoML LLM serving için bentoml.openllm alt paketini öne çıkardı; vLLM, TensorRT-LLM ve MLC LLM backend’lerini tek bir API arkasında topladı.

MLflow LLM özellikleri: Prompt versioning, mlflow.deployments (OpenAI/Azure/Bedrock proxy), evaluation metrikleri, AI Gateway.
Kubeflow LLM özellikleri: Distributed training operator (DeepSpeed, FSDP), KServe vLLM runtime, Ray Train pipeline.
BentoML LLM özellikleri: Tek satırla vLLM serving, OpenAI uyumlu endpoint, continuous batching, structured output.
Ortak: HuggingFace Hub entegrasyonu üçünde de native.
Ortak: OpenTelemetry tracing, Prometheus metrik export desteği.

Pratik bir LLM iş akışında üç aracı da görebilirsiniz: HuggingFace’ten ağırlık çekilir, MLflow autolog ile training run kaydedilir, Kubeflow Pipelines ile distributed fine-tuning orkestre edilir, fine-tuned model BentoML ile vLLM backend üzerinden serve edilir. Bu kombinasyon Stack Overflow Developer Survey 2024’te “LLM production stack” sorusunda en sık verilen ikinci yanıttı (ilk yanıt vendor-specific managed servisleri). Eğer iş akışınızda agentic katman varsa Agentic AI iş akışları mimarisi serving stratejinizi de etkileyebilir.

MLOps yiginlari karar matrisi ve maliyet karsilastirma soyut gorsel

Karar Çerçevesi: Hangi Senaryo Hangi Araç?

Karar 4 değişkene bağlanır: ekip büyüklüğü, Kubernetes olgunluğu, serving SLA’i ve regülasyon kapsamı. Düşük Kubernetes olgunluğu olan, <10 kişilik veri bilimi ekibi ve serving ikincil ise MLflow tek başına yeter. Yüksek Kubernetes olgunluğu, çok kiracılı SaaS, distributed training ihtiyacı varsa Kubeflow + MLflow Registry kombinasyonu tercih edilmeli. Hızlı serving, <150 ms p95 latency ve LLM yükü öncelikli ise BentoML serving katmanında konuşulmalı.

Senaryo	Önerilen yığın	Gerekçe
Startup, 3-8 kişi, hızlı PoC	MLflow + BentoML	Düşük operasyon, hızlı iteration
Mid-market, 10-30 kişi, K8s var	MLflow + KServe veya BentoML	Tracking ayrı, serving ayrı katman
Enterprise, 30+ kişi, multi-team	Kubeflow + MLflow + BentoML	İzolasyon, lineage, throughput
Finans/sağlık, regülasyon yüksek	Databricks MLflow + KServe	SOC2/HIPAA + audit trail
LLM-heavy serving, >1k req/s	BentoML vLLM + KServe	Continuous batching, GPU verimi
Tek bulut, az operasyon	Vertex AI Pipelines + Vertex Endpoints	Managed, kod aynı KFP DSL
Air-gapped on-prem	Kubeflow + MLflow self-hosted	İnternet bağlantısız çalışır

Sahada gözlemlediğim bir kalıbı paylaşayım: ekipler önce MLflow ile başlıyor, serving ihtiyacı geldiğinde BentoML ekliyor, multi-team paralel iş akışı kaçınılmaz olduğunda Kubeflow’a yatırım yapıyor. Bu sıralı evrim ekonomik açıdan en sağlıklısı. Ömer Önal olarak danışmanlık yürüttüğüm kurumsal projelerde benzer aşamalı yaklaşımı tavsiye ediyorum; tek seferde “tam Kubeflow yığını” kararı çoğu zaman erken optimizasyon olur. Mimari kararlar için kurumsal yapay zeka entegrasyon rehberi tamamlayıcı bir kaynaktır.

Sıkça Sorulan Sorular

MLflow tek başına production serving için yeterli mi?

Düşük trafikli (<100 RPS) iç araçlar veya batch inference için mlflow models serve yeterli olabilir. 200 RPS üstü, p95 latency <200 ms hedefi veya GPU inference söz konusuysa BentoML veya KServe önerilir. MLflow Registry’i serving katmanı ile birleştirmek standart kalıptır; iki bileşen birbirini tamamlar, ikame etmez.

Kubeflow kurmak için kaç kişilik bir ekip gerekir?

Self-managed Kubeflow için minimum 1 Kubernetes platform mühendisi + 1 MLOps mühendisi (toplam 1.5-2 FTE) yıllık bakım için gereklidir. İlk kurulum 3-4 ay sürebilir. Bu maliyetten kaçınmak isteyen kurumlar Vertex AI Pipelines (Google), SageMaker Pipelines (AWS) veya Azure ML Pipelines yönetilen seçeneklerine yöneliyor; KFP DSL’i bu üçünde de büyük ölçüde uyumlu çalışıyor.

BentoML neden MLflow serve’den hızlı?

BentoML üç tekniği birleştirir: adaptive batching (gelen istekleri mikropencerede grouplar), runner-service ayrımı (GIL bypass) ve framework-spesifik backend’ler (TorchScript, ONNX, TensorRT, vLLM). MLflow serve Flask/FastAPI üzerinde tek process’tir ve batching default aktif değildir. Aynı modelle 4 vCPU pod’da BentoML 4-5x throughput, 3-4x daha düşük p95 latency raporluyor.

Üçünü birden kullanmak overkill mi?

Çoğu enterprise için değil. Tipik kalıp: MLflow deney takibi + model registry, Kubeflow pipeline + distributed training, BentoML serving. Bu üçü “rakip” değil farklı katmanlardır. CNCF 2024 raporuna göre kurumsal MLOps yığınlarının %23’ü bu üçünü birlikte kullanıyor. Küçük ekipler için fazla; 30+ kişilik organizasyonlar için yatırım kendini hızlı amorti ediyor.

Vertex AI Pipelines kullanırsam Kubeflow’a ihtiyacım var mı?

Hayır, Vertex AI Pipelines Kubeflow Pipelines DSL’i ile aynı kodu çalıştırır ancak altyapıyı Google yönetir. KFP v2 SDK ile yazdığınız pipeline Vertex’te değişiklik olmadan çalışır. Self-managed Kubeflow’un sağladığı Notebook Controller, Katib gibi ek bileşenlere ihtiyaç duymuyorsanız Vertex Pipelines toplam sahip olma maliyetini ciddi ölçüde düşürür. SageMaker ve Azure ML Pipelines da benzer abstraksiyonlar sunar.

Sonuç

MLflow, Kubeflow ve BentoML aynı problemi farklı katmanlarda çözer: MLflow deneyleri ve modelleri kataloglar, Kubeflow Kubernetes üzerinde uçtan uca pipeline orkestrasyonu sağlar, BentoML modeli yüksek throughput’lu bir servise dönüştürür. Karar verirken “hangisi en iyi” sorusu yerine “hangi katmana hangisi” sorusu sorulmalı; çoğu kurumsal yığında üçü birlikte yaşıyor.

2026 yılında pragmatik öneri şu: küçük ekipler MLflow + BentoML ile başlamalı, çok kiracılı veya distributed training ağırlıklı operasyonlar Kubeflow’u eklemeli, yönetilen alternatif öncelikse Databricks Managed MLflow veya Vertex AI Pipelines tercih edilmeli. Yığın kararı tek seferde verilmemeli; aşamalı evrim hem operasyonel maliyeti hem de teknik borcu düşürür.

Kurumunuzun MLOps yığınını sıfırdan tasarlıyor veya mevcut platformu modernize ediyorsanız, ekibinizin büyüklüğüne ve regülasyon kapsamına özel bir karar matrisi ve geçiş planı için iletişim sayfası üzerinden bağlantı kurabilirsiniz; ML platform değerlendirmesi ve roadmap tasarımı süreçlerinde destek sağlıyorum.

OmerOnal

Yorum (1)

Ömer ÖNAL
Mayıs 16, 2026
Yanıtla

Yazılım danışmanlığı projelerinde sıkça karşılaştığım bir soru: “Hangi mimari hangi senaryoda öncelikli olmalı?” Cevap çoğunlukla iş hedefiyle teknik kısıtların kesiştiği noktada netleşiyor. Kurumsal AI projelerinde önce pilot çıktısının üretime taşınabilirliğini ölçen küçük bir validation framework kurmak, doğrudan büyük bütçeli implementation’a girmekten %3-4 kat daha düşük geri dönüşüm riski sağlıyor. Yorumlarınıza açığım.

Our Gallery

Contact Info