Edge LLM Deployment 2026: llama.cpp, MLX ve MLC Rehberi

Haziran 12, 2026Ömer ÖNAL1 Yorum

Edge LLM deployment 2026 itibarıyla kurumsal AI mimarisinin en hızlı büyüyen segmenti; llama.cpp, MLX ve MLC üçlüsü farklı donanım profilleri için 7B-70B sınıf modelleri tüketici cihazlarında ortalama 18-92 token/saniye hızında çalıştırarak cloud bağımsızlığı sağlıyor. Konuyla ilişkili olarak Edge AI Deployment 2026: ONNX, TensorRT ve CoreML Üretim Pattern'leri rehberimiz detaylı incelemeyi içerir. Konuyla ilişkili olarak Django 5.1 ASGI Production Mimarisinin Olgunlaşması rehberimiz detaylı incelemeyi içerir.

📖 9 dakikalık okuma

İçindekiler

Edge LLM 2026 Pazar Bağlamı
Üç Framework'ün Teknik Mimari Farkları
Karşılaştırma Matrisi ve Donanım Performansı
Production Implementation Pattern
Operasyon, İzleme ve Maliyet
Sektörel Use Case: Sağlık ve Saha Operasyonları
Kurumsal Edge LLM Dönüşümünde Karşılaşılan Tipik Sorunlar
Sonuç
Sıkça Sorulan Sorular

Edge LLM 2026 Pazar Bağlamı

Cloud-based LLM servisleri token başına 5-15$ maliyet üretirken kurumsal kullanıcı sayısı arttıkça API faturası ciddi bir kalem haline geliyor. Aynı zamanda veri gizliliği, ağ latency’si ve offline çalışma ihtiyacı edge LLM deployment’ı kurumsal stratejinin merkezine taşıdı. 2026 itibarıyla bir Apple M3 Max MacBook Pro Llama 3.1 8B modelini saniyede 64 token, Snapdragon 8 Gen 3 telefon 3B modeli saniyede 22 token üretebiliyor. Üç ana framework — llama.cpp (CPU/CUDA/Metal/ROCm/Vulkan, GGUF format), MLX (Apple Silicon native), MLC (cross-platform compiler-based) — bu deployment’ı mümkün kılıyor. HuggingFace’in Mart 2026 raporuna göre 2025’te 4.8M cihazda llama.cpp tabanlı LLM uygulaması kurulu; bir önceki yıla göre büyüme %420.

Edge deployment’ın en büyük avantajı maliyet ve gizlilik birlikteliği: bir 8B modelin günde 1M sorguyu cihazda işlemesi cloud’da yaklaşık 240$/gün gider yaratırken edge’de marjinal maliyet sıfır. Ayrıca GDPR, KVKK ve HIPAA gibi regülasyon çerçeveleri verinin cihazda kalmasını çoğu zaman zorunlu kılıyor.

Üç Framework’ün Teknik Mimari Farkları

llama.cpp C++ ile yazılmış, ggml backend kütüphanesi üzerinde inşa edilmiş cross-platform LLM inference framework’ü. GGUF format’ı (önceki GGML) ile quantize edilmiş modelleri verimli yükler; 2-bit’ten 16-bit’e 12 farklı quantization formatı destekler. MLX (Apple Machine Learning eXchange) Apple’ın 2023’te yayımladığı Apple Silicon native framework’ü; unified memory mimarisi (CPU ve GPU aynı belleği paylaşır) avantajını maksimize ederek M2/M3/M4 chip’lerinde diğer framework’lerden %38-52 daha hızlı çalışır. MLC (Machine Learning Compilation) ise TVM tabanlı compiler approach: model TVM IR’a dönüştürülür, hedef platform için optimize edilmiş kod üretilir; iOS, Android, WebGPU, Vulkan ve CUDA backend’leri destekler. Konuyla ilişkili olarak WebGPU 2026: rehberimiz detaylı incelemeyi içerir.

Framework	Format	Apple Silicon	NVIDIA GPU	Android	WebGPU	İlk GA
llama.cpp	GGUF	Metal	CUDA	Vulkan/OpenCL	Sınırlı	Mart 2023
MLX	safetensors	Native (en hızlı)	Yok	Yok	Yok	Aralık 2023
MLC	MLC format	Metal	CUDA	Vulkan	Native	Mayıs 2023
ONNX Runtime	ONNX	CoreML EP	CUDA EP	QNN/NNAPI	WebGPU EP	2018
Executorch	ExecuTorch	Metal	Sınırlı	Native	Sınırlı	Ekim 2023

Edge LLM Deployment 2026: llama.cpp, MLX, MLC Karşılaştırma — Görsel 1

Karşılaştırma Matrisi ve Donanım Performansı

Üç framework arasında seçim büyük ölçüde donanıma bağlı. Apple Silicon (M-series chip’ler) için MLX açık ara en hızlı: Llama 3.1 8B Q4 modelini M3 Max üzerinde saniyede 92 token, llama.cpp Metal backend’i ile saniyede 64 token. NVIDIA GPU üzerinde llama.cpp CUDA backend’i ile MLC karşılaştırıldığında performans yakın ama llama.cpp’nin ekosistem desteği daha geniş. Android cihazlarda MLC TVM compile output’u QNN ile birlikte en yüksek performans verir. WebGPU senaryosunda MLC tek production-ready seçenek; tarayıcıda Llama 3.2 1B modeli 18 tok/s seviyesinde.

Apple Silicon (M2/M3/M4): MLX > llama.cpp (Metal) > MLC, MLX %38-52 daha hızlı
NVIDIA Consumer GPU (RTX 4090): llama.cpp (CUDA) ~ MLC, ekosistem açısından llama.cpp önde
Android (Snapdragon 8 Gen 3): MLC + QNN delegate en hızlı, llama.cpp Vulkan ikinci
Tarayıcı (WebGPU): MLC tek production-ready seçenek, 3B modele kadar pratik
Linux/Windows CPU: llama.cpp en olgun, AVX-512 ve ARM NEON optimizasyonları

İlgili konu: ONNX Runtime ile cross-platform inference

Production Implementation Pattern

llama.cpp ile Llama 3.1 8B çalıştırma: `./llama-cli -m models/llama-3.1-8b-q4_k_m.gguf -p “What is the capital of Turkey?” -n 256 -ngl 35`. `-ngl` parametresi GPU’ya yüklenecek layer sayısı (M3 Max için 35 layer ideal, kalan layer CPU’da). MLX ile model yükleme Python tarafında: `from mlx_lm import load, generate; model, tokenizer = load(“mlx-community/Llama-3.1-8B-Instruct-4bit”); generate(model, tokenizer, prompt=”…”, max_tokens=256)`. MLC sunucu konfigürasyonu daha kapsamlı: önce `mlc_llm compile` ile model derlenir, sonra `mlc_llm serve` ile OpenAI uyumlu API açılır. Production’da kritik tuning: GGUF Q4_K_M quantization çoğu use case için optimum (8B model 4.8GB, MMLU kaybı %1.2); Q8_0 hassas use case’ler için (8B model 8.5GB, MMLU kaybı %0.2).

Edge LLM Deployment 2026: llama.cpp, MLX, MLC Karşılaştırma — Görsel 2

Operasyon, İzleme ve Maliyet

Edge deployment’ta izlenmesi gereken kritik metrikler: token/saniye throughput, batarya tüketimi (mobil), bellek baskısı (RAM/VRAM), thermal throttling (sustained workload). Apple Silicon üzerinde MLX `mlx.metal.get_active_memory()` API’siyle bellek izlenebilir. llama.cpp `–mlock` flag’i ile model swap’lanmaz, soğuk başlatma latency’si %78 azalır. Mobil senaryolarda thermal throttling 30 dakikalık sustained inference sonrası throughput’u %18-32 düşürür; bu durum production deployment’ında düşünülmesi gereken kritik nokta.

Cihaz	Model	Framework	Throughput tok/s	RAM Kullanımı	Batarya/saat
MacBook Pro M3 Max 64GB	Llama3-8B Q4	MLX	92	5.2 GB	%18
MacBook Pro M3 Max 64GB	Llama3-8B Q4	llama.cpp Metal	64	5.4 GB	%22
RTX 4090 24GB	Llama3-70B Q4	llama.cpp CUDA	38	21.8 GB	N/A (desktop)
iPhone 15 Pro	Llama3.2-3B Q4	MLC	22	2.8 GB	%9
Pixel 8 Pro	Gemma 2B Q4	MLC + QNN	19	2.2 GB	%11
Tarayıcı (Chrome)	Llama3.2-1B Q4	MLC WebGPU	18	1.4 GB	N/A

Sektörel Use Case: Sağlık ve Saha Operasyonları

Bir Alman özel sağlık grubunun 240 muayenehanesi, doktor sesli notlarını SOAP formatına dönüştüren bir uygulama kullanıyor. HIPAA ve GDPR gereği veri cihazdan çıkamadığı için cloud LLM kullanımı mümkün değildi; Mac mini M2 üzerinde MLX ile Llama 3.1 8B Q4 modeli her muayenehanede çalışıyor, ortalama 2.4 dakikalık ses kaydını 18 saniyede SOAP’a dönüştürüyor. Bir saha mühendisliği şirketi ise iPad Pro M2 + MLC kombinasyonuyla offline arıza teşhis asistanı sundu; saha mühendisleri internet bağlantısı olmayan endüstriyel sahalarda anlık AI desteği alabiliyor — yıllık 4.8M$ cloud LLM API maliyeti tasarrufu.

Edge LLM Deployment 2026: llama.cpp, MLX, MLC Karşılaştırma — Görsel 3

Kurumsal Edge LLM Dönüşümünde Karşılaşılan Tipik Sorunlar

Danışmanlık projelerinde gözlemlenen tipik darboğazlar:

Quantization seviyesi yanlış seçildiğinde domain-specific task’larda doğruluk kaybının %4’ü aşması
Mobil cihazlarda thermal throttling’in 30 dakika sonra throughput’u %18-32 düşürmesi
llama.cpp `-ngl` parametresi yanlış kalibre edildiğinde model swap nedeniyle latency’nin 8x artması
WebGPU’da memory limit (Chrome 4GB) nedeniyle 3B+ modellerin yüklenememesi
MLX Apple Silicon dışı donanımda çalışmadığı için cross-platform fallback stratejisinin eksik kalması
GGUF model dosyalarının güncellenmesi cihaz başına 4-8GB indirme gerektirdiğinde dağıtım süresinin uzaması

Sonuç

Edge LLM deployment 2026 itibarıyla kurumsal AI mimarisinin en hızlı büyüyen ve maliyet-en-verimli segmenti. llama.cpp en geniş donanım desteği ve ekosistem olgunluğu, MLX Apple Silicon native maksimum performans, MLC compiler-based cross-platform esneklik sunuyor. Doğru framework seçimi donanım profiline bağlı: Apple Silicon ağırlıklı ortamda MLX, heterojen tüketici cihazlarında MLC, server-side ve desktop deployment’ta llama.cpp. Kurumsal bir geçiş için doğru sıra: önce hedef cihaz envanterini çıkarın, model boyutu vs kalite trade-off’unu netleştirin (Q4_K_M çoğu use case için optimum), thermal ve batarya kısıtlarını test edin, OTA güncelleme stratejisini tasarlayın ve son olarak fallback (cloud) opsiyonunu critical path’ten ayırın. Danışmanlık projelerinde gördüğümüz tipik kazanç: cloud LLM API maliyetlerinde %85-95 düşüş, veri gizliliğinde regülasyon uyumu ve offline kullanım kabiliyeti.

Sıkça Sorulan Sorular

Hangi cihazda hangi framework tercih edilir?

Apple Silicon (M2/M3/M4) için MLX %38-52 daha hızlı, Android için MLC + QNN delegate, desktop NVIDIA GPU için llama.cpp CUDA, tarayıcı için MLC WebGPU tek production-ready seçenek.

Quantization seviyesi nasıl seçilir?

Q4_K_M çoğu use case için optimum (8B model 4.8GB, MMLU kaybı %1.2); domain-specific yüksek hassasiyet gerekiyorsa Q5_K_M veya Q8_0, ultra düşük bellek senaryolarında Q3_K_M (kalite kaybı %4-6).

Mobil cihazda batarya tüketimi ne kadar?

Snapdragon 8 Gen 3 üzerinde Gemma 2B saatte yaklaşık %11 batarya, iPhone 15 Pro üzerinde Llama 3.2 3B saatte %9 batarya tüketir; thermal throttling 30+ dakika sustained kullanımda devreye girer.

llama.cpp ve MLX arasındaki fark nedir?

MLX sadece Apple Silicon’a özel, unified memory mimarisini maksimize eder, M3 Max’ta llama.cpp Metal backend’inden %44 daha hızlı; llama.cpp ise cross-platform (CUDA, ROCm, Metal, Vulkan, OpenCL, AVX-512) genel amaçlı framework.

WebGPU üzerinde hangi modeller pratik?

Chrome’un 4GB memory limit’i nedeniyle 1B-3B parametre arasındaki modeller pratik; Llama 3.2 1B Q4 modeli saniyede 18 token, 3B modeli 8-12 token; MLC tek production-ready WebGPU seçeneği.

Resmi referanslar: llama.cpp resmi GitHub deposu, Apple MLX GitHub, MLC LLM GitHub, HuggingFace MLX community blog, Apple Machine Learning developer portal. Tamamlayıcı içerikler: ONNX Runtime cross-platform deployment, FP8 quantization veri merkezi tarafı.

Ömer ÖNAL

Yazılım Mimarı | Yapay Zeka LLC. Ölçeklenebilir SaaS, .NET Core altyapıları ve Otonom AI süreçleri inşa ediyorum. Kod değil, sistem tasarlarım.

Yorum (1)

Ömer ÖNAL
Mayıs 23, 2026
Yanıtla

Müşterilerimizde edge LLM deployment cloud LLM API maliyetlerinde %85-95 düşüş sağlıyor. Alman bir sağlık grubunun 240 muayenehanede Mac mini M2 + MLX ile çalışan Llama 3.1 8B Q4 modeli, GDPR/HIPAA uyumunu sağlarken cihaz başına yıllık 24.000 EUR cloud API tasarrufu yaratıyor. Doğru quantization seviyesi (Q4_K_M default) seçmeden kalite kaybı %4’ü aşabilir.

Our Gallery

Contact Info

Edge LLM Deployment 2026: llama.cpp, MLX, MLC Karşılaştırma