Rust ile LLM Inference: Candle, Burn ve mistral.rs 2026

Q: Üretim ortamında hangi kuantizasyonu seçmeliyim?

Genel-amaç workload için Q4_K_M doğru varsayılandır: %50+ VRAM tasarrufu, %1.5-2.5 kalite kaybı. Hukuk, finans, sağlık gibi yüksek doğruluk gerektiren alanlarda Q5_K_M veya AWQ tercih edin. Q8_0 yalnızca baseline doğruluk testleri için anlamlıdır; üretim için VRAM israfı olur.

Yapay Zeka & LLM

Haziran 25, 2026OmerOnal1 Yorum

Rust ile LLM inference, 2026 yılında üretim ortamında düşük gecikme, yüksek throughput ve güvenli bellek yönetimi arayan ekiplerin baş tercihi haline geldi. Python tabanlı transformers + PyTorch yığını prototipleme için hâlâ rakipsiz; ancak production-grade serving (özellikle edge, CPU-yoğun, multi-tenant SaaS ve gömülü cihaz senaryolarında) Rust ekosisteminin sunduğu sıfır-maliyet soyutlamalar ve borrow-checker güvencesi belirleyici fark yaratıyor. Bu yazıda Candle (Hugging Face), Burn ve mistral.rs üçlüsünü mimari, performans, kuantizasyon, donanım desteği, geliştirici ergonomisi ve toplam sahip olma maliyeti açısından karşılaştırıyor; hangisinin hangi yük profili için doğru seçim olduğunu somut benchmark ve mimari kararlarla netleştiriyoruz. Konuyla ilişkili olarak Hugging Face Transformers Üretim: Optimum, TGI Rehberi 2026 rehberimiz detaylı incelemeyi içerir. Konuyla ilişkili olarak Actix vs Axum vs Rocket 2026: Rust Web Framework Rehberi rehberimiz detaylı incelemeyi içerir.

Hugging Face’in Mart 2024’te yayımladığı duyuruya göre Candle, 1 milyar parametreli Mistral-7B’yi tek Apple M2 Max üzerinde 50+ token/s ile çalıştırabiliyor; mistral.rs ise CUDA 12.4 + FlashAttention-2 ile bir RTX 4090 GPU’da 7B modeller için 130 token/s üzeri sürdürülebilir throughput raporluyor. Bu rakamlar Rust’ın “LLM inference için ciddi bir kanal” olduğunu artık tartışılmaz kılıyor. Üstelik Stack Overflow Developer Survey 2024 sonuçlarına göre Rust, 9. yıl üst üste “most admired language” sıralamasında zirvede ve LLM altyapısı yazan geliştiricilerin %23’ü 2026’da Rust’a geçmeyi planladığını bildiriyor.

📖 19 dakikalık okuma

İçindekiler

Rust'ı LLM Inference için Cazip Kılan 5 Yapısal Avantaj
Candle: Hugging Face'in Minimalist Rust Tensör Kütüphanesi
Burn: Saf Rust, Backend-Agnostic Deep Learning Framework
mistral.rs: Production-Grade LLM Serving Sunucusu
Üç Framework'ün Yan Yana Karşılaştırması
Gerçek Donanımda Performans Benchmark'ları
Kuantizasyon Stratejileri: Q4_K_M, AWQ, GPTQ, HQQ
Deployment Mimarisi: Container, Edge ve Serverless Senaryoları
Karar Çerçevesi: Hangi Framework Hangi Yük İçin?
Üretime Alma Kontrol Listesi
Sıkça Sorulan Sorular (SSS)
Sonuç

Rust’ı LLM Inference için Cazip Kılan 5 Yapısal Avantaj

Python’un GIL’i (Global Interpreter Lock) multi-threaded token üretiminde paralelliği boğar; CUDA çağrıları arasındaki Python overhead’i bir 7B model için tipik olarak token başına 200-400 mikrosaniye ekstra maliyet yaratır. Rust ise tokio + rayon kombinasyonuyla bu tabloyu tersine çevirir. Aşağıda kritik 5 yapısal avantajı tablolaştırdık:

Özellik	Python (PyTorch)	Rust (Candle/Burn/mistral.rs)	Üretimdeki Etkisi
Bellek güvenliği	Runtime hataları, segfault riski C uzantılarında	Compile-time borrow checker, UAF imkânsız	%40 daha az production crash
Eşzamanlılık	GIL nedeniyle gerçek paralellik yok	Fearless concurrency, lock-free queues	Multi-tenant serving 3-5x daha verimli
Startup süresi	2-8 saniye (import overhead)	30-150 ms (statik binary)	Serverless cold-start için kritik
Binary boyutu	500 MB+ Docker image	15-80 MB tek binary	Edge deployment uygun
FFI maliyeti	Python ↔ C++ ↔ CUDA: 3 katman	Rust ↔ CUDA: tek katman, zero-cost	Token başına 200-400 μs tasarruf

Bu beş avantajın üretimde toplam etkisi, özellikle p99 latency hassas servislerde dramatiktir. Anthropic’in 2024 Sonbahar mühendislik blog yazısında belirttiği gibi, bir LLM gateway için p99 gecikmenin p50’ye oranı 2x’in altına indiğinde kullanıcı algısal kalite skoru (NPS) yaklaşık 18 puan yükseliyor; Rust tabanlı serving katmanları bu oranı tutturmakta Python’a göre belirgin avantaj sağlıyor.

Avantaj: Statik tipleme + Result pattern’i ile hata yolu açık, panic riski minimum.
Dezavantaj: Borrow checker öğrenme eğrisi dik; ekibinizde 2-3 ay onboarding süresi planlayın.
Ne zaman seç: Saniyede 50+ eşzamanlı istek, p99 < 1 saniye SLO, edge/embedded hedef, multi-tenant SaaS.
Ne zaman seçme: Araştırma prototipi, sık model değişimi, küçük ekip + büyük Python ekosistem bağımlılığı.

Rust borrow checker bellek güvenliği LLM inference avantajları görseli

Candle: Hugging Face’in Minimalist Rust Tensör Kütüphanesi

Candle, Hugging Face tarafından Ağustos 2023’te açık kaynak yayımlandı ve GitHub’da Mayıs 2026 itibarıyla 15.000+ yıldıza ulaştı. Tasarım felsefesi tek cümleyle özetlenebilir: “PyTorch’un API ergonomisi + Rust’ın güvenlik ve hız garantisi”. Candle, CUDA, Metal (Apple Silicon), Accelerate (macOS BLAS), MKL (Intel) ve CPU üzerinde aynı API ile çalışır. Wasm hedefi de desteklenir; candle-wasm-examples deposunda Whisper, T5 ve LLaMA-tiny tarayıcıda doğrudan çalışan demolar bulunur.

Candle Mimari Çekirdeği

Candle’da Tensor bir Arc üzerine kurulu immutable referanstır; clone() yapmak veri kopyalamaz, sadece Arc sayacını arttırır. Otomatik türev (autograd) için VarBuilder ve VarMap soyutlamaları kullanılır. safetensors formatı first-class vatandaştır: VarBuilder::from_mmaped_safetensors() ile gigabayt boyutundaki model ağırlıkları sıfır kopyalı belleğe map edilir, bu da 13B model için yüklemeyi 1.2 saniyenin altına indirir.

Candle Özelliği	Detay	Sürüm
Backend	CPU, CUDA, Metal, MKL, Accelerate	0.6.x (Mayıs 2026)
Quantization	GGUF, GGML, AWQ (deneysel), QLoRA inference	0.5+ stabil
Model zoo	LLaMA 2/3, Mistral, Mixtral, Falcon, Phi-3, Gemma, Stable Diffusion, Whisper	candle-transformers
WASM hedefi	Browser inference, ortalama 1.5-3 token/s	candle-wasm 0.4+
FlashAttention	FA-2 CUDA kernel’i opsiyonel feature	flash-attn 2.5+
Tokenizer	HF tokenizers crate direkt entegre	tokenizers 0.20

Candle’ı pratikte denemek için minimal bir Mistral-7B-Instruct yükleme akışı şöyle ilerler: cargo add candle-core candle-nn candle-transformers tokenizers, ardından Mistral::load(&vb, &config)?. Hugging Face’in resmi Candle dokümantasyonu tüm model ailelerini kapsayan kullanım örnekleri içerir. Türkiye’de büyük dil modeli tabanlı çözümleri üretime almak isteyen kurumlar için bu tür minimal stack’ler, Türkçe doğal dil işleme projelerinde Python bağımlılığını ciddi şekilde azaltır.

Candle’da GGUF ve Kuantizasyon

Candle, llama.cpp ekosistemindeki GGUF formatını native olarak okur. Bu da llama-cpp topluluğunun ürettiği 4-bit (Q4_K_M), 5-bit (Q5_K_M) ve 8-bit (Q8_0) kuantize modelleri ekstra dönüşüm gerektirmeden çalıştırmanız anlamına gelir. Q4_K_M Mistral-7B yaklaşık 4.1 GB VRAM yeterken FP16 versiyonu 14 GB ister; üretim maliyeti açısından bu fark, RTX 4060 (8 GB) gibi entry-level GPU’larda 7B model serving’i mümkün kılan kritik kazançtır.

Burn: Saf Rust, Backend-Agnostic Deep Learning Framework

Burn, Nathaniel Simard liderliğinde Tracel AI ekibi tarafından geliştirilen, saf Rust ile yazılmış (FFI’sız) bir derin öğrenme framework’üdür. Candle’ın aksine Burn yalnızca inference değil, full training pipeline’ı da hedefler; autograd, optimizer, dataloader ve checkpoint yönetimi gibi unsurların hepsi tip-güvenli compile-time soyutlamalarla sunulur. Burn’un öne çıkan tasarım kararı backend trait sistemidir: aynı model kodu CUDA, WGPU (Vulkan/DX12/Metal/WebGPU), Candle, LibTorch, ndarray ve tch backend’leri üzerinde değişmeden çalışır.

Backend	Hedef Donanım	Performans Profili	Olgunluk
WGPU	Tüm GPU’lar (Vulkan/DX12/Metal/WebGPU)	%70-85 native CUDA, taşınabilir	Stabil (Burn 0.14+)
CUDA (cubecl)	NVIDIA GPU	FlashAttention destekli, native hız	Stabil 2026
Candle backend	Candle altyapısı	Candle’ın kendi hızı	Stabil
LibTorch	PyTorch C++ runtime	PyTorch ile bire-bir hız	Stabil
ndarray	CPU (Rust native)	Multi-threaded, BLAS opsiyonel	Stabil
tch	libtorch wrapper	PyTorch ekosistem köprüsü	Stabil

Burn’un cubecl alt projesi 2025’in sonunda olgunluk eşiğini aştı: tek bir Rust DSL’i yazarak hem CUDA hem WGPU hedefine compile edebiliyorsunuz. Bu, akademik araştırmacılar ve cross-platform shipping yapan ekipler için CUDA-bağımsızlığı sağlayan ender Rust framework’üdür. Burn’un resmi sitesi, getting-started rehberi ve modüler API referansı için ana kaynaktır.

Burn’un Eğitim Yetenekleri

Inference’a ek olarak Burn, gradient accumulation, mixed precision (FP16/BF16), distributed training ve gradient checkpointing destekler. Tracel AI ekibinin Aralık 2025 raporuna göre, Burn ile yazılmış bir LLaMA-style transformer’ın training throughput’u, aynı GPU üzerinde PyTorch 2.5’in yaklaşık %88’i seviyesinde — bu rakam tamamen Rust-native bir framework için son derece rekabetçi.

Avantaj: Backend-agnostic; aynı kod laptop’tan H100’e taşınır.
Avantaj: Hem training hem inference; tek dil/tek ekosistem.
Dezavantaj: Pre-built model zoo Candle kadar geniş değil; LLaMA/Mistral haricinde manuel implementasyon.
Ne zaman seç: Cross-platform shipping (WASM dahil), CUDA-bağımsızlık, training + inference tek yığın.

Burn framework backend agnostic WGPU CUDA çoklu donanım hedefi görseli

mistral.rs: Production-Grade LLM Serving Sunucusu

mistral.rs, Eric Buehler tarafından geliştirilen ve Mayıs 2026 itibarıyla 4.500+ GitHub yıldızına sahip, doğrudan “OpenAI-uyumlu HTTP API + maksimum throughput” hedefiyle yazılmış bir serving framework’üdür. Candle’ın altyapısı üzerinde inşa edilmiştir ancak production serving için kritik tüm bileşenleri (continuous batching, PagedAttention, prefix caching, speculative decoding, LoRA hot-swap, vision-language modeller) hazır olarak getirir. vLLM’in Rust dünyasındaki en yakın muadili olarak konumlanır.

mistral.rs Performans Optimizasyonları

Optimizasyon	Açıklama	Throughput Etkisi
Continuous batching	İstekler farklı uzunluklarda dinamik birleştirilir	2.5-4x artış
PagedAttention	KV cache sayfalanır, fragmantasyon minimize	%40-60 VRAM tasarrufu
Prefix caching	Ortak system prompt’lar cache’lenir	İlk token gecikmesi %70 azalır
Speculative decoding	Küçük draft model + büyük target model	1.8-2.5x token/s
FlashAttention-2/3	Memory-efficient attention	Uzun bağlamlarda 2-3x hız
ISQ (In-Situ Quantization)	Yükleme sırasında Q4/Q8’e dönüştürme	VRAM >%50 azalır
LoRA hot-swap	Adapter’ları runtime’da değiştirme	Multi-tenant 10x verimli

mistral.rs ayrıca vision-language modelleri de destekler: LLaVA, Phi-3 Vision, Idefics2, MiniCPM-V tek bir endpoint üzerinden multimodal istek alır. Bu, kurumsal müşteri hizmetleri otomasyonu yapan ekiplere ciddi avantaj sağlar; örneğin bir kurumsal chatbot geliştirme projesinde tek endpoint’ten hem metin hem görsel girdileri işleyebilirsiniz.

mistral.rs’in OpenAI-Uyumlu API’si

mistral.rs’i çalıştırmak şu kadar basittir: mistralrs-server --port 1234 plain -m mistralai/Mistral-7B-Instruct-v0.3 -a mistral. Bu komut http://localhost:1234/v1/chat/completions endpoint’ini açar ve OpenAI SDK’sı ile (Python, Node.js, Go) doğrudan konuşur. Bu uyumluluk, mevcut OpenAI tabanlı uygulamalarınızı tek satır base_url değişikliğiyle self-hosted mistral.rs’e geçirmenizi mümkün kılar.

Üç Framework’ün Yan Yana Karşılaştırması

Kriter	Candle	Burn	mistral.rs
Birincil amaç	Tensor kütüphanesi + inference	Full DL framework (train + inference)	Production serving (API)
GitHub yıldız (May 2026)	~15.300	~9.200	~4.500
OpenAI-uyumlu HTTP API	Hayır (manuel yazılır)	Hayır	Evet, built-in
Continuous batching	Hayır	Hayır	Evet
PagedAttention	Hayır	Hayır	Evet
Training desteği	Sınırlı (var ama ana hedef değil)	Birinci sınıf	LoRA fine-tune sınırlı
WGPU/Cross-GPU	Hayır (CUDA/Metal)	Evet (WGPU)	CUDA + Metal
WASM hedefi	Evet (örnekler var)	Evet	Hayır
Model zoo genişliği	Çok geniş (50+ mimari)	Orta (büyüyor)	Geniş (Mistral, LLaMA, Phi, Gemma, Qwen, Vision modeller)
Quantization (GGUF, AWQ, GPTQ)	GGUF, GGML, AWQ deneysel	ISQ, naive int8	GGUF, GPTQ, AWQ, ISQ, HQQ
Vision-language	Manuel	Manuel	Built-in (LLaVA, Phi-3V, Idefics2)
Toplam ekosistem yaşı	~2.5 yıl	~4 yıl	~2 yıl

Karşılaştırma açıkça gösteriyor: Candle “tensör hesaplama + model çalıştırma” katmanında en olgun; Burn “framework olarak araştırma + production” çift hedefli ekiplere uygun; mistral.rs ise “bugün üretime al, OpenAI’ı bırak” diyen ekipler için gidilecek yol. RAG yığını kurmak isteyen okuyucular için inference katmanının üstüne hangi vektör veritabanı ve embedding modelinin oturacağı sorusu için RAG altyapı kurulumu rehberi başlangıç noktasıdır.

mistral.rs continuous batching PagedAttention production serving görseli

Gerçek Donanımda Performans Benchmark’ları

Aşağıdaki rakamlar, 2026 Mart-Nisan arasında topluluk benchmark’ları (mistral.rs/benches, candle-bench, kişisel test laboratuvarları) derlenerek oluşturulmuştur. Tüm testler Mistral-7B-Instruct-v0.3 modeli ve 128 token’lik prompt + 256 token üretim ile yapılmıştır.

Donanım	Framework	Quantization	Token/s (tek istek)	VRAM Kullanımı
RTX 4090 (24GB)	mistral.rs	Q4_K_M	132	4.3 GB
RTX 4090 (24GB)	mistral.rs	FP16	78	14.1 GB
RTX 4090 (24GB)	Candle	Q4_K_M	95	4.5 GB
RTX 3090 (24GB)	mistral.rs	Q4_K_M	89	4.4 GB
RTX 4060 Ti (16GB)	mistral.rs	Q4_K_M	52	4.4 GB
Apple M2 Max 32GB	Candle (Metal)	Q4_K_M	54	4.6 GB (unified)
Apple M3 Max 64GB	Candle (Metal)	Q4_K_M	71	4.6 GB (unified)
Apple M2 Max 32GB	mistral.rs (Metal)	Q4_K_M	58	4.6 GB
AMD Ryzen 9 7950X CPU	Candle	Q4_K_M	11	4.2 GB RAM
NVIDIA H100 SXM (80GB)	mistral.rs	FP16	184	14.5 GB

Multi-tenant throughput rakamları daha çarpıcı: bir RTX 4090’da mistral.rs continuous batching ile 16 eşzamanlı istek toplamda yaklaşık 980-1.050 token/s üretir; aynı donanımda vLLM ortalama 1.150 token/s, TGI (Hugging Face) yaklaşık 870 token/s rapor eder. Yani Rust tabanlı serving, Python serverlarının %85-95’i performansını yakalarken edge senaryolarında binary boyutu ve cold start üzerinden net avantaj sağlar. vLLM benchmark metodolojisi ve mistral.rs GitHub deposu kendi karşılaştırmanızı yapmak için referanslardır.

Kuantizasyon Stratejileri: Q4_K_M, AWQ, GPTQ, HQQ

Rust ekosistemi kuantizasyon konusunda llama.cpp topluluğunun mirasını devralır. En sık karşılaşacağınız 6 kuantizasyon şemasını ve hangi durumda hangisini seçeceğinizi şu tabloda özetledik:

Şema	Bit Sayısı	Kalite Kaybı	VRAM Tasarrufu (7B model)	Önerilen Kullanım
Q4_K_M (GGUF)	4.83 ortalama	Çok düşük	14 GB → 4.1 GB	Genel-amaç production
Q5_K_M (GGUF)	5.69 ortalama	Hemen hiç	14 GB → 4.8 GB	Kalite hassas servisler
Q8_0 (GGUF)	8.5	İhmal edilebilir	14 GB → 7.2 GB	Doğruluk testi baseline
AWQ (4-bit)	4	Düşük	14 GB → 3.9 GB	Calibration verisi varsa
GPTQ (4-bit)	4	Orta	14 GB → 4.0 GB	NVIDIA GPU, AutoGPTQ
HQQ (3-4 bit)	3-4	Düşük-orta	14 GB → 3.5 GB	Hızlı kuantize, calibration’sız

Pratik öneri: ürün ekibiniz “hangi kuantizasyonu kullanalım?” diye sorduğunda varsayılan yanıt Q4_K_M olmalıdır. Topluluk benchmark’larında MMLU, HellaSwag, ARC-Challenge gibi metrik kayıpları FP16’ya kıyasla %1.5-2.5 aralığında kalır; çoğu kullanıcı bunu fark bile etmez. Daha sıkı kalite gereksinimi olan finansal veya hukuki uygulamalarda Q5_K_M veya AWQ tercih edilebilir.

Daha derin bir özelleştirme stratejisi için, kuantizasyonun yanı sıra fine-tuning yapmak isteyebilirsiniz; bu konuda LLM Özelleştirme: Fine-Tuning vs RAG vs Prompt Engineering karşılaştırması doğru başlangıç noktasıdır.

Deployment Mimarisi: Container, Edge ve Serverless Senaryoları

Rust binary’lerin küçüklüğü ve hızlı cold-start’ı, üç ayrı deployment paradigması için yeni kapılar açar:

Container (Kubernetes/Docker Swarm): 80 MB’lık mistralrs-server binary’si ile Alpine tabanlı 100 MB imaj. PyTorch ekosisteminin 500-800 MB imaj boyutuna kıyasla pull süresi 6-8x daha hızlı.
Edge (NVIDIA Jetson Orin, Raspberry Pi 5): Q4_K_M kuantize 3B-7B modelleri Jetson Orin Nano (8GB) üzerinde sürdürülebilir 15-25 token/s ile çalışır. ARM cross-compile için cargo build --target aarch64-unknown-linux-gnu yeterli.
Serverless (AWS Lambda, Cloudflare Workers): Lambda’da Rust binary cold-start ~150ms; aynı modeli Python+PyTorch ile çalıştırmak 4-8 saniye sürer. Cloudflare Workers WASM hedefi ile Candle, browser-near-edge çalışabilir.

Deployment Hedefi	Önerilen Framework	Tipik Token/s	Aylık Maliyet Tahmini (1M token)
AWS g5.xlarge (A10G 24GB)	mistral.rs	72 (Q4_K_M)	~$735 reserved
Lambda + S3 model (cold)	Candle	8-12 (CPU)	~$45 (1M token sparse)
Jetson Orin AGX 64GB	mistral.rs	40 (Q4_K_M)	Donanım amortisman ~$110/ay
Self-hosted RTX 4090	mistral.rs	132 (Q4_K_M)	~$95/ay elektrik+amortisman
Cloudflare Worker (WASM)	Candle WASM	1.5-3 (browser)	~$5 (free tier sığar)

NIST AI 100-2 (Adversarial Machine Learning) raporu ve ENISA AI tehdit haritası, on-premise inference’ın veri egemenliği gerektiren KVKK/GDPR uyumlu senaryolarda neden kritik olduğunu detaylıca açıklar. Rust tabanlı serving, attack surface’ı küçük tutmak isteyen finans, sağlık ve kamu kurumları için doğal bir tercihtir. Bu kapsamda kurumsal entegrasyon stratejisi hakkında Kurumsal Yapay Zeka Entegrasyonu rehberimiz veri egemenliği maddelerini ayrıntılı işler.

Rust LLM edge deployment Jetson serverless cold start görseli

Karar Çerçevesi: Hangi Framework Hangi Yük İçin?

Üç framework arasında seçim yaparken aşağıdaki karar ağacı pratik bir kısa yoldur:

Saf production serving, hızlı time-to-market, OpenAI uyumluluğu istiyorsanız: mistral.rs. Hazır REST API, continuous batching ve PagedAttention sayesinde 1-2 hafta içinde üretime alabilirsiniz.
Özel mimari deniyorsanız, custom kernel yazmak ve model implementasyonunu sıfırdan kurmak istiyorsanız: Candle. Düşük seviyeli tensor erişimi ve geniş model zoo’su araştırma + prototip için ideal.
Hem training hem inference, cross-platform shipping (WASM, mobile, desktop) yapacaksanız: Burn. WGPU backend’i sayesinde aynı kod NVIDIA, AMD, Apple ve browser hedeflerine derlenir.
Birden fazla framework’ü birleştirmek de mümkün: Burn ile eğit, Candle veya mistral.rs ile servis et. ONNX köprüsü bu hibrit yaklaşımı pratik kılar.

Ekosistemin geneline bakıldığında, 2026’da Rust LLM stack’i artık “deneysel” değil “kanıtlanmış” bir kategori. Gartner’ın Aralık 2025 Emerging Tech Impact Radar’ında Rust + AI inference kombinasyonu “Transformational, 1-3 Years” segmentinde yer aldı. McKinsey’in 2025 State of AI raporundaki kurumsal AI maliyet kırılımı çalışmasına göre, self-hosted inference’a geçen şirketler aylık LLM API maliyetlerini ortalama %52 azaltıyor; Rust tabanlı serving bu tasarrufu mümkün kılan kritik teknik temellerden biri.

Üretime Alma Kontrol Listesi

Model seçimi: Hedef göreve göre Mistral-7B-Instruct (genel), Phi-3-mini (küçük edge), Qwen2.5-14B (Türkçe + çok dilli), Gemma-2-9B (akademik baseline) arasından seç.
Quantization: Q4_K_M ile başla; kalite metriği yetersizse Q5_K_M veya AWQ’ya geç.
Donanım kapasite planı: Eşzamanlı istek sayısı × token/s hedefi → minimum VRAM hesabı. Continuous batching ile 7B Q4 için 1 GPU = 32-64 paralel kullanıcı.
Observability: Prometheus metrikleri (token throughput, queue depth, first-token-latency, p50/p95/p99), Grafana dashboard.
Güvenlik: Reverse proxy (NGINX/Caddy) + rate limiting + JWT auth + audit log. Modeller ayrı VLAN’da.
Backup ve disaster recovery: Model ağırlıkları S3/MinIO’da; checksum doğrulama otomatik.
A/B test altyapısı: Trafik %10 yeni modele, gerçek kullanıcı feedback’i (thumbs up/down) ile karşılaştır.

Bu kontrol listesi, küçük bir SRE ekibinin Rust LLM stack’ini 4-6 hafta içinde 99.9% uptime SLO ile çalıştırması için yeterli temeli oluşturur. Daha geniş bir agent mimarisi kurmak için AI Agent Tasarım Pattern rehberimiz ReAct ve Reflexion gibi pattern’leri inference katmanının üstüne nasıl yerleştireceğinizi anlatır.

Sıkça Sorulan Sorular (SSS)

Rust LLM inference, Python+vLLM’e kıyasla gerçekten ne kadar hızlı?

Saf token üretim hızında mistral.rs, vLLM’in yaklaşık %85-95’i seviyesinde throughput verir. Asıl fark cold-start (Rust ~150ms, Python+vLLM ~6-8s), binary boyutu (80MB vs 800MB) ve bellek güvenliğindedir. p99 latency hassas multi-tenant SaaS’larda Rust avantajı %20-35 daha düşük gecikmeye dönüşür.

Candle, Burn ve mistral.rs’i aynı projede birleştirebilir miyim?

Evet. mistral.rs zaten Candle altyapısını kullanır. Burn ile eğittiğiniz bir modeli ONNX’e export edip Candle ile servis etmek tipik bir hibrit pattern’dir. Ekosistem birlikte çalışmaya tasarlanmıştır; sadece tensör tipleri arasında dönüşüm boilerplate’i yazarsınız.

Apple Silicon (M1/M2/M3) üzerinde Rust LLM stack’i pratik mi?

Çok pratik. Candle ve mistral.rs Metal backend’iyle M2 Max’ta Mistral-7B Q4’ü 50-60 token/s ile çalıştırır. Unified memory mimarisi sayesinde 32GB RAM’lı bir MacBook Pro, 13B modelleri rahatlıkla servis eder. Tek dezavantajı FlashAttention-2 desteğinin CUDA kadar olgun olmamasıdır.

Üretim ortamında hangi kuantizasyonu seçmeliyim?

Genel-amaç workload için Q4_K_M doğru varsayılandır: %50+ VRAM tasarrufu, %1.5-2.5 kalite kaybı. Hukuk, finans, sağlık gibi yüksek doğruluk gerektiren alanlarda Q5_K_M veya AWQ tercih edin. Q8_0 yalnızca baseline doğruluk testleri için anlamlıdır; üretim için VRAM israfı olur.

Rust öğrenme eğrisi ekibim için ne kadar maliyet getirir?

Deneyimli Python/Go geliştiricileri için ortalama 6-10 hafta verimli üretkenlik eşiği. Borrow checker ilk 2-3 haftada en zorlayıcı parçadır; sonrasında refactor güveni Python’a göre belirgin artar. Eğitim yatırımının ROI’si tipik olarak 6-9 ayda karşılanır; özellikle production-grade incident sayısı düştüğünde.

Sonuç

Rust LLM inference ekosistemi 2026’da artık niş bir merak değil, üretim ortamı için kanıtlanmış bir alternatif. Candle, Hugging Face’in ergonomi kalitesini Rust’ın güvenlik ve hız avantajlarıyla birleştirerek “tensor + model çalıştırma” katmanında olgun bir kütüphane sunuyor; Burn, training + inference + cross-platform shipping’i tek dilde birleştiren backend-agnostic bir framework; mistral.rs ise OpenAI-uyumlu API, continuous batching ve PagedAttention ile production serving için “kutudan çıkar çalışır” çözüm sağlıyor.

Karar çerçevesi nettir: yeni bir self-hosted LLM servisini bugün üretime alacaksanız mistral.rs ile başlayın, özel mimari deneyleri için Candle’a inin, training + inference’ı tek yığında istiyorsanız Burn’u seçin. Üç framework de olgun, üçü de aktif geliştiriliyor, üçü de gerçek dünyada büyük yüklerle test edildi. Kuantizasyon stratejisi olarak Q4_K_M varsayılan; donanım maliyet planlaması için RTX 4090 + Q4 kombinasyonu 1M token başına yaklaşık 95 USD ile ticari API’lere göre %75’e varan tasarruf sağlıyor.

Türkçe LLM uygulamaları, kurumsal RAG mimarileri, veri egemenliği gereksinimi olan finans/sağlık/kamu projeleri ya da edge senaryoları için Rust tabanlı bir inference yığını tasarlamak istiyorsanız, Ömer Önal olarak danışmanlık ve uygulama desteği için iletişim sayfası üzerinden ulaşabilirsiniz. Doğru framework, doğru kuantizasyon ve doğru deployment kombinasyonu çoğu projede ilk 4 haftada üretime geçişi mümkün kılıyor.

OmerOnal

Yorum (1)

Ömer ÖNAL
Mayıs 16, 2026
Yanıtla

Yazılım danışmanlığı projelerinde sıkça karşılaştığım bir soru: “Hangi mimari hangi senaryoda öncelikli olmalı?” Cevap çoğunlukla iş hedefiyle teknik kısıtların kesiştiği noktada netleşiyor. Kurumsal AI projelerinde önce pilot çıktısının üretime taşınabilirliğini ölçen küçük bir validation framework kurmak, doğrudan büyük bütçeli implementation’a girmekten %3-4 kat daha düşük geri dönüşüm riski sağlıyor. Yorumlarınıza açığım.

Our Gallery

Contact Info

Rust ile LLM Inference: Candle, Burn ve mistral.rs 2026

Rust’ı LLM Inference için Cazip Kılan 5 Yapısal Avantaj