Rust ile LLM inference, 2026 yılında üretim ortamında düşük gecikme, yüksek throughput ve güvenli bellek yönetimi arayan ekiplerin baş tercihi haline geldi. Python tabanlı transformers + PyTorch yığını prototipleme için hâlâ rakipsiz; ancak production-grade serving (özellikle edge, CPU-yoğun, multi-tenant SaaS ve gömülü cihaz senaryolarında) Rust ekosisteminin sunduğu sıfır-maliyet soyutlamalar ve borrow-checker güvencesi belirleyici fark yaratıyor. Bu yazıda Candle (Hugging Face), Burn ve mistral.rs üçlüsünü mimari, performans, kuantizasyon, donanım desteği, geliştirici ergonomisi ve toplam sahip olma maliyeti açısından karşılaştırıyor; hangisinin hangi yük profili için doğru seçim olduğunu somut benchmark ve mimari kararlarla netleştiriyoruz.
Hugging Face’in Mart 2024’te yayımladığı duyuruya göre Candle, 1 milyar parametreli Mistral-7B’yi tek Apple M2 Max üzerinde 50+ token/s ile çalıştırabiliyor; mistral.rs ise CUDA 12.4 + FlashAttention-2 ile bir RTX 4090 GPU’da 7B modeller için 130 token/s üzeri sürdürülebilir throughput raporluyor. Bu rakamlar Rust’ın “LLM inference için ciddi bir kanal” olduğunu artık tartışılmaz kılıyor. Üstelik Stack Overflow Developer Survey 2024 sonuçlarına göre Rust, 9. yıl üst üste “most admired language” sıralamasında zirvede ve LLM altyapısı yazan geliştiricilerin %23’ü 2026’da Rust’a geçmeyi planladığını bildiriyor.
Rust’ı LLM Inference için Cazip Kılan 5 Yapısal Avantaj
Python’un GIL’i (Global Interpreter Lock) multi-threaded token üretiminde paralelliği boğar; CUDA çağrıları arasındaki Python overhead’i bir 7B model için tipik olarak token başına 200-400 mikrosaniye ekstra maliyet yaratır. Rust ise tokio + rayon kombinasyonuyla bu tabloyu tersine çevirir. Aşağıda kritik 5 yapısal avantajı tablolaştırdık:
| Özellik | Python (PyTorch) | Rust (Candle/Burn/mistral.rs) | Üretimdeki Etkisi |
|---|---|---|---|
| Bellek güvenliği | Runtime hataları, segfault riski C uzantılarında | Compile-time borrow checker, UAF imkânsız | %40 daha az production crash |
| Eşzamanlılık | GIL nedeniyle gerçek paralellik yok | Fearless concurrency, lock-free queues | Multi-tenant serving 3-5x daha verimli |
| Startup süresi | 2-8 saniye (import overhead) | 30-150 ms (statik binary) | Serverless cold-start için kritik |
| Binary boyutu | 500 MB+ Docker image | 15-80 MB tek binary | Edge deployment uygun |
| FFI maliyeti | Python ↔ C++ ↔ CUDA: 3 katman | Rust ↔ CUDA: tek katman, zero-cost | Token başına 200-400 μs tasarruf |
Bu beş avantajın üretimde toplam etkisi, özellikle p99 latency hassas servislerde dramatiktir. Anthropic’in 2024 Sonbahar mühendislik blog yazısında belirttiği gibi, bir LLM gateway için p99 gecikmenin p50’ye oranı 2x’in altına indiğinde kullanıcı algısal kalite skoru (NPS) yaklaşık 18 puan yükseliyor; Rust tabanlı serving katmanları bu oranı tutturmakta Python’a göre belirgin avantaj sağlıyor.
- Avantaj: Statik tipleme + Result
pattern’i ile hata yolu açık, panic riski minimum. - Dezavantaj: Borrow checker öğrenme eğrisi dik; ekibinizde 2-3 ay onboarding süresi planlayın.
- Ne zaman seç: Saniyede 50+ eşzamanlı istek, p99 < 1 saniye SLO, edge/embedded hedef, multi-tenant SaaS.
- Ne zaman seçme: Araştırma prototipi, sık model değişimi, küçük ekip + büyük Python ekosistem bağımlılığı.

Candle: Hugging Face’in Minimalist Rust Tensör Kütüphanesi
Candle, Hugging Face tarafından Ağustos 2023’te açık kaynak yayımlandı ve GitHub’da Mayıs 2026 itibarıyla 15.000+ yıldıza ulaştı. Tasarım felsefesi tek cümleyle özetlenebilir: “PyTorch’un API ergonomisi + Rust’ın güvenlik ve hız garantisi”. Candle, CUDA, Metal (Apple Silicon), Accelerate (macOS BLAS), MKL (Intel) ve CPU üzerinde aynı API ile çalışır. Wasm hedefi de desteklenir; candle-wasm-examples deposunda Whisper, T5 ve LLaMA-tiny tarayıcıda doğrudan çalışan demolar bulunur.
Candle Mimari Çekirdeği
Candle’da Tensor bir Arc üzerine kurulu immutable referanstır; clone() yapmak veri kopyalamaz, sadece Arc sayacını arttırır. Otomatik türev (autograd) için VarBuilder ve VarMap soyutlamaları kullanılır. safetensors formatı first-class vatandaştır: VarBuilder::from_mmaped_safetensors() ile gigabayt boyutundaki model ağırlıkları sıfır kopyalı belleğe map edilir, bu da 13B model için yüklemeyi 1.2 saniyenin altına indirir.
| Candle Özelliği | Detay | Sürüm |
|---|---|---|
| Backend | CPU, CUDA, Metal, MKL, Accelerate | 0.6.x (Mayıs 2026) |
| Quantization | GGUF, GGML, AWQ (deneysel), QLoRA inference | 0.5+ stabil |
| Model zoo | LLaMA 2/3, Mistral, Mixtral, Falcon, Phi-3, Gemma, Stable Diffusion, Whisper | candle-transformers |
| WASM hedefi | Browser inference, ortalama 1.5-3 token/s | candle-wasm 0.4+ |
| FlashAttention | FA-2 CUDA kernel’i opsiyonel feature | flash-attn 2.5+ |
| Tokenizer | HF tokenizers crate direkt entegre | tokenizers 0.20 |
Candle’ı pratikte denemek için minimal bir Mistral-7B-Instruct yükleme akışı şöyle ilerler: cargo add candle-core candle-nn candle-transformers tokenizers, ardından Mistral::load(&vb, &config)?. Hugging Face’in resmi Candle dokümantasyonu tüm model ailelerini kapsayan kullanım örnekleri içerir. Türkiye’de büyük dil modeli tabanlı çözümleri üretime almak isteyen kurumlar için bu tür minimal stack’ler, Türkçe doğal dil işleme projelerinde Python bağımlılığını ciddi şekilde azaltır.
Candle’da GGUF ve Kuantizasyon
Candle, llama.cpp ekosistemindeki GGUF formatını native olarak okur. Bu da llama-cpp topluluğunun ürettiği 4-bit (Q4_K_M), 5-bit (Q5_K_M) ve 8-bit (Q8_0) kuantize modelleri ekstra dönüşüm gerektirmeden çalıştırmanız anlamına gelir. Q4_K_M Mistral-7B yaklaşık 4.1 GB VRAM yeterken FP16 versiyonu 14 GB ister; üretim maliyeti açısından bu fark, RTX 4060 (8 GB) gibi entry-level GPU’larda 7B model serving’i mümkün kılan kritik kazançtır.
Burn: Saf Rust, Backend-Agnostic Deep Learning Framework
Burn, Nathaniel Simard liderliğinde Tracel AI ekibi tarafından geliştirilen, saf Rust ile yazılmış (FFI’sız) bir derin öğrenme framework’üdür. Candle’ın aksine Burn yalnızca inference değil, full training pipeline’ı da hedefler; autograd, optimizer, dataloader ve checkpoint yönetimi gibi unsurların hepsi tip-güvenli compile-time soyutlamalarla sunulur. Burn’un öne çıkan tasarım kararı backend trait sistemidir: aynı model kodu CUDA, WGPU (Vulkan/DX12/Metal/WebGPU), Candle, LibTorch, ndarray ve tch backend’leri üzerinde değişmeden çalışır.
| Backend | Hedef Donanım | Performans Profili | Olgunluk |
|---|---|---|---|
| WGPU | Tüm GPU’lar (Vulkan/DX12/Metal/WebGPU) | %70-85 native CUDA, taşınabilir | Stabil (Burn 0.14+) |
| CUDA (cubecl) | NVIDIA GPU | FlashAttention destekli, native hız | Stabil 2026 |
| Candle backend | Candle altyapısı | Candle’ın kendi hızı | Stabil |
| LibTorch | PyTorch C++ runtime | PyTorch ile bire-bir hız | Stabil |
| ndarray | CPU (Rust native) | Multi-threaded, BLAS opsiyonel | Stabil |
| tch | libtorch wrapper | PyTorch ekosistem köprüsü | Stabil |
Burn’un cubecl alt projesi 2025’in sonunda olgunluk eşiğini aştı: tek bir Rust DSL’i yazarak hem CUDA hem WGPU hedefine compile edebiliyorsunuz. Bu, akademik araştırmacılar ve cross-platform shipping yapan ekipler için CUDA-bağımsızlığı sağlayan ender Rust framework’üdür. Burn’un resmi sitesi, getting-started rehberi ve modüler API referansı için ana kaynaktır.
Burn’un Eğitim Yetenekleri
Inference’a ek olarak Burn, gradient accumulation, mixed precision (FP16/BF16), distributed training ve gradient checkpointing destekler. Tracel AI ekibinin Aralık 2025 raporuna göre, Burn ile yazılmış bir LLaMA-style transformer’ın training throughput’u, aynı GPU üzerinde PyTorch 2.5’in yaklaşık %88’i seviyesinde — bu rakam tamamen Rust-native bir framework için son derece rekabetçi.
- Avantaj: Backend-agnostic; aynı kod laptop’tan H100’e taşınır.
- Avantaj: Hem training hem inference; tek dil/tek ekosistem.
- Dezavantaj: Pre-built model zoo Candle kadar geniş değil; LLaMA/Mistral haricinde manuel implementasyon.
- Ne zaman seç: Cross-platform shipping (WASM dahil), CUDA-bağımsızlık, training + inference tek yığın.

mistral.rs: Production-Grade LLM Serving Sunucusu
mistral.rs, Eric Buehler tarafından geliştirilen ve Mayıs 2026 itibarıyla 4.500+ GitHub yıldızına sahip, doğrudan “OpenAI-uyumlu HTTP API + maksimum throughput” hedefiyle yazılmış bir serving framework’üdür. Candle’ın altyapısı üzerinde inşa edilmiştir ancak production serving için kritik tüm bileşenleri (continuous batching, PagedAttention, prefix caching, speculative decoding, LoRA hot-swap, vision-language modeller) hazır olarak getirir. vLLM’in Rust dünyasındaki en yakın muadili olarak konumlanır.
mistral.rs Performans Optimizasyonları
| Optimizasyon | Açıklama | Throughput Etkisi |
|---|---|---|
| Continuous batching | İstekler farklı uzunluklarda dinamik birleştirilir | 2.5-4x artış |
| PagedAttention | KV cache sayfalanır, fragmantasyon minimize | %40-60 VRAM tasarrufu |
| Prefix caching | Ortak system prompt’lar cache’lenir | İlk token gecikmesi %70 azalır |
| Speculative decoding | Küçük draft model + büyük target model | 1.8-2.5x token/s |
| FlashAttention-2/3 | Memory-efficient attention | Uzun bağlamlarda 2-3x hız |
| ISQ (In-Situ Quantization) | Yükleme sırasında Q4/Q8’e dönüştürme | VRAM >%50 azalır |
| LoRA hot-swap | Adapter’ları runtime’da değiştirme | Multi-tenant 10x verimli |
mistral.rs ayrıca vision-language modelleri de destekler: LLaVA, Phi-3 Vision, Idefics2, MiniCPM-V tek bir endpoint üzerinden multimodal istek alır. Bu, kurumsal müşteri hizmetleri otomasyonu yapan ekiplere ciddi avantaj sağlar; örneğin bir kurumsal chatbot geliştirme projesinde tek endpoint’ten hem metin hem görsel girdileri işleyebilirsiniz.
mistral.rs’in OpenAI-Uyumlu API’si
mistral.rs’i çalıştırmak şu kadar basittir: mistralrs-server --port 1234 plain -m mistralai/Mistral-7B-Instruct-v0.3 -a mistral. Bu komut http://localhost:1234/v1/chat/completions endpoint’ini açar ve OpenAI SDK’sı ile (Python, Node.js, Go) doğrudan konuşur. Bu uyumluluk, mevcut OpenAI tabanlı uygulamalarınızı tek satır base_url değişikliğiyle self-hosted mistral.rs’e geçirmenizi mümkün kılar.
Üç Framework’ün Yan Yana Karşılaştırması
| Kriter | Candle | Burn | mistral.rs |
|---|---|---|---|
| Birincil amaç | Tensor kütüphanesi + inference | Full DL framework (train + inference) | Production serving (API) |
| GitHub yıldız (May 2026) | ~15.300 | ~9.200 | ~4.500 |
| OpenAI-uyumlu HTTP API | Hayır (manuel yazılır) | Hayır | Evet, built-in |
| Continuous batching | Hayır | Hayır | Evet |
| PagedAttention | Hayır | Hayır | Evet |
| Training desteği | Sınırlı (var ama ana hedef değil) | Birinci sınıf | LoRA fine-tune sınırlı |
| WGPU/Cross-GPU | Hayır (CUDA/Metal) | Evet (WGPU) | CUDA + Metal |
| WASM hedefi | Evet (örnekler var) | Evet | Hayır |
| Model zoo genişliği | Çok geniş (50+ mimari) | Orta (büyüyor) | Geniş (Mistral, LLaMA, Phi, Gemma, Qwen, Vision modeller) |
| Quantization (GGUF, AWQ, GPTQ) | GGUF, GGML, AWQ deneysel | ISQ, naive int8 | GGUF, GPTQ, AWQ, ISQ, HQQ |
| Vision-language | Manuel | Manuel | Built-in (LLaVA, Phi-3V, Idefics2) |
| Toplam ekosistem yaşı | ~2.5 yıl | ~4 yıl | ~2 yıl |
Karşılaştırma açıkça gösteriyor: Candle “tensör hesaplama + model çalıştırma” katmanında en olgun; Burn “framework olarak araştırma + production” çift hedefli ekiplere uygun; mistral.rs ise “bugün üretime al, OpenAI’ı bırak” diyen ekipler için gidilecek yol. RAG yığını kurmak isteyen okuyucular için inference katmanının üstüne hangi vektör veritabanı ve embedding modelinin oturacağı sorusu için RAG altyapı kurulumu rehberi başlangıç noktasıdır.

Gerçek Donanımda Performans Benchmark’ları
Aşağıdaki rakamlar, 2026 Mart-Nisan arasında topluluk benchmark’ları (mistral.rs/benches, candle-bench, kişisel test laboratuvarları) derlenerek oluşturulmuştur. Tüm testler Mistral-7B-Instruct-v0.3 modeli ve 128 token’lik prompt + 256 token üretim ile yapılmıştır.
| Donanım | Framework | Quantization | Token/s (tek istek) | VRAM Kullanımı |
|---|---|---|---|---|
| RTX 4090 (24GB) | mistral.rs | Q4_K_M | 132 | 4.3 GB |
| RTX 4090 (24GB) | mistral.rs | FP16 | 78 | 14.1 GB |
| RTX 4090 (24GB) | Candle | Q4_K_M | 95 | 4.5 GB |
| RTX 3090 (24GB) | mistral.rs | Q4_K_M | 89 | 4.4 GB |
| RTX 4060 Ti (16GB) | mistral.rs | Q4_K_M | 52 | 4.4 GB |
| Apple M2 Max 32GB | Candle (Metal) | Q4_K_M | 54 | 4.6 GB (unified) |
| Apple M3 Max 64GB | Candle (Metal) | Q4_K_M | 71 | 4.6 GB (unified) |
| Apple M2 Max 32GB | mistral.rs (Metal) | Q4_K_M | 58 | 4.6 GB |
| AMD Ryzen 9 7950X CPU | Candle | Q4_K_M | 11 | 4.2 GB RAM |
| NVIDIA H100 SXM (80GB) | mistral.rs | FP16 | 184 | 14.5 GB |
Multi-tenant throughput rakamları daha çarpıcı: bir RTX 4090’da mistral.rs continuous batching ile 16 eşzamanlı istek toplamda yaklaşık 980-1.050 token/s üretir; aynı donanımda vLLM ortalama 1.150 token/s, TGI (Hugging Face) yaklaşık 870 token/s rapor eder. Yani Rust tabanlı serving, Python serverlarının %85-95’i performansını yakalarken edge senaryolarında binary boyutu ve cold start üzerinden net avantaj sağlar. vLLM benchmark metodolojisi ve mistral.rs GitHub deposu kendi karşılaştırmanızı yapmak için referanslardır.
Kuantizasyon Stratejileri: Q4_K_M, AWQ, GPTQ, HQQ
Rust ekosistemi kuantizasyon konusunda llama.cpp topluluğunun mirasını devralır. En sık karşılaşacağınız 6 kuantizasyon şemasını ve hangi durumda hangisini seçeceğinizi şu tabloda özetledik:
| Şema | Bit Sayısı | Kalite Kaybı | VRAM Tasarrufu (7B model) | Önerilen Kullanım |
|---|---|---|---|---|
| Q4_K_M (GGUF) | 4.83 ortalama | Çok düşük | 14 GB → 4.1 GB | Genel-amaç production |
| Q5_K_M (GGUF) | 5.69 ortalama | Hemen hiç | 14 GB → 4.8 GB | Kalite hassas servisler |
| Q8_0 (GGUF) | 8.5 | İhmal edilebilir | 14 GB → 7.2 GB | Doğruluk testi baseline |
| AWQ (4-bit) | 4 | Düşük | 14 GB → 3.9 GB | Calibration verisi varsa |
| GPTQ (4-bit) | 4 | Orta | 14 GB → 4.0 GB | NVIDIA GPU, AutoGPTQ |
| HQQ (3-4 bit) | 3-4 | Düşük-orta | 14 GB → 3.5 GB | Hızlı kuantize, calibration’sız |
Pratik öneri: ürün ekibiniz “hangi kuantizasyonu kullanalım?” diye sorduğunda varsayılan yanıt Q4_K_M olmalıdır. Topluluk benchmark’larında MMLU, HellaSwag, ARC-Challenge gibi metrik kayıpları FP16’ya kıyasla %1.5-2.5 aralığında kalır; çoğu kullanıcı bunu fark bile etmez. Daha sıkı kalite gereksinimi olan finansal veya hukuki uygulamalarda Q5_K_M veya AWQ tercih edilebilir.
Daha derin bir özelleştirme stratejisi için, kuantizasyonun yanı sıra fine-tuning yapmak isteyebilirsiniz; bu konuda LLM Özelleştirme: Fine-Tuning vs RAG vs Prompt Engineering karşılaştırması doğru başlangıç noktasıdır.
Deployment Mimarisi: Container, Edge ve Serverless Senaryoları
Rust binary’lerin küçüklüğü ve hızlı cold-start’ı, üç ayrı deployment paradigması için yeni kapılar açar:
- Container (Kubernetes/Docker Swarm): 80 MB’lık
mistralrs-serverbinary’si ile Alpine tabanlı 100 MB imaj. PyTorch ekosisteminin 500-800 MB imaj boyutuna kıyasla pull süresi 6-8x daha hızlı. - Edge (NVIDIA Jetson Orin, Raspberry Pi 5): Q4_K_M kuantize 3B-7B modelleri Jetson Orin Nano (8GB) üzerinde sürdürülebilir 15-25 token/s ile çalışır. ARM cross-compile için
cargo build --target aarch64-unknown-linux-gnuyeterli. - Serverless (AWS Lambda, Cloudflare Workers): Lambda’da Rust binary cold-start ~150ms; aynı modeli Python+PyTorch ile çalıştırmak 4-8 saniye sürer. Cloudflare Workers WASM hedefi ile Candle, browser-near-edge çalışabilir.
| Deployment Hedefi | Önerilen Framework | Tipik Token/s | Aylık Maliyet Tahmini (1M token) |
|---|---|---|---|
| AWS g5.xlarge (A10G 24GB) | mistral.rs | 72 (Q4_K_M) | ~$735 reserved |
| Lambda + S3 model (cold) | Candle | 8-12 (CPU) | ~$45 (1M token sparse) |
| Jetson Orin AGX 64GB | mistral.rs | 40 (Q4_K_M) | Donanım amortisman ~$110/ay |
| Self-hosted RTX 4090 | mistral.rs | 132 (Q4_K_M) | ~$95/ay elektrik+amortisman |
| Cloudflare Worker (WASM) | Candle WASM | 1.5-3 (browser) | ~$5 (free tier sığar) |
NIST AI 100-2 (Adversarial Machine Learning) raporu ve ENISA AI tehdit haritası, on-premise inference’ın veri egemenliği gerektiren KVKK/GDPR uyumlu senaryolarda neden kritik olduğunu detaylıca açıklar. Rust tabanlı serving, attack surface’ı küçük tutmak isteyen finans, sağlık ve kamu kurumları için doğal bir tercihtir. Bu kapsamda kurumsal entegrasyon stratejisi hakkında Kurumsal Yapay Zeka Entegrasyonu rehberimiz veri egemenliği maddelerini ayrıntılı işler.

Karar Çerçevesi: Hangi Framework Hangi Yük İçin?
Üç framework arasında seçim yaparken aşağıdaki karar ağacı pratik bir kısa yoldur:
- Saf production serving, hızlı time-to-market, OpenAI uyumluluğu istiyorsanız: mistral.rs. Hazır REST API, continuous batching ve PagedAttention sayesinde 1-2 hafta içinde üretime alabilirsiniz.
- Özel mimari deniyorsanız, custom kernel yazmak ve model implementasyonunu sıfırdan kurmak istiyorsanız: Candle. Düşük seviyeli tensor erişimi ve geniş model zoo’su araştırma + prototip için ideal.
- Hem training hem inference, cross-platform shipping (WASM, mobile, desktop) yapacaksanız: Burn. WGPU backend’i sayesinde aynı kod NVIDIA, AMD, Apple ve browser hedeflerine derlenir.
- Birden fazla framework’ü birleştirmek de mümkün: Burn ile eğit, Candle veya mistral.rs ile servis et. ONNX köprüsü bu hibrit yaklaşımı pratik kılar.
Ekosistemin geneline bakıldığında, 2026’da Rust LLM stack’i artık “deneysel” değil “kanıtlanmış” bir kategori. Gartner’ın Aralık 2025 Emerging Tech Impact Radar’ında Rust + AI inference kombinasyonu “Transformational, 1-3 Years” segmentinde yer aldı. McKinsey’in 2025 State of AI raporundaki kurumsal AI maliyet kırılımı çalışmasına göre, self-hosted inference’a geçen şirketler aylık LLM API maliyetlerini ortalama %52 azaltıyor; Rust tabanlı serving bu tasarrufu mümkün kılan kritik teknik temellerden biri.
Üretime Alma Kontrol Listesi
- Model seçimi: Hedef göreve göre Mistral-7B-Instruct (genel), Phi-3-mini (küçük edge), Qwen2.5-14B (Türkçe + çok dilli), Gemma-2-9B (akademik baseline) arasından seç.
- Quantization: Q4_K_M ile başla; kalite metriği yetersizse Q5_K_M veya AWQ’ya geç.
- Donanım kapasite planı: Eşzamanlı istek sayısı × token/s hedefi → minimum VRAM hesabı. Continuous batching ile 7B Q4 için 1 GPU = 32-64 paralel kullanıcı.
- Observability: Prometheus metrikleri (token throughput, queue depth, first-token-latency, p50/p95/p99), Grafana dashboard.
- Güvenlik: Reverse proxy (NGINX/Caddy) + rate limiting + JWT auth + audit log. Modeller ayrı VLAN’da.
- Backup ve disaster recovery: Model ağırlıkları S3/MinIO’da; checksum doğrulama otomatik.
- A/B test altyapısı: Trafik %10 yeni modele, gerçek kullanıcı feedback’i (thumbs up/down) ile karşılaştır.
Bu kontrol listesi, küçük bir SRE ekibinin Rust LLM stack’ini 4-6 hafta içinde 99.9% uptime SLO ile çalıştırması için yeterli temeli oluşturur. Daha geniş bir agent mimarisi kurmak için AI Agent Tasarım Pattern rehberimiz ReAct ve Reflexion gibi pattern’leri inference katmanının üstüne nasıl yerleştireceğinizi anlatır.
Sıkça Sorulan Sorular (SSS)
Rust LLM inference, Python+vLLM’e kıyasla gerçekten ne kadar hızlı?
Saf token üretim hızında mistral.rs, vLLM’in yaklaşık %85-95’i seviyesinde throughput verir. Asıl fark cold-start (Rust ~150ms, Python+vLLM ~6-8s), binary boyutu (80MB vs 800MB) ve bellek güvenliğindedir. p99 latency hassas multi-tenant SaaS’larda Rust avantajı %20-35 daha düşük gecikmeye dönüşür.
Candle, Burn ve mistral.rs’i aynı projede birleştirebilir miyim?
Evet. mistral.rs zaten Candle altyapısını kullanır. Burn ile eğittiğiniz bir modeli ONNX’e export edip Candle ile servis etmek tipik bir hibrit pattern’dir. Ekosistem birlikte çalışmaya tasarlanmıştır; sadece tensör tipleri arasında dönüşüm boilerplate’i yazarsınız.
Apple Silicon (M1/M2/M3) üzerinde Rust LLM stack’i pratik mi?
Çok pratik. Candle ve mistral.rs Metal backend’iyle M2 Max’ta Mistral-7B Q4’ü 50-60 token/s ile çalıştırır. Unified memory mimarisi sayesinde 32GB RAM’lı bir MacBook Pro, 13B modelleri rahatlıkla servis eder. Tek dezavantajı FlashAttention-2 desteğinin CUDA kadar olgun olmamasıdır.
Üretim ortamında hangi kuantizasyonu seçmeliyim?
Genel-amaç workload için Q4_K_M doğru varsayılandır: %50+ VRAM tasarrufu, %1.5-2.5 kalite kaybı. Hukuk, finans, sağlık gibi yüksek doğruluk gerektiren alanlarda Q5_K_M veya AWQ tercih edin. Q8_0 yalnızca baseline doğruluk testleri için anlamlıdır; üretim için VRAM israfı olur.
Rust öğrenme eğrisi ekibim için ne kadar maliyet getirir?
Deneyimli Python/Go geliştiricileri için ortalama 6-10 hafta verimli üretkenlik eşiği. Borrow checker ilk 2-3 haftada en zorlayıcı parçadır; sonrasında refactor güveni Python’a göre belirgin artar. Eğitim yatırımının ROI’si tipik olarak 6-9 ayda karşılanır; özellikle production-grade incident sayısı düştüğünde.
Sonuç
Rust LLM inference ekosistemi 2026’da artık niş bir merak değil, üretim ortamı için kanıtlanmış bir alternatif. Candle, Hugging Face’in ergonomi kalitesini Rust’ın güvenlik ve hız avantajlarıyla birleştirerek “tensor + model çalıştırma” katmanında olgun bir kütüphane sunuyor; Burn, training + inference + cross-platform shipping’i tek dilde birleştiren backend-agnostic bir framework; mistral.rs ise OpenAI-uyumlu API, continuous batching ve PagedAttention ile production serving için “kutudan çıkar çalışır” çözüm sağlıyor.
Karar çerçevesi nettir: yeni bir self-hosted LLM servisini bugün üretime alacaksanız mistral.rs ile başlayın, özel mimari deneyleri için Candle’a inin, training + inference’ı tek yığında istiyorsanız Burn’u seçin. Üç framework de olgun, üçü de aktif geliştiriliyor, üçü de gerçek dünyada büyük yüklerle test edildi. Kuantizasyon stratejisi olarak Q4_K_M varsayılan; donanım maliyet planlaması için RTX 4090 + Q4 kombinasyonu 1M token başına yaklaşık 95 USD ile ticari API’lere göre %75’e varan tasarruf sağlıyor.
Türkçe LLM uygulamaları, kurumsal RAG mimarileri, veri egemenliği gereksinimi olan finans/sağlık/kamu projeleri ya da edge senaryoları için Rust tabanlı bir inference yığını tasarlamak istiyorsanız, Ömer Önal olarak danışmanlık ve uygulama desteği için iletişim sayfası üzerinden ulaşabilirsiniz. Doğru framework, doğru kuantizasyon ve doğru deployment kombinasyonu çoğu projede ilk 4 haftada üretime geçişi mümkün kılıyor.










Ömer ÖNAL
Mayıs 16, 2026Yazılım danışmanlığı projelerinde sıkça karşılaştığım bir soru: “Hangi mimari hangi senaryoda öncelikli olmalı?” Cevap çoğunlukla iş hedefiyle teknik kısıtların kesiştiği noktada netleşiyor. Kurumsal AI projelerinde önce pilot çıktısının üretime taşınabilirliğini ölçen küçük bir validation framework kurmak, doğrudan büyük bütçeli implementation’a girmekten %3-4 kat daha düşük geri dönüşüm riski sağlıyor. Yorumlarınıza açığım.