HuggingFace inference 2026 itibarıyla kurumsal LLM dağıtımında en kalabalık ekosistem: 1,5M+ model, Transformers için aylık 250M+ indirme ve saatlik 0,06 $-8 $ arasında ölçeklenen GPU katmanları, “PyTorch + Flask” çağının kapandığını gösteriyor. Hugging Face üretim yığını üç katmana ayrılır: Optimum (model dönüştürme/kuantizasyon), TGI (yüksek-throughput LLM sunucusu) ve Inference Endpoints / Serverless Inference (managed hosting). Bu rehber Türkçe NLP ve kurumsal RAG senaryolarında üç bileşenin ne zaman, hangi konfigürasyonla ve hangi maliyet seviyesinde kullanılacağına dair karar çerçevesi sunar.

Kritik kırılma noktası genellikle on milyonuncu istektir. Llama 3.1 70B’yi A100’de naive PyTorch ile koşturursanız 4-6 token/sn; aynı modeli TGI üzerinde FA2 + continuous batching ile koştururken 80-110 token/sn. ~20 kat fark latency ve maliyet kalemine doğrudan yansır.

Hugging Face Üretim Yığını: Üç Katmanlı Mimari

Hugging Face ekosistemi 2026’da modüler bir yığındır. Bir modeli notebook’tan müşteri API’sine taşırken üç katman sıralanır: Transformers/Datasets (eğitim), Optimum (donanım dönüşümü), TGI/Inference Endpoints (sunum). Katmanları karıştırmak sık hata: 7B modeli en pahalı GPU dilimine deploy etmek faturayı 5-8 kat şişirir.

Akış: Optimum modeli native runtime’a çevirir (ONNX, TensorRT-LLM, OpenVINO, Neuron) — %50-80 küçültme, 2-5x hızlanma. TGI continuous batching + paged attention GPU doluluğunu %30’dan %85-95’e taşır. Self-host yükü kaldırılamıyorsa Inference Endpoints altyapı ve SLA’yı üstlenir.

KatmanGörevTipik kütüphane/sürümHangi sorunu çözer
TransformersEğitim, fine-tune, inference (dev)v4.45+ (2025-2026)Model yükleme, tokenizasyon, PEFT/LoRA
DatasetsVeri pipeline’ı, streamingv3.xBüyük corpus’ları RAM’e sığdırma
AccelerateMulti-GPU/TPU/DeepSpeed wrapperv0.34+Distributed training kodunu sadeleştirme
OptimumDonanım-özgü model dönüşümüv1.20+ (ONNX, TensorRT, OpenVINO, Neuron)Latency düşürme, model küçültme
TGIProduction-grade LLM serverv2.3+Continuous batching, yüksek RPS
TEIEmbedding/reranker servisiv1.5+Yüksek-hızlı vektörleştirme
Inference EndpointsManaged hosting2026 GADevOps yükünü Hugging Face’e devretme

Aşağıdaki üç ana iş yükü tipinde mimari seçimleri farklılaşır:

  • Yüksek-volume sınıflandırma/embedding: Avantaj: küçük BERT/MiniLM Optimum-ONNX ile CPU’da 5-10ms latency. Ne zaman seç: RPS > 200, GPU lüks.
  • Generative LLM (chat, RAG, agent): Avantaj: TGI + FA2 + paged attention 70B’leri tek A100 80GB’da çalıştırır. Dezavantaj: cold start 60-120 sn. Ne zaman seç: kalıcı trafik, dedicated GPU bütçesi.
  • Burst/aralıklı: Avantaj: Serverless Inference, milyonda 0,0001-0,0008 $/1k token. Ne zaman seç: trafik öngörülemez, idle GPU lüks.
  • Edge inference (mobil, on-prem): Avantaj: Optimum-OpenVINO/Jetson ile 100-200ms latency. Ne zaman seç: veri ülke dışına çıkamaz.
Optimum kütüphanesi donanım hedefli model dönüşüm akışı görseli
Optimum kütüphanesi donanım hedefli model dönüşüm akışı görseli

Optimum: Donanım Hedefli Dönüştürme ve Kuantizasyon

Optimum, Transformers modelini native runtime’a köprüleyen optimize-edici katmandır. 2026’da altı backend: ONNX Runtime, NVIDIA TensorRT-LLM, Intel OpenVINO/Neural Compressor, Habana Gaudi, AWS Neuron ve Apple CoreML. ORTModelForSequenceClassification.from_pretrained(...) bir BERT modelini tek satırda ONNX’e çevirip CPU’da 3-5 kat hızlandırır.

Kuantizasyon Optimum’un en güçlü tarafıdır. Dynamic INT8, static INT8, AWQ, GPTQ ve NF4 teknikleri tek API’den yürütülür. Llama 3.1 8B’yi AWQ 4-bit ile sıkıştırınca VRAM 16 GB’tan ~5,5 GB’a düşer; doğruluk kaybı çoğu task’ta %1-3 (Open LLM Leaderboard ölçümleri).

Optimum backendHedef donanımTipik hız kazanımıBoyut kazanımıDoğruluk kaybı
ONNX Runtime (CPU)Intel/AMD x86, ARM642-4x0% (FP32) – 75% (INT8)<%1 (FP16) / %1-2 (INT8)
ONNX Runtime + DirectMLWindows GPU (NVIDIA/AMD)3-6x50-75%<%2
TensorRT-LLMNVIDIA A100/H100/L40S5-12x50-87% (FP8/INT4)%1-3
OpenVINOIntel Xeon/Arc/NPU3-7x50-87%%1-3
Habana Gaudi 2Habana HPU3-5x (vs A100 fiyat-perf.)FP8 native%1-2
AWS NeuronInf2/Trn1 instance’ları2-4x cost-effectiveBF16/FP8%1-2
CoreMLApple Silicon (M2/M3/M4)10-20x vs PyTorch CPU50-75%<%2

Pratik örnek: Türkçe BERT üzerinde duygu analizi yapan bir e-ticaret platformu, günde 12 milyon yorum işliyordu. PyTorch CPU’da tek yorum ~120 ms, Optimum-ONNX INT8 ile ~22 ms, OpenVINO INT8 ile ~14 ms. Aynı donanımda günlük throughput 720 binden 6,1 milyona çıktı; benzer optimizasyonları Türkçe doğal dil işleme projelerinde sık görüyoruz. ONNX Runtime quantization rehberi tipik kayıp aralıklarını detaylandırır.

Optimum’un en kritik gotcha’sı sürüm uyumluluğudur. ONNX opset, transformers, tokenizers ve optimum versiyonları kilitli bir matris oluşturur; production image’larında pinned dependencies ve reproducible build zorunludur. Flash Attention makalesi (arXiv) performans matematiğini özetler; resmi Optimum dokümantasyonu her backend için tested kombinasyonları yayınlar.

Text Generation Inference (TGI): Üretim-Sınıfı LLM Sunucusu

TGI, Rust + Python ile yazılmış, generative LLM’ler için optimize edilmiş inference server’ıdır. Vanilla transformers.pipeline("text-generation") tek request’i tek tek işler ve GPU doluluk oranı %20-30’da kalır. TGI continuous batching ile değişken-uzunluklu request’leri aynı batch’e yerleştirir, paged attention VRAM fragmentasyonunu önler, speculative decoding draft model üzerinden çıkarımı 2-3 kat hızlandırır.

TGI’nin vLLM, LMDeploy, SGLang gibi alternatiflere göre özel yeri ekosistem entegrasyonundan gelir: --model-id meta-llama/Llama-3.1-8B-Instruct argümanı tokenizer, config, safetensors weights ve quantization cache’ini Hub’dan otomatik çeker. AWS, GCP, Azure ve Hugging Face Inference Endpoints’in default backend’i TGI’dir; SLA’lı production deployment için en kanıtlanmış seçenektir.

EngineContinuous batchingPaged attentionSpeculative decodingHF Hub nativeLicense
TGI 2.3+EvetEvet (FA2)EvetBirinci sınıfApache 2.0
vLLMEvetEvet (orijinal)EvetEvet (sym link)Apache 2.0
LMDeployEvetEvetKısmiKısıtlıApache 2.0
SGLangEvetEvetEvetKısıtlıApache 2.0
OpenLLM/BentoMLEvet (TGI/vLLM wrapper)WrapperWrapperWrapperApache 2.0
Triton + TensorRT-LLMEvetEvetEvetHayırNVIDIA EULA

Üretime almak için dört parametre kritik: --max-input-length, --max-batch-prefill-tokens, --max-total-tokens ve --num-shard. Değerler GPU VRAM’ine göre kalibre edilmelidir; aksi halde OOM hataları üretimde dakikalar içinde patlar. Resmi TGI dokümantasyonu her model ailesi için önerilen değerleri sunar.

  • Continuous batching: Farklı uzunluklu istekler aynı batch’e toplanır, GPU doluluk %30’dan %85-95’e çıkar.
  • Paged attention: VRAM sabit-boyutlu sayfalara bölünür, fragmentasyon önlenir, 2-3x daha fazla concurrent kapasite.
  • Flash Attention 2: Matrix tiling ile A100/H100 üzerinde 2-4x hızlanma.
  • Speculative decoding: Küçük draft model + büyük target model, sequential generation darboğazını kırar.
  • Tensor parallelism: 70B+ modeller GPU’lara shard’lanır, NVLink üzerinden 200-600 GB/s.
  • Structured outputs: JSON schema/regex kısıtlamaları ile generation kontrol altına alınır.
TGI continuous batching ve paged attention GPU throughput görselleştirmesi
TGI continuous batching ve paged attention GPU throughput görselleştirmesi

TGI Performance Benchmark: Donanım ve Throughput Matrisi

TGI throughput’u model boyutu, quantization, GPU mimarisi ve concurrent user sayısı ile değişir. Tablo Hugging Face benchmark’ları, MLPerf Inference v4.1 ve community testlerinden derlenmiştir; resmi karşılaştırma için MLPerf Inference Datacenter referans alınır. Sayılar prompt 512 + output 256 token için; uzun-bağlam testlerde %20-40 düşer.

ModelQuant.GPUTokens/sn (tek user)Tokens/sn (32 concurrent)P50 latency
Llama 3.1 8BFP16A100 40GB~85~1.450~280 ms
Llama 3.1 8BAWQ INT4RTX 4090 24GB~110~1.200~240 ms
Llama 3.1 70BFP16 (2x A100)A100 80GB x2~28~520~850 ms
Llama 3.1 70BAWQ INT4A100 80GB~32~480~780 ms
Llama 3.1 70BFP8H100 80GB~95~2.100~340 ms
Mistral 7BFP16A10G 24GB~62~880~310 ms
Mixtral 8x7BAWQ INT4A100 80GB~45~640~620 ms
Qwen 2.5 32BFP16 (2x A100)A100 80GB x2~38~720~620 ms
Phi-3.5 Mini 3.8BFP16L4 24GB~95~1.180~210 ms

Üç sonuç: H100 FP8 A100 FP16’yı 3-4x katlar; AWQ INT4 latency’yi %5-10 yavaşlatırken VRAM’i yarıya indirir; concurrent user artınca batched throughput önemsenir. 10k konuşma/gün 32 concurrent ile karşılanır; tek A100 80GB Llama 3.1 70B AWQ saatte 1M token üretir.

Throughput’u sürdürmek için autoscaling şarttır. TGI’nin Prometheus metric endpoint’i (/metrics) GPU memory utilization, kv-cache occupancy, queue size ve generation time istatistiklerini saniyede yayınlar; Kubernetes HPA bu metric’leri custom-metric API ile bağlar. Inference Endpoints autoscaler queue size + p99 latency hedeflerine göre replica sayısını 0-5 arasında ayarlar.

Inference Endpoints: Managed Hosting Maliyet ve Karar Matrisi

Self-host TGI/vLLM cluster işletmek MLOps olgunluğu gerektirir: CUDA driver, GPU node sağlığı, autoscaling, observability, secret management, A/B testing. Bu yükü taşıyacak ekip yoksa Hugging Face Inference Endpoints (Dedicated) veya Serverless Inference daha mantıklıdır.

Dedicated Endpoints: AWS/GCP/Azure’da ayrılmış TGI/TEI container, seçilen GPU katmanı (T4, L4, A10G, A100, H100), bölge, autoscale aralığı. Saatlik faturalama, cold start 60-180 sn, SOC 2 ve HIPAA-eligible. Kalıcı trafik için doğru seçim.

Serverless Inference : Hub’daki public modeller için token-bazlı pay-per-use, cold start saniyeler içinde, otomatik scaling. Burst yük için ideal; üretim SLA’sı yok, rate limit ücretsiz katmanda 1.000/saat, PRO’da 20.000/saat.

GPU katmanıVRAMSaatlik fiyat (yaklaşık 2026)Aylık (24/7)Tipik modelSahne
CPU (Intel Xeon)2-16 GB RAM~0,06-0,12 $~45-90 $BERT/MiniLMEmbedding, classification
NVIDIA T4 16GB16 GB~0,60 $~440 $7B int4Düşük volumed LLM
NVIDIA L4 24GB24 GB~0,80 $~580 $Mistral 7B FP16Mid-tier RAG
NVIDIA A10G 24GB24 GB~1,30 $~940 $Llama 3.1 8B FP16Production chat
NVIDIA A100 40GB40 GB~4,00 $~2.880 $Llama 3.1 70B INT4Enterprise RAG
NVIDIA A100 80GB80 GB~5,00 $~3.600 $70B FP16 single-GPUYüksek throughput
NVIDIA H100 80GB80 GB~8,00 $~5.760 $70B FP8, 405B shardedFrontier modelleri
4x A100 80GB320 GB~20,00 $~14.400 $Llama 3.1 405BFrontier self-host

Karar formülü: günlük token × saatlik fiyat ÷ saatlik throughput. Günde 5M token üreten bir RAG asistanı 32 concurrent ile Llama 3.1 8B FP16 üzerinde tek A10G’ye sığar; aylık ~940 $. GPT-4o-mini ile ~825 $; self-host bu volumede break-even’dır. 50M token/gün’de fark 8-12 katına ulaşır.

Inference Endpoints scale-to-zero destekler: trafik yokken replica 0’a iner ve fatura durur; ancak cold start 60-180 sn alır. Canlı chat için kabul edilemez, arka plan batch işleri için mükemmeldir. Agentic AI iş akışları rehberindeki sync vs async workload sınıflandırması doğrudan uygulanabilir.

Optimum + TGI Entegrasyonu: Üretim Pipeline’ı

Tek başına Optimum veya TGI bir üretim hattı kurmaz; değer entegre pipeline’da ortaya çıkar. Tipik akış: Optimum-AWQ ile Llama 3.1 70B’yi Q4_0’a çevirip Hub’daki private repo’ya push edersiniz; sonra TGI --model-id your-org/llama-3.1-70b-awq ile başlatılır, quantization’ı algılar ve kernel’leri buna göre yükler. Tek A100 80GB yeter; FP16 alternatif iki A100 (4-5x maliyet) gerektirir.

Pipeline’da üç dosya kritik: config.json, tokenizer.json ve quantization_config.json. Tam set olmadan TGI yüklenmez; safetensors weights yanında bu üçü her zaman push edilir. Otomasyon için huggingface_hub.upload_folder kullanın; tek tek yükleme sürüm uyumsuzluğu doğurur.

  1. Model seçimi: Open LLM Leaderboard’tan aile seç (Llama 3.1, Mistral, Qwen 2.5, Gemma 2, Phi-3.5).
  2. Fine-tune (opsiyonel): PEFT/LoRA ile 100-10k örnek Türkçe domain’i.
  3. Optimum dönüşüm: Hedefe göre ONNX/TensorRT/AWQ seç, quantize et.
  4. Local TGI test: docker run ghcr.io/huggingface/text-generation-inference ile yerel deneme.
  5. Hub push: huggingface-cli upload ile model + config + tokenizer tek repo’da.
  6. Inference Endpoint deploy: GPU katmanı + autoscale + MAX_INPUT_LENGTH, MAX_TOTAL_TOKENS env var.
  7. Observability: Prometheus + Grafana panelinde token/sn, queue, GPU util, p99 latency.
  8. A/B test: %5 trafik, RAGAS ile karşılaştır, sorunsuzsa %100.

Kritik gözetim noktası eval’dir; LLM’i sadece latency ve maliyet ile değerlendirmek halüsinasyon riskini görmezden gelmektir. RAG evaluation yaklaşımları (RAGAS, TruLens, DeepEval) her release’de gold-standard test set’i üzerinde çalıştırılır; faithfulness ve context recall %3’ten fazla düşerse rollback tetiklenir.

Inference Endpoints managed hosting GPU katmanları fiyat ve ölçek görseli
Inference Endpoints managed hosting GPU katmanları fiyat ve ölçek görseli

Maliyet, Latency ve Doğruluk Üçgeni: Karar Çerçevesi

Üretim LLM mimarisi trade-off üçgenidir: maliyet, latency, doğruluk. Üçünü birden maksimize edemezsiniz. Doğruluk için 70B sınıfı modeller; latency için quantization + speculative decoding; maliyet için Serverless veya batched işleme. Doğru cevap iş hedefinden gelir.

Use caseDoğruluk hedefiLatency hedefiÖnerilen yığınTipik aylık maliyet (10M token/gün)
Public chatbot (B2C)Orta (~85%)<500msLlama 3.1 8B FP16 + TGI + A10G~940 $
Enterprise RAG (B2B)Yüksek (~92%)<1000msLlama 3.1 70B AWQ + TGI + A100 80GB~3.600 $
Code generationYüksek (~88%)<800msQwen 2.5 Coder 32B + TGI + A100 40GB~2.880 $
Document Q&A batchOrta-Yüksek (~88%)>5s OKMixtral 8x7B AWQ + Serverless~250-600 $
Embedding/searchYüksek (recall@10 >95%)<100msBGE-M3 / Multilingual-E5 + TEI + L4~580 $
Edge mobile assistantOrta (~80%)<1500ms (on-device)Phi-3.5 Mini + Optimum-CoreML0 $ (on-device)

Sağlık, hukuk, finans gibi regülasyonlu alanlarda yalnız faithfulness değil, ENISA 2024 AI threat landscape raporunda vurgulanan provenance ve auditability şarttır. LLM hallucination azaltma yaklaşımları (citation extraction, self-consistency, retrieval-grounded generation) zorunlu kontrol katmanlarıdır.

Latency hedefinde TTFT (time-to-first-token) ve TPOT (time-per-output-token) ayrı düşünülür. TTFT prompt processing’e bağlıdır, uzun-bağlam RAG’da (4k-16k token) baskın kalemdir; TPOT generation hızıdır. TGI’nin SSE streaming endpoint’i iki süreyi UX’te çok farklı hissettirir.

Üretim Operasyonu: İzleme, Güvenlik ve Sürüm Yönetimi

Bir LLM servisini deploy etmek başlangıçtır; sürdürmek asıl iştir. Üretimde aylar boyunca sağlıklı kalan bir Hugging Face yığını için altı sütun şarttır: observability, secret management, cost guardrails, red-teaming, version pinning, incident response.

Observability: TGI’nin Prometheus metric’leri, OpenTelemetry trace export ve JSON structured logging etkinleştirilir. Token-bazlı cost attribution için her request’e X-Tenant-Id header eklenir ve metric’lere etiket olarak yansır. Cost guardrail için MAX_TOTAL_TOKENS ve per-tenant rate limit ayarlanır; aksi halde tek bug’lı client günde 100M token üretip aylık 50.000 $ ekstra fatura çıkartabilir.

  • Secret management: HF_TOKEN, fallback key’ler AWS Secrets Manager / GCP Secret Manager / Vault’ta tutulur; env var’a sızdırılmaz.
  • Red-teaming: NIST AI RMF ve OWASP LLM Top 10 çerçevesinde prompt injection, jailbreak ve data exfiltration testleri her release öncesi.
  • Version pinning: TGI image tam tag ile pin’lenir (ghcr.io/huggingface/text-generation-inference:2.3.1); latest üretimde yasaktır.
  • Model card: Hub’daki model card (training data, intended use, limitations) transparency raporunun parçasıdır.
  • Audit log: Prompt + completion maskeli olarak en az 90 gün saklanır (GDPR Article 30, KVKK).
  • Incident playbook: P99 latency > SLA, error rate > %1, GPU OOM, toxicity spike için yazılı runbook.

Safetensors format’ı kritiktir; 2024 sonu Hub’daki yeni checkpoint’lerin ~%95’i bu formatta. Pickle deserialization açıklarını (CVE serisi) kapatır ve mmap ile hızlı yükleme sağlar. Eski .bin (pickle) dosyalarını üretime almayın; Hub’a yüklenmiş zehirli pickle ortamınızda arbitrary code execution yapabilir.

Hub’ın branch + tag mekanizması semantic versioning destekler. Her deploy commit SHA referansı ile pin’lenir; rollback’te TGI container eski SHA ile başlatılır, tipik recovery 3-7 dakika. LLM özelleştirme rehberinde sürümlemenin fine-tune döngüsündeki yeri detaylandırılır.

Türkçe NLP fine-tune model tokenizasyon verimliliği görseli
Türkçe NLP fine-tune model tokenizasyon verimliliği görseli

Türkçe NLP’ye Özel Hugging Face Stratejisi

Türkçenin agglutinatif morfolojisi ve low-resource statüsü, çok-dilli baseline’ların (mBERT, XLM-RoBERTa, multilingual-E5) İngilizce’ye göre %5-15 düşük performansa yol açar. Türkçe fine-tune edilmiş Hub modelleri kritik kaldıraçtır.

Hub’da kanıtlanmış Türkçe aileler: BERTurk (dbmdz/bert-base-turkish-cased), ConvBERTurk, ytu-ce-cosmos/turkish-gpt2, Trendyol-LLM 7b ve KUIS-AI Lab modelleri. Embedding’de multilingual-e5-large ve BAAI/bge-m3 Türkçe semantik aramada %80+ MRR sağlar.

GörevÖnerilen TR modelBoyutTipik kullanım
Embedding/SearchBAAI/bge-m3 veya multilingual-e5-large~500M-1B paramRAG retrieval, semantik arama
NERsavasy/bert-base-turkish-ner-cased~110MKişi/yer/kurum çıkarımı
Sentimentsavasy/bert-base-turkish-sentiment-cased~110MYorum/duygu sınıflama
Generative chatTrendyol-LLM 7b ailesi / Qwen 2.5 (TR fine-tune)7-14BMüşteri hizmetleri chat
SummarizationmT5/BART TR variantları250M-1BDoküman özetleme
TranslationHelsinki-NLP/opus-mt-tr-en~75MYerelleştirme

Pratik öneri: Türkçe fine-tune edilmiş küçük model (örn. BERTurk 110M) Optimum-OpenVINO INT8 ile CPU’da, çok-dilli büyük modelden (XLM-R Large 560M) FP16 GPU’da hem hızlı hem doğrudur; baskın faktör boyut değil training data dağılımıdır.

Tokenizasyon Türkçe için ayrı tuzaktır. GPT-4 ve Llama 3 BPE tokenizer’ları Türkçe morfemlerini İngilizce’ye göre 1,4-1,8x fazla token’a parçalar. Türkçe-aware tokenizer’lı modeller (Trendyol-LLM, KUIS-AI, BERTurk) %30-40 daha az token üretir; aynı sözleşme metni Llama 3.1 ile 4.200 token iken Trendyol-LLM ile 2.700. Ömer Önal danışmanlık projelerinde bu yaklaşımı standart uygularız.

Sıkça Sorulan Sorular

Hugging Face Inference Endpoints vs OpenAI API: hangisi daha ekonomik?

Volume break-even noktasını belirler. ~5M token/gün altında OpenAI GPT-4o-mini veya Anthropic Claude Haiku gibi yönetilen API’ler tipik olarak daha ucuz; operasyonel yükü onlar üstlenir. 20M token/gün üzerinde Inference Endpoints + Llama 3.1 70B AWQ break-even’i geçer ve %40-70 daha ekonomik olur. 100M+ token/gün’de fark 5-10 katına çıkar.

TGI ile vLLM arasındaki temel fark nedir?

İki engine de continuous batching ve paged attention sunar; teknik fark dar bir aralıkta. Pratik fark ekosistemde: TGI Hub’a birinci sınıf entegredir, Inference Endpoints default backend’idir. vLLM UC Berkeley kaynaklıdır, biraz daha agresif optimizasyon yapar ama Hub entegrasyonu gevşektir. SLA’lı production’da TGI tercih edilir; araştırmada vLLM hızlı iteration sağlar.

Optimum quantization model doğruluğunu ne kadar düşürür?

Tipine göre değişir. Dynamic INT8 kalibrasyonsuz %2-4 kayıp yaratır; static INT8 kalibrasyonlu %1-2’ye çeker. AWQ ve GPTQ 4-bit Llama/Mistral ailelerinde %1-3 aralığında kalır. NF4 (bitsandbytes) eğitim adımlarında neredeyse fark vermez. Asıl risk task-specific eval olmadan deploy’dur; her quantization sonrası gold-standard test set’i ile karşılaştırma şarttır.

70B sınıfı modeli tek GPU’da çalıştırmak mümkün mü?

Evet. Llama 3.1 70B veya Qwen 2.5 72B’yi AWQ 4-bit ile quantize edip tek A100 80GB veya H100 80GB üzerinde TGI ile koşturabilirsiniz; VRAM ~38-45 GB. Throughput tek-user 28-35 token/sn, 32 concurrent için 480-620 token/sn. RTX 4090 24GB tek başına yetmez; iki 4090 NVLink olmadan tensor parallelism ile çalışabilir.

Hugging Face self-host’ta hangi güvenlik kontrolleri zorunludur?

Beş kontrol kritik: (1) checkpoint’lerin safetensors formatında olduğunu doğrulamak (pickle deserialization açıkları için), (2) Hub’dan çekilen modellerin SHA256 hash’inin pin’lenmesi (supply chain attack), (3) HF_TOKEN’ın secret manager’da tutulması ve log’lara sızdırılmaması, (4) prompt injection için input sanitization + output filtering, (5) audit log’ların KVKK/GDPR uyumlu maskeli olarak 90+ gün saklanması. NIST AI RMF ve OWASP LLM Top 10 referans çerçeveleridir.

Sonuç

Hugging Face yığını 2026’da kurumsal LLM dağıtımının fiili standartlarından biridir: Optimum donanım çeşitliliğini soyutlar, TGI üretim-sınıfı throughput sağlar, Inference Endpoints DevOps yükünü devreder. Üç katmanın doğru kombinasyonu seçildiğinde maliyet yönetilen API’lerin yarısına iner ve veri sahipliği ekipte kalır. Kazanım bedavaya gelmez; MLOps olgunluğu, observability, eval pipeline ve incident response disiplinleri olmadan self-host avantajları kaybolur.

Karar çerçevesi sade: trafik düşük/öngörülemezse Serverless Inference; orta volume + SLA için Dedicated Endpoints; yüksek volume + dahili ekspertiz için self-host TGI cluster. Model seçimini doğruluk hedefi, GPU katmanını model boyutu, fatura kalemini token volumu yönetir. Türkçe iş yüklerinde fine-tune edilmiş yerel modeller hem token verimliliği hem domain accuracy açısından çok-dilli baseline’lardan genelde üstündür.

Hugging Face yığınını üretime almak veya mevcut OpenAI/Anthropic harcamalarını self-host alternatifle karşılaştırmak için detaylı analize ihtiyaç duyarsanız, hizmetlerimiz sayfası üzerinden iletişime geçin; mimari değerlendirme, donanım sizing’i, TCO modeli ve deploy planı dahil end-to-end danışmanlık veriyoruz.

OmerOnal

Yorum (1)

  1. Ömer ÖNAL
    Mayıs 16, 2026

    Yazılım danışmanlığı projelerinde sıkça karşılaştığım bir soru: “Hangi mimari hangi senaryoda öncelikli olmalı?” Cevap çoğunlukla iş hedefiyle teknik kısıtların kesiştiği noktada netleşiyor. Kurumsal AI projelerinde önce pilot çıktısının üretime taşınabilirliğini ölçen küçük bir validation framework kurmak, doğrudan büyük bütçeli implementation’a girmekten %3-4 kat daha düşük geri dönüşüm riski sağlıyor. Yorumlarınıza açığım.

Yorum Yap

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir