Hugging Face Transformers Üretim: Optimum, TGI Rehberi 2026

Q: Hugging Face Inference Endpoints vs OpenAI API: hangisi daha ekonomik?

Günlük token volumu break-even noktasını belirler. ~5M token/gün altında OpenAI GPT-4o-mini veya Anthropic Claude Haiku gibi yönetilen API'ler genellikle daha ucuz; cold start, autoscaling ve operasyonel yükü onlar üstlenir. 20M token/gün üzerinde Hugging Face Inference Endpoints + Llama 3.1 70B AWQ break-even'i geçer ve %40-70 daha ekonomik hâle gelir. 100M+ token/gün'de fark 5-10 katına çıkar. Volume + uyumluluk gereksinimi karar verir.

Q: Optimum quantization model doğruluğunu ne kadar düşürür?

Quantization tipine göre değişir. Dynamic INT8 (post-training, kalibrasyonsuz) genellikle %2-4 doğruluk kaybı yaratır. Static INT8 (kalibrasyon dataset'i ile) bu farkı %1-2'ye çeker. AWQ 4-bit ve GPTQ 4-bit kalibre edildiğinde Llama/Mistral ailelerinde %1-3 aralığında kalır. NF4 (bitsandbytes) eğitim adımlarında kullanıldığında neredeyse fark görülmez. Asıl risk task-specific eval olmadan deploy'dur; her quantization sonrası gold-standard test set'i ile karşılaştırma şarttır.

Q: 70B sınıfı modeli tek GPU'da çalıştırmak mümkün mü?

Evet, 2025-2026 itibarıyla kanıtlanmış senaryo. Llama 3.1 70B veya Qwen 2.5 72B modelini AWQ 4-bit ile quantize edip tek A100 80GB veya H100 80GB üzerinde TGI ile koşturabilirsiniz; VRAM tüketimi ~38-45 GB civarıdır. Throughput tek-user 28-35 token/sn, 32 concurrent user için 480-620 token/sn aralığındadır. RTX 4090 24GB tek başına yetmez (38GB > 24GB); ancak iki 4090 NVLink olmadan da tensor parallelism ile çalışabilir.

Q: Hugging Face self-host'ta hangi güvenlik kontrolleri zorunludur?

Beş kontrol kritik. Birincisi, model checkpoint'lerinin safetensors formatında olduğunu doğrulamak (pickle deserialization açıkları için). İkincisi, Hub'dan çekilen modellerin SHA256 hash'inin pin'lenmesi (supply chain attack). Üçüncüsü, HF_TOKEN'ın secret manager'da tutulması, log'lara sızmaması. Dördüncüsü, prompt injection ve jailbreak için input sanitization + output filtering. Beşincisi, audit log'ların GDPR/KVKK uyumlu şekilde maskeli olarak 90+ gün saklanması. NIST AI RMF ve OWASP LLM Top 10 referans çerçeveleridir.

Yapay Zeka & LLM

Mayıs 16, 2026OmerOnal1 Yorum

HuggingFace inference 2026 itibarıyla kurumsal LLM dağıtımında en kalabalık ekosistem: 1,5M+ model, Transformers için aylık 250M+ indirme ve saatlik 0,06 $-8 $ arasında ölçeklenen GPU katmanları, “PyTorch + Flask” çağının kapandığını gösteriyor. Hugging Face üretim yığını üç katmana ayrılır: Optimum (model dönüştürme/kuantizasyon), TGI (yüksek-throughput LLM sunucusu) ve Inference Endpoints / Serverless Inference (managed hosting). Bu rehber Türkçe NLP ve kurumsal RAG senaryolarında üç bileşenin ne zaman, hangi konfigürasyonla ve hangi maliyet seviyesinde kullanılacağına dair karar çerçevesi sunar.

Kritik kırılma noktası genellikle on milyonuncu istektir. Llama 3.1 70B’yi A100’de naive PyTorch ile koşturursanız 4-6 token/sn; aynı modeli TGI üzerinde FA2 + continuous batching ile koştururken 80-110 token/sn. ~20 kat fark latency ve maliyet kalemine doğrudan yansır.

📖 18 dakikalık okuma

İçindekiler

Hugging Face Üretim Yığını: Üç Katmanlı Mimari
Optimum: Donanım Hedefli Dönüştürme ve Kuantizasyon
Text Generation Inference (TGI): Üretim-Sınıfı LLM Sunucusu
TGI Performance Benchmark: Donanım ve Throughput Matrisi
Inference Endpoints: Managed Hosting Maliyet ve Karar Matrisi
Optimum + TGI Entegrasyonu: Üretim Pipeline'ı
Maliyet, Latency ve Doğruluk Üçgeni: Karar Çerçevesi
Üretim Operasyonu: İzleme, Güvenlik ve Sürüm Yönetimi
Türkçe NLP'ye Özel Hugging Face Stratejisi
Sıkça Sorulan Sorular
Sonuç

Hugging Face Üretim Yığını: Üç Katmanlı Mimari

Hugging Face ekosistemi 2026’da modüler bir yığındır. Bir modeli notebook’tan müşteri API’sine taşırken üç katman sıralanır: Transformers/Datasets (eğitim), Optimum (donanım dönüşümü), TGI/Inference Endpoints (sunum). Katmanları karıştırmak sık hata: 7B modeli en pahalı GPU dilimine deploy etmek faturayı 5-8 kat şişirir.

Akış: Optimum modeli native runtime’a çevirir (ONNX, TensorRT-LLM, OpenVINO, Neuron) — %50-80 küçültme, 2-5x hızlanma. TGI continuous batching + paged attention GPU doluluğunu %30’dan %85-95’e taşır. Self-host yükü kaldırılamıyorsa Inference Endpoints altyapı ve SLA’yı üstlenir.

Katman	Görev	Tipik kütüphane/sürüm	Hangi sorunu çözer
Transformers	Eğitim, fine-tune, inference (dev)	v4.45+ (2025-2026)	Model yükleme, tokenizasyon, PEFT/LoRA
Datasets	Veri pipeline’ı, streaming	v3.x	Büyük corpus’ları RAM’e sığdırma
Accelerate	Multi-GPU/TPU/DeepSpeed wrapper	v0.34+	Distributed training kodunu sadeleştirme
Optimum	Donanım-özgü model dönüşümü	v1.20+ (ONNX, TensorRT, OpenVINO, Neuron)	Latency düşürme, model küçültme
TGI	Production-grade LLM server	v2.3+	Continuous batching, yüksek RPS
TEI	Embedding/reranker servisi	v1.5+	Yüksek-hızlı vektörleştirme
Inference Endpoints	Managed hosting	2026 GA	DevOps yükünü Hugging Face’e devretme

Aşağıdaki üç ana iş yükü tipinde mimari seçimleri farklılaşır:

Yüksek-volume sınıflandırma/embedding: Avantaj: küçük BERT/MiniLM Optimum-ONNX ile CPU’da 5-10ms latency. Ne zaman seç: RPS > 200, GPU lüks.
Generative LLM (chat, RAG, agent): Avantaj: TGI + FA2 + paged attention 70B’leri tek A100 80GB’da çalıştırır. Dezavantaj: cold start 60-120 sn. Ne zaman seç: kalıcı trafik, dedicated GPU bütçesi.
Burst/aralıklı: Avantaj: Serverless Inference, milyonda 0,0001-0,0008 $/1k token. Ne zaman seç: trafik öngörülemez, idle GPU lüks.
Edge inference (mobil, on-prem): Avantaj: Optimum-OpenVINO/Jetson ile 100-200ms latency. Ne zaman seç: veri ülke dışına çıkamaz.

Optimum kütüphanesi donanım hedefli model dönüşüm akışı görseli

Optimum: Donanım Hedefli Dönüştürme ve Kuantizasyon

Optimum, Transformers modelini native runtime’a köprüleyen optimize-edici katmandır. 2026’da altı backend: ONNX Runtime, NVIDIA TensorRT-LLM, Intel OpenVINO/Neural Compressor, Habana Gaudi, AWS Neuron ve Apple CoreML. ORTModelForSequenceClassification.from_pretrained(...) bir BERT modelini tek satırda ONNX’e çevirip CPU’da 3-5 kat hızlandırır.

Kuantizasyon Optimum’un en güçlü tarafıdır. Dynamic INT8, static INT8, AWQ, GPTQ ve NF4 teknikleri tek API’den yürütülür. Llama 3.1 8B’yi AWQ 4-bit ile sıkıştırınca VRAM 16 GB’tan ~5,5 GB’a düşer; doğruluk kaybı çoğu task’ta %1-3 (Open LLM Leaderboard ölçümleri). Konuyla ilişkili olarak LLM Quantization 2026: INT4, INT8 ve GGUF Karsilastirmasi rehberimiz detaylı incelemeyi içerir.

Optimum backend	Hedef donanım	Tipik hız kazanımı	Boyut kazanımı	Doğruluk kaybı
ONNX Runtime (CPU)	Intel/AMD x86, ARM64	2-4x	0% (FP32) – 75% (INT8)	<%1 (FP16) / %1-2 (INT8)
ONNX Runtime + DirectML	Windows GPU (NVIDIA/AMD)	3-6x	50-75%	<%2
TensorRT-LLM	NVIDIA A100/H100/L40S	5-12x	50-87% (FP8/INT4)	%1-3
OpenVINO	Intel Xeon/Arc/NPU	3-7x	50-87%	%1-3
Habana Gaudi 2	Habana HPU	3-5x (vs A100 fiyat-perf.)	FP8 native	%1-2
AWS Neuron	Inf2/Trn1 instance’ları	2-4x cost-effective	BF16/FP8	%1-2
CoreML	Apple Silicon (M2/M3/M4)	10-20x vs PyTorch CPU	50-75%	<%2

Pratik örnek: Türkçe BERT üzerinde duygu analizi yapan bir e-ticaret platformu, günde 12 milyon yorum işliyordu. PyTorch CPU’da tek yorum ~120 ms, Optimum-ONNX INT8 ile ~22 ms, OpenVINO INT8 ile ~14 ms. Aynı donanımda günlük throughput 720 binden 6,1 milyona çıktı; benzer optimizasyonları Türkçe doğal dil işleme projelerinde sık görüyoruz. ONNX Runtime quantization rehberi tipik kayıp aralıklarını detaylandırır.

Optimum’un en kritik gotcha’sı sürüm uyumluluğudur. ONNX opset, transformers, tokenizers ve optimum versiyonları kilitli bir matris oluşturur; production image’larında pinned dependencies ve reproducible build zorunludur. Flash Attention makalesi (arXiv) performans matematiğini özetler; resmi Optimum dokümantasyonu her backend için tested kombinasyonları yayınlar.

Text Generation Inference (TGI): Üretim-Sınıfı LLM Sunucusu

TGI, Rust + Python ile yazılmış, generative LLM’ler için optimize edilmiş inference server’ıdır. Vanilla transformers.pipeline("text-generation") tek request’i tek tek işler ve GPU doluluk oranı %20-30’da kalır. TGI continuous batching ile değişken-uzunluklu request’leri aynı batch’e yerleştirir, paged attention VRAM fragmentasyonunu önler, speculative decoding draft model üzerinden çıkarımı 2-3 kat hızlandırır.

TGI’nin vLLM, LMDeploy, SGLang gibi alternatiflere göre özel yeri ekosistem entegrasyonundan gelir: --model-id meta-llama/Llama-3.1-8B-Instruct argümanı tokenizer, config, safetensors weights ve quantization cache’ini Hub’dan otomatik çeker. AWS, GCP, Azure ve Hugging Face Inference Endpoints’in default backend’i TGI’dir; SLA’lı production deployment için en kanıtlanmış seçenektir.

Engine	Continuous batching	Paged attention	Speculative decoding	HF Hub native	License
TGI 2.3+	Evet	Evet (FA2)	Evet	Birinci sınıf	Apache 2.0
vLLM	Evet	Evet (orijinal)	Evet	Evet (sym link)	Apache 2.0
LMDeploy	Evet	Evet	Kısmi	Kısıtlı	Apache 2.0
SGLang	Evet	Evet	Evet	Kısıtlı	Apache 2.0
OpenLLM/BentoML	Evet (TGI/vLLM wrapper)	Wrapper	Wrapper	Wrapper	Apache 2.0
Triton + TensorRT-LLM	Evet	Evet	Evet	Hayır	NVIDIA EULA

Üretime almak için dört parametre kritik: --max-input-length, --max-batch-prefill-tokens, --max-total-tokens ve --num-shard. Değerler GPU VRAM’ine göre kalibre edilmelidir; aksi halde OOM hataları üretimde dakikalar içinde patlar. Resmi TGI dokümantasyonu her model ailesi için önerilen değerleri sunar.

Continuous batching: Farklı uzunluklu istekler aynı batch’e toplanır, GPU doluluk %30’dan %85-95’e çıkar.
Paged attention: VRAM sabit-boyutlu sayfalara bölünür, fragmentasyon önlenir, 2-3x daha fazla concurrent kapasite.
Flash Attention 2: Matrix tiling ile A100/H100 üzerinde 2-4x hızlanma.
Speculative decoding: Küçük draft model + büyük target model, sequential generation darboğazını kırar.
Tensor parallelism: 70B+ modeller GPU’lara shard’lanır, NVLink üzerinden 200-600 GB/s.
Structured outputs: JSON schema/regex kısıtlamaları ile generation kontrol altına alınır.

TGI continuous batching ve paged attention GPU throughput görselleştirmesi

TGI Performance Benchmark: Donanım ve Throughput Matrisi

TGI throughput’u model boyutu, quantization, GPU mimarisi ve concurrent user sayısı ile değişir. Tablo Hugging Face benchmark’ları, MLPerf Inference v4.1 ve community testlerinden derlenmiştir; resmi karşılaştırma için MLPerf Inference Datacenter referans alınır. Sayılar prompt 512 + output 256 token için; uzun-bağlam testlerde %20-40 düşer.

Model	Quant.	GPU	Tokens/sn (tek user)	Tokens/sn (32 concurrent)	P50 latency
Llama 3.1 8B	FP16	A100 40GB	~85	~1.450	~280 ms
Llama 3.1 8B	AWQ INT4	RTX 4090 24GB	~110	~1.200	~240 ms
Llama 3.1 70B	FP16 (2x A100)	A100 80GB x2	~28	~520	~850 ms
Llama 3.1 70B	AWQ INT4	A100 80GB	~32	~480	~780 ms
Llama 3.1 70B	FP8	H100 80GB	~95	~2.100	~340 ms
Mistral 7B	FP16	A10G 24GB	~62	~880	~310 ms
Mixtral 8x7B	AWQ INT4	A100 80GB	~45	~640	~620 ms
Qwen 2.5 32B	FP16 (2x A100)	A100 80GB x2	~38	~720	~620 ms
Phi-3.5 Mini 3.8B	FP16	L4 24GB	~95	~1.180	~210 ms

Üç sonuç: H100 FP8 A100 FP16’yı 3-4x katlar; AWQ INT4 latency’yi %5-10 yavaşlatırken VRAM’i yarıya indirir; concurrent user artınca batched throughput önemsenir. 10k konuşma/gün 32 concurrent ile karşılanır; tek A100 80GB Llama 3.1 70B AWQ saatte 1M token üretir.

Throughput’u sürdürmek için autoscaling şarttır. TGI’nin Prometheus metric endpoint’i (/metrics) GPU memory utilization, kv-cache occupancy, queue size ve generation time istatistiklerini saniyede yayınlar; Kubernetes HPA bu metric’leri custom-metric API ile bağlar. Inference Endpoints autoscaler queue size + p99 latency hedeflerine göre replica sayısını 0-5 arasında ayarlar.

Inference Endpoints: Managed Hosting Maliyet ve Karar Matrisi

Self-host TGI/vLLM cluster işletmek MLOps olgunluğu gerektirir: CUDA driver, GPU node sağlığı, autoscaling, observability, secret management, A/B testing. Bu yükü taşıyacak ekip yoksa Hugging Face Inference Endpoints (Dedicated) veya Serverless Inference daha mantıklıdır.

Dedicated Endpoints: AWS/GCP/Azure’da ayrılmış TGI/TEI container, seçilen GPU katmanı (T4, L4, A10G, A100, H100), bölge, autoscale aralığı. Saatlik faturalama, cold start 60-180 sn, SOC 2 ve HIPAA-eligible. Kalıcı trafik için doğru seçim.

Serverless Inference : Hub’daki public modeller için token-bazlı pay-per-use, cold start saniyeler içinde, otomatik scaling. Burst yük için ideal; üretim SLA’sı yok, rate limit ücretsiz katmanda 1.000/saat, PRO’da 20.000/saat.

GPU katmanı	VRAM	Saatlik fiyat (yaklaşık 2026)	Aylık (24/7)	Tipik model	Sahne
CPU (Intel Xeon)	2-16 GB RAM	~0,06-0,12 $	~45-90 $	BERT/MiniLM	Embedding, classification
NVIDIA T4 16GB	16 GB	~0,60 $	~440 $	7B int4	Düşük volumed LLM
NVIDIA L4 24GB	24 GB	~0,80 $	~580 $	Mistral 7B FP16	Mid-tier RAG
NVIDIA A10G 24GB	24 GB	~1,30 $	~940 $	Llama 3.1 8B FP16	Production chat
NVIDIA A100 40GB	40 GB	~4,00 $	~2.880 $	Llama 3.1 70B INT4	Enterprise RAG
NVIDIA A100 80GB	80 GB	~5,00 $	~3.600 $	70B FP16 single-GPU	Yüksek throughput
NVIDIA H100 80GB	80 GB	~8,00 $	~5.760 $	70B FP8, 405B sharded	Frontier modelleri
4x A100 80GB	320 GB	~20,00 $	~14.400 $	Llama 3.1 405B	Frontier self-host

Karar formülü: günlük token × saatlik fiyat ÷ saatlik throughput. Günde 5M token üreten bir RAG asistanı 32 concurrent ile Llama 3.1 8B FP16 üzerinde tek A10G’ye sığar; aylık ~940 $. GPT-4o-mini ile ~825 $; self-host bu volumede break-even’dır. 50M token/gün’de fark 8-12 katına ulaşır.

Inference Endpoints scale-to-zero destekler: trafik yokken replica 0’a iner ve fatura durur; ancak cold start 60-180 sn alır. Canlı chat için kabul edilemez, arka plan batch işleri için mükemmeldir. Agentic AI iş akışları rehberindeki sync vs async workload sınıflandırması doğrudan uygulanabilir.

Optimum + TGI Entegrasyonu: Üretim Pipeline’ı

Tek başına Optimum veya TGI bir üretim hattı kurmaz; değer entegre pipeline’da ortaya çıkar. Tipik akış: Optimum-AWQ ile Llama 3.1 70B’yi Q4_0’a çevirip Hub’daki private repo’ya push edersiniz; sonra TGI --model-id your-org/llama-3.1-70b-awq ile başlatılır, quantization’ı algılar ve kernel’leri buna göre yükler. Tek A100 80GB yeter; FP16 alternatif iki A100 (4-5x maliyet) gerektirir.

Pipeline’da üç dosya kritik: config.json, tokenizer.json ve quantization_config.json. Tam set olmadan TGI yüklenmez; safetensors weights yanında bu üçü her zaman push edilir. Otomasyon için huggingface_hub.upload_folder kullanın; tek tek yükleme sürüm uyumsuzluğu doğurur.

Model seçimi: Open LLM Leaderboard’tan aile seç (Llama 3.1, Mistral, Qwen 2.5, Gemma 2, Phi-3.5).
Fine-tune (opsiyonel): PEFT/LoRA ile 100-10k örnek Türkçe domain’i.
Optimum dönüşüm: Hedefe göre ONNX/TensorRT/AWQ seç, quantize et.
Local TGI test: docker run ghcr.io/huggingface/text-generation-inference ile yerel deneme.
Hub push: huggingface-cli upload ile model + config + tokenizer tek repo’da.
Inference Endpoint deploy: GPU katmanı + autoscale + MAX_INPUT_LENGTH, MAX_TOTAL_TOKENS env var.
Observability: Prometheus + Grafana panelinde token/sn, queue, GPU util, p99 latency.
A/B test: %5 trafik, RAGAS ile karşılaştır, sorunsuzsa %100.

Kritik gözetim noktası eval’dir; LLM’i sadece latency ve maliyet ile değerlendirmek halüsinasyon riskini görmezden gelmektir. RAG evaluation yaklaşımları (RAGAS, TruLens, DeepEval) her release’de gold-standard test set’i üzerinde çalıştırılır; faithfulness ve context recall %3’ten fazla düşerse rollback tetiklenir.

Inference Endpoints managed hosting GPU katmanları fiyat ve ölçek görseli

Maliyet, Latency ve Doğruluk Üçgeni: Karar Çerçevesi

Üretim LLM mimarisi trade-off üçgenidir: maliyet, latency, doğruluk. Üçünü birden maksimize edemezsiniz. Doğruluk için 70B sınıfı modeller; latency için quantization + speculative decoding; maliyet için Serverless veya batched işleme. Doğru cevap iş hedefinden gelir.

Use case	Doğruluk hedefi	Latency hedefi	Önerilen yığın	Tipik aylık maliyet (10M token/gün)
Public chatbot (B2C)	Orta (~85%)	<500ms	Llama 3.1 8B FP16 + TGI + A10G	~940 $
Enterprise RAG (B2B)	Yüksek (~92%)	<1000ms	Llama 3.1 70B AWQ + TGI + A100 80GB	~3.600 $
Code generation	Yüksek (~88%)	<800ms	Qwen 2.5 Coder 32B + TGI + A100 40GB	~2.880 $
Document Q&A batch	Orta-Yüksek (~88%)	>5s OK	Mixtral 8x7B AWQ + Serverless	~250-600 $
Embedding/search	Yüksek (recall@10 >95%)	<100ms	BGE-M3 / Multilingual-E5 + TEI + L4	~580 $
Edge mobile assistant	Orta (~80%)	<1500ms (on-device)	Phi-3.5 Mini + Optimum-CoreML	0 $ (on-device)

Sağlık, hukuk, finans gibi regülasyonlu alanlarda yalnız faithfulness değil, ENISA 2024 AI threat landscape raporunda vurgulanan provenance ve auditability şarttır. LLM hallucination azaltma yaklaşımları (citation extraction, self-consistency, retrieval-grounded generation) zorunlu kontrol katmanlarıdır.

Latency hedefinde TTFT (time-to-first-token) ve TPOT (time-per-output-token) ayrı düşünülür. TTFT prompt processing’e bağlıdır, uzun-bağlam RAG’da (4k-16k token) baskın kalemdir; TPOT generation hızıdır. TGI’nin SSE streaming endpoint’i iki süreyi UX’te çok farklı hissettirir.

Üretim Operasyonu: İzleme, Güvenlik ve Sürüm Yönetimi

Bir LLM servisini deploy etmek başlangıçtır; sürdürmek asıl iştir. Üretimde aylar boyunca sağlıklı kalan bir Hugging Face yığını için altı sütun şarttır: observability, secret management, cost guardrails, red-teaming, version pinning, incident response.

Observability: TGI’nin Prometheus metric’leri, OpenTelemetry trace export ve JSON structured logging etkinleştirilir. Token-bazlı cost attribution için her request’e X-Tenant-Id header eklenir ve metric’lere etiket olarak yansır. Cost guardrail için MAX_TOTAL_TOKENS ve per-tenant rate limit ayarlanır; aksi halde tek bug’lı client günde 100M token üretip aylık 50.000 $ ekstra fatura çıkartabilir.

Secret management: HF_TOKEN, fallback key’ler AWS Secrets Manager / GCP Secret Manager / Vault’ta tutulur; env var’a sızdırılmaz.
Red-teaming: NIST AI RMF ve OWASP LLM Top 10 çerçevesinde prompt injection, jailbreak ve data exfiltration testleri her release öncesi.
Version pinning: TGI image tam tag ile pin’lenir (ghcr.io/huggingface/text-generation-inference:2.3.1); latest üretimde yasaktır.
Model card: Hub’daki model card (training data, intended use, limitations) transparency raporunun parçasıdır.
Audit log: Prompt + completion maskeli olarak en az 90 gün saklanır (GDPR Article 30, KVKK).
Incident playbook: P99 latency > SLA, error rate > %1, GPU OOM, toxicity spike için yazılı runbook.

Safetensors format’ı kritiktir; 2024 sonu Hub’daki yeni checkpoint’lerin ~%95’i bu formatta. Pickle deserialization açıklarını (CVE serisi) kapatır ve mmap ile hızlı yükleme sağlar. Eski .bin (pickle) dosyalarını üretime almayın; Hub’a yüklenmiş zehirli pickle ortamınızda arbitrary code execution yapabilir.

Hub’ın branch + tag mekanizması semantic versioning destekler. Her deploy commit SHA referansı ile pin’lenir; rollback’te TGI container eski SHA ile başlatılır, tipik recovery 3-7 dakika. LLM özelleştirme rehberinde sürümlemenin fine-tune döngüsündeki yeri detaylandırılır.

Türkçe NLP fine-tune model tokenizasyon verimliliği görseli

Türkçe NLP’ye Özel Hugging Face Stratejisi

Türkçenin agglutinatif morfolojisi ve low-resource statüsü, çok-dilli baseline’ların (mBERT, XLM-RoBERTa, multilingual-E5) İngilizce’ye göre %5-15 düşük performansa yol açar. Türkçe fine-tune edilmiş Hub modelleri kritik kaldıraçtır.

Hub’da kanıtlanmış Türkçe aileler: BERTurk (dbmdz/bert-base-turkish-cased), ConvBERTurk, ytu-ce-cosmos/turkish-gpt2, Trendyol-LLM 7b ve KUIS-AI Lab modelleri. Embedding’de multilingual-e5-large ve BAAI/bge-m3 Türkçe semantik aramada %80+ MRR sağlar.

Görev	Önerilen TR model	Boyut	Tipik kullanım
Embedding/Search	BAAI/bge-m3 veya multilingual-e5-large	~500M-1B param	RAG retrieval, semantik arama
NER	savasy/bert-base-turkish-ner-cased	~110M	Kişi/yer/kurum çıkarımı
Sentiment	savasy/bert-base-turkish-sentiment-cased	~110M	Yorum/duygu sınıflama
Generative chat	Trendyol-LLM 7b ailesi / Qwen 2.5 (TR fine-tune)	7-14B	Müşteri hizmetleri chat
Summarization	mT5/BART TR variantları	250M-1B	Doküman özetleme
Translation	Helsinki-NLP/opus-mt-tr-en	~75M	Yerelleştirme

Pratik öneri: Türkçe fine-tune edilmiş küçük model (örn. BERTurk 110M) Optimum-OpenVINO INT8 ile CPU’da, çok-dilli büyük modelden (XLM-R Large 560M) FP16 GPU’da hem hızlı hem doğrudur; baskın faktör boyut değil training data dağılımıdır.

Tokenizasyon Türkçe için ayrı tuzaktır. GPT-4 ve Llama 3 BPE tokenizer’ları Türkçe morfemlerini İngilizce’ye göre 1,4-1,8x fazla token’a parçalar. Türkçe-aware tokenizer’lı modeller (Trendyol-LLM, KUIS-AI, BERTurk) %30-40 daha az token üretir; aynı sözleşme metni Llama 3.1 ile 4.200 token iken Trendyol-LLM ile 2.700. Ömer Önal danışmanlık projelerinde bu yaklaşımı standart uygularız.

Sıkça Sorulan Sorular

Hugging Face Inference Endpoints vs OpenAI API: hangisi daha ekonomik?

Volume break-even noktasını belirler. ~5M token/gün altında OpenAI GPT-4o-mini veya Anthropic Claude Haiku gibi yönetilen API’ler tipik olarak daha ucuz; operasyonel yükü onlar üstlenir. 20M token/gün üzerinde Inference Endpoints + Llama 3.1 70B AWQ break-even’i geçer ve %40-70 daha ekonomik olur. 100M+ token/gün’de fark 5-10 katına çıkar.

TGI ile vLLM arasındaki temel fark nedir?

İki engine de continuous batching ve paged attention sunar; teknik fark dar bir aralıkta. Pratik fark ekosistemde: TGI Hub’a birinci sınıf entegredir, Inference Endpoints default backend’idir. vLLM UC Berkeley kaynaklıdır, biraz daha agresif optimizasyon yapar ama Hub entegrasyonu gevşektir. SLA’lı production’da TGI tercih edilir; araştırmada vLLM hızlı iteration sağlar.

Optimum quantization model doğruluğunu ne kadar düşürür?

Tipine göre değişir. Dynamic INT8 kalibrasyonsuz %2-4 kayıp yaratır; static INT8 kalibrasyonlu %1-2’ye çeker. AWQ ve GPTQ 4-bit Llama/Mistral ailelerinde %1-3 aralığında kalır. NF4 (bitsandbytes) eğitim adımlarında neredeyse fark vermez. Asıl risk task-specific eval olmadan deploy’dur; her quantization sonrası gold-standard test set’i ile karşılaştırma şarttır.

70B sınıfı modeli tek GPU’da çalıştırmak mümkün mü?

Evet. Llama 3.1 70B veya Qwen 2.5 72B’yi AWQ 4-bit ile quantize edip tek A100 80GB veya H100 80GB üzerinde TGI ile koşturabilirsiniz; VRAM ~38-45 GB. Throughput tek-user 28-35 token/sn, 32 concurrent için 480-620 token/sn. RTX 4090 24GB tek başına yetmez; iki 4090 NVLink olmadan tensor parallelism ile çalışabilir.

Hugging Face self-host’ta hangi güvenlik kontrolleri zorunludur?

Beş kontrol kritik: (1) checkpoint’lerin safetensors formatında olduğunu doğrulamak (pickle deserialization açıkları için), (2) Hub’dan çekilen modellerin SHA256 hash’inin pin’lenmesi (supply chain attack), (3) HF_TOKEN’ın secret manager’da tutulması ve log’lara sızdırılmaması, (4) prompt injection için input sanitization + output filtering, (5) audit log’ların KVKK/GDPR uyumlu maskeli olarak 90+ gün saklanması. NIST AI RMF ve OWASP LLM Top 10 referans çerçeveleridir.

Sonuç

Hugging Face yığını 2026’da kurumsal LLM dağıtımının fiili standartlarından biridir: Optimum donanım çeşitliliğini soyutlar, TGI üretim-sınıfı throughput sağlar, Inference Endpoints DevOps yükünü devreder. Üç katmanın doğru kombinasyonu seçildiğinde maliyet yönetilen API’lerin yarısına iner ve veri sahipliği ekipte kalır. Kazanım bedavaya gelmez; MLOps olgunluğu, observability, eval pipeline ve incident response disiplinleri olmadan self-host avantajları kaybolur.

Karar çerçevesi sade: trafik düşük/öngörülemezse Serverless Inference; orta volume + SLA için Dedicated Endpoints; yüksek volume + dahili ekspertiz için self-host TGI cluster. Model seçimini doğruluk hedefi, GPU katmanını model boyutu, fatura kalemini token volumu yönetir. Türkçe iş yüklerinde fine-tune edilmiş yerel modeller hem token verimliliği hem domain accuracy açısından çok-dilli baseline’lardan genelde üstündür.

Hugging Face yığınını üretime almak veya mevcut OpenAI/Anthropic harcamalarını self-host alternatifle karşılaştırmak için detaylı analize ihtiyaç duyarsanız, hizmetlerimiz sayfası üzerinden iletişime geçin; mimari değerlendirme, donanım sizing’i, TCO modeli ve deploy planı dahil end-to-end danışmanlık veriyoruz.

OmerOnal

Yorum (1)

Ömer ÖNAL
Mayıs 16, 2026
Yanıtla

Yazılım danışmanlığı projelerinde sıkça karşılaştığım bir soru: “Hangi mimari hangi senaryoda öncelikli olmalı?” Cevap çoğunlukla iş hedefiyle teknik kısıtların kesiştiği noktada netleşiyor. Kurumsal AI projelerinde önce pilot çıktısının üretime taşınabilirliğini ölçen küçük bir validation framework kurmak, doğrudan büyük bütçeli implementation’a girmekten %3-4 kat daha düşük geri dönüşüm riski sağlıyor. Yorumlarınıza açığım.

Our Gallery

Contact Info

Hugging Face Transformers Üretim: Optimum, TGI Rehberi 2026

Hugging Face Üretim Yığını: Üç Katmanlı Mimari

Optimum: Donanım Hedefli Dönüştürme ve Kuantizasyon

Text Generation Inference (TGI): Üretim-Sınıfı LLM Sunucusu

TGI Performance Benchmark: Donanım ve Throughput Matrisi

Inference Endpoints: Managed Hosting Maliyet ve Karar Matrisi

Optimum + TGI Entegrasyonu: Üretim Pipeline’ı

Maliyet, Latency ve Doğruluk Üçgeni: Karar Çerçevesi

Üretim Operasyonu: İzleme, Güvenlik ve Sürüm Yönetimi

Türkçe NLP’ye Özel Hugging Face Stratejisi

Sıkça Sorulan Sorular

Hugging Face Inference Endpoints vs OpenAI API: hangisi daha ekonomik?

TGI ile vLLM arasındaki temel fark nedir?

Optimum quantization model doğruluğunu ne kadar düşürür?

70B sınıfı modeli tek GPU’da çalıştırmak mümkün mü?

Hugging Face self-host’ta hangi güvenlik kontrolleri zorunludur?

Sonuç

OmerOnal

Federated Learning 2026: Veri Gizliliği Korunan ML Mimarisi (Flower, NVIDIA FLARE, PySyft)

Long Context LLM: 1M+ Token Modellerle Kurumsal Doküman Analizi

Yorum (1)

Ömer ÖNAL

Yorum Yap Yanıtı iptal et

İletişim

Kurumsal

Hizmetlerimiz

Our Gallery

Contact Info

Hugging Face Transformers Üretim: Optimum, TGI Rehberi 2026

Hugging Face Üretim Yığını: Üç Katmanlı Mimari

Optimum: Donanım Hedefli Dönüştürme ve Kuantizasyon

Text Generation Inference (TGI): Üretim-Sınıfı LLM Sunucusu

TGI Performance Benchmark: Donanım ve Throughput Matrisi

Inference Endpoints: Managed Hosting Maliyet ve Karar Matrisi

Optimum + TGI Entegrasyonu: Üretim Pipeline’ı

Maliyet, Latency ve Doğruluk Üçgeni: Karar Çerçevesi

Üretim Operasyonu: İzleme, Güvenlik ve Sürüm Yönetimi

Türkçe NLP’ye Özel Hugging Face Stratejisi

Sıkça Sorulan Sorular

Hugging Face Inference Endpoints vs OpenAI API: hangisi daha ekonomik?

TGI ile vLLM arasındaki temel fark nedir?

Optimum quantization model doğruluğunu ne kadar düşürür?

70B sınıfı modeli tek GPU’da çalıştırmak mümkün mü?

Hugging Face self-host’ta hangi güvenlik kontrolleri zorunludur?

Sonuç

OmerOnal

Data Contract Protokolü 2026: Pact, AsyncAPI ve ODCS v3

SaaS SLA Tasarımı 2026: Uptime, Credit ve Kurumsal Sözleşme

İlgili Yazılar

Federated Learning 2026: Veri Gizliliği Korunan ML Mimarisi (Flower, NVIDIA FLARE, PySyft)

Long Context LLM: 1M+ Token Modellerle Kurumsal Doküman Analizi

Yorum (1)

Ömer ÖNAL

Yorum Yap Yanıtı iptal et