Haziran 15, 2026OmerOnal1 Yorum

LLM Quantization: INT4, INT8, GGUF ve Bellek Düşürme 2026

Q: INT4 kuantizasyon kaliteyi ne kadar düşürür, kullanıcılar fark eder mi?

Tipik bir 7B-70B modelde AWQ INT4 ile MMLU'da %1-2.5, Wikitext perplexity'sinde 0.15-0.30 puan kayıp olur. Bu kayıp genellikle son kullanıcı tarafından doğrudan fark edilmez; ancak çok-adımlı muhakeme (GSM8K), kod üretimi (HumanEval) ve uzun-context görevlerde fark belirginleşebilir. Production'da A/B test ile doğrulamak şarttır.

Q: GGUF mi yoksa AWQ mı kullanmalıyım?

Sunucuda NVIDIA GPU ile çok kullanıcıya servis edeceksiniz: AWQ + vLLM. Laptop, Mac, edge cihaz veya CPU çalışacaksa: GGUF + llama.cpp. AWQ daha hızlıdır ama llama.cpp kadar taşınabilir değildir. Hybrid senaryolarda her iki formatı da saklamak yaygın bir pratiktir.

Q: Kuantize edilmiş bir modeli fine-tune edebilir miyim?

Doğrudan ağırlıkları güncelleyemezsiniz, ancak QLoRA ile kuantize bazda LoRA adaptörleri eğitebilirsiniz (NF4 + LoRA). 7B model için 1xRTX 4090 yeterli olur, 70B için 2xA100. Adaptör eğitildikten sonra dilerseniz tam ağırlıklarla birleştirip yeniden AWQ ile kuantize edebilirsiniz.

Q: FP8 ile INT8 arasındaki temel fark nedir?

FP8 dinamik aralığı korur (E4M3 formatında ~±448), bu yüzden outlier'lara daha dayanıklıdır ve genelde 0.5-1 puan daha az perplexity kaybı verir. INT8 ise tensor core üzerinde daha hızlıdır (özellikle A100/L4'te) ve daha geniş donanım uyumuna sahiptir. H100/H200 üzerinde FP8 native ve hızı INT8'e çok yakındır; bu donanımlarda varsayılan tercih FP8 olmalı.

Q: Quantization tek başına yeterli mi, başka optimizasyon gerekir mi?

Hayır, üretim seviyesi için quantization sadece ilk adımdır. Yanına PagedAttention (vLLM), FlashAttention-3, continuous batching, speculative decoding, prefix caching ve uygun KV-cache stratejisi eklenmelidir. Bu kombinasyon, sadece kuantize modele kıyasla 3-6x ek throughput sağlar ve TCO'yu belirgin şekilde düşürür.

LLM quantization, büyük dil modellerinin ağırlıklarını FP16/BF16 yerine INT8, INT4 hatta INT2 gibi düşük bit derinliklerine indirgeyerek bellek tüketimini %50-87 oranında azaltan ve çıkarım hızını 2-4 katına çıkaran bir sıkıştırma tekniğidir. 2026 itibarıyla Llama 3.1 70B modelini FP16’da çalıştırmak yaklaşık 140 GB VRAM gerektirirken, GGUF Q4_K_M kuantizasyonu aynı modeli ~40 GB’a sığdırıyor; bu sayede tek bir RTX 4090 (24 GB) + 32 GB sistem RAM kombinasyonunda offload ile evde dahi servis edilebiliyor. Bu yazıda INT4, INT8, GGUF, AWQ, GPTQ ve SmoothQuant gibi tekniklerin nasıl çalıştığını, hangi senaryoda hangi formatın seçilmesi gerektiğini, doğruluk kaybı (perplexity drift) ile bellek kazanımı arasındaki dengeyi ve 2026 üretim ortamında dağıtım stratejilerini incelliyoruz. Konuyla ilişkili olarak Hugging Face Transformers Üretim: Optimum, TGI Rehberi 2026 rehberimiz detaylı incelemeyi içerir.

Karar çerçevesi şu: bir 7B model production API’da düşük latency istiyorsanız AWQ INT4 + vLLM, edge/laptop’ta CPU çalıştıracaksanız GGUF Q4_K_M + llama.cpp, batch inference’ta maksimum throughput için FP8 + TensorRT-LLM seçilir. Hugging Face’in 2025 sonu indirme istatistiklerine göre toplam LLM indirmelerinin %63’ü kuantize edilmiş varyantlar üzerinden gerçekleşiyor; bu oran 2023’te yalnızca %18’di. Kuantizasyon artık opsiyon değil, üretim hattının zorunlu bir adımı. Konuyla ilişkili olarak GPU Secimi 2026: LLM Egitim ve Inference Karsilastirmasi rehberimiz detaylı incelemeyi içerir.

📖 18 dakikalık okuma

İçindekiler

Quantization Nedir, Neden Bu Kadar Önemli?
INT8 vs INT4 vs FP8: Hangi Hassasiyet, Hangi Senaryoda?
GGUF Formatı ve Q-Family Varyantları Detayı
AWQ, GPTQ ve SmoothQuant: Algoritma Karşılaştırması
Bellek Bütçesi Hesaplama: Donanıma Göre Maksimum Model
Performance Benchmark: Throughput, Latency ve Kalite
Production Deployment: vLLM, TensorRT-LLM, llama.cpp Stack Seçimi
2026 Trendleri: FP4, Microscaling ve KV-Cache Quantization
Sıkça Sorulan Sorular (SSS)
Sonuç

Quantization Nedir, Neden Bu Kadar Önemli?

Bir LLM ağırlığı varsayılan olarak FP16 (16-bit floating point) ya da BF16 formatında saklanır. Her parametre 2 byte yer kaplar. 70 milyar parametreli bir model bu durumda 140 GB ham ağırlık dosyası demektir; KV-cache, aktivasyonlar ve workspace ile birlikte servis için 160-180 GB VRAM gerekir. Bu kapasiteyi karşılayan donanım (H100 80GB x2, A100 80GB x2) saat başı bulut maliyetinde $5-8 aralığındadır.

Quantization, bu ağırlıkları daha az bitle temsil ederek bellek ayak izini doğrudan düşürür. Tipik kazanımlar şöyledir:

FP16 → INT8: %50 bellek azalması, ~1.5-2x throughput artışı, perplexity drift < %1.
FP16 → INT4 (AWQ/GPTQ): %75 bellek azalması, ~2-3x throughput artışı, perplexity drift %1-3.
FP16 → INT2 (1.58-bit BitNet): %87.5 bellek azalması, perplexity drift %5-10, hâlâ deneysel.
FP16 → FP8 (E4M3/E5M2): %50 bellek, H100/RTX 4090 tensor core hızlandırma, perplexity drift < %0.5.

NVIDIA’nın TensorRT-LLM dokümantasyonunda yayınlanan benchmark’larda Llama 3 8B modelinde FP16 baseline’a karşı INT4 AWQ %2.7 perplexity artışına karşılık 2.3x token/saniye kazanımı sağlıyor. Bu, donanım maliyetinin yarıya inmesi ve aynı GPU’da daha fazla eşzamanlı kullanıcıya hizmet verilebilmesi anlamına geliyor.

Kavramsal olarak quantization, FP16 sayı uzayını (yaklaşık ±65504 dinamik aralık) çok daha dar bir tamsayı aralığına (INT8: -128 ile 127, INT4: -8 ile 7) sıkıştırır. Bu süreçte iki temel parametre belirlenir: scale (ölçek) ve zero-point (sıfır noktası). Her ağırlık grubu (genelde 64 veya 128’lik bloklar) için bu iki değer ayrıca saklanır; buna “group-wise quantization” denir ve doğruluk kaybını ciddi şekilde azaltır.

INT8 ve INT4 hassasiyet karşılaştırması bit seviyeleri görseli

INT8 vs INT4 vs FP8: Hangi Hassasiyet, Hangi Senaryoda?

Bit derinliği seçimi, kullanım senaryosu ve donanıma göre değişir. Aşağıdaki tablo 2026 itibarıyla geçerli pratik tercih matrisidir.

Format	Bellek Azalması	Tipik Perplexity Drift	Donanım	Önerilen Kullanım
FP16 (baseline)	0%	0%	A100, H100, RTX 4090	Fine-tuning, araştırma
BF16	0%	~0%	A100, H100, TPU v5	Eğitim, geniş dinamik aralık
FP8 (E4M3)	~50%	<0.5%	H100, H200, RTX 5090	Production inference, batch
INT8 (SmoothQuant)	~50%	0.5-1.5%	A100, T4, L4, A10G	Server inference, eski Ampere GPU
INT4 (AWQ)	~75%	1.5-2.5%	RTX 4090, L40S, T4	Düşük VRAM, real-time chat
INT4 (GPTQ)	~75%	2-3%	RTX 3090/4090, A6000	Genel amaçlı INT4 deployment
GGUF Q4_K_M	~70%	2-4%	CPU, Apple Silicon, GPU	Edge, laptop, hybrid offload
INT2 / 1.58-bit	~85-87%	5-10%	Deneysel	Araştırma, IoT prototip

Pratik seçim kuralı:

FP8 — Ne zaman seç: H100 veya RTX 5090 var, production’da SLA < 200ms p95, doğruluk en az %99.5 baseline olsun. Avantaj: en az perplexity kaybı. Dezavantaj: eski GPU’larda native destek yok.
INT8 — Ne zaman seç: A100/L4/T4 GPU, batch inference, doğruluk kritik. Avantaj: tensor core destekli, geniş donanım uyumu. Dezavantaj: bellek tasarrufu sadece %50.
INT4 AWQ — Ne zaman seç: real-time chatbot, 24 GB VRAM ile 13B/34B model servis etmek. Avantaj: activation-aware, en iyi INT4 doğruluğu. Dezavantaj: calibration dataset gerekiyor.
GGUF Q4_K_M — Ne zaman seç: CPU veya Apple Silicon, ya da consumer GPU’da partial offload. Avantaj: llama.cpp ile her platformda çalışır. Dezavantaj: vLLM/TensorRT desteklemez, throughput düşüktür.

GGUF Formatı ve Q-Family Varyantları Detayı

GGUF (GPT-Generated Unified Format), Georgi Gerganov tarafından geliştirilen llama.cpp projesinin native model formatıdır ve 2023 sonunda eski GGML formatının yerini almıştır. Tek dosyada metadata + tokenizer + ağırlıkları barındırır; mmap ile diskten doğrudan yüklenebilir, bu da soğuk başlatma süresini saniyeler mertebesine indirir. GitHub üzerinde llama.cpp projesi 2026 başı itibarıyla 70.000+ yıldız almış durumda.

GGUF içinde quantization tipleri Q-prefix ile adlandırılır. K-variant (“K-quants”) süperblok yapısı kullanır: 256 ağırlık 16’lık alt bloklara bölünür, her alt blok kendi scale ve min’ine sahiptir, süperblok seviyesinde de ortak scale tutulur. Bu çift kademeli yapı klasik linear quantization’a göre belirgin avantaj sağlar.

GGUF Quant	Bit/ağırlık (efektif)	Llama 3 8B Boyut	Llama 3 70B Boyut	Tipik Perplexity (Wikitext)	Tavsiye
F16 (baseline)	16.0	~16 GB	~140 GB	6.14	Referans
Q8_0	8.5	~8.5 GB	~75 GB	6.15	Neredeyse kayıpsız
Q6_K	6.6	~6.6 GB	~58 GB	6.18	Yüksek kalite
Q5_K_M	5.7	~5.7 GB	~50 GB	6.22	Dengeli
Q4_K_M	4.85	~4.9 GB	~42 GB	6.34	En popüler tercih
Q4_K_S	4.58	~4.6 GB	~40 GB	6.41	Dar VRAM
Q3_K_M	3.91	~3.9 GB	~34 GB	6.62	Sınırda kalite
Q2_K	2.96	~3.0 GB	~26 GB	7.10+	Çok küçük cihaz
IQ4_XS	4.25	~4.3 GB	~37 GB	6.36	importance-matrix tabanlı
IQ2_XXS	2.06	~2.1 GB	~18 GB	8.20+	Aşırı sıkıştırma, son çare

2025 sonrası yaygınlaşan IQ (importance-aware quants) varyantları, ağırlıkların “ne kadar önemli olduğunu” ölçen bir importance matrix kullanır; aynı bit bütçesinde Q varyantlarına göre ~%0.05-0.15 perplexity avantajı sağlar. Bunun bedeli: hesaplama bir miktar daha yavaştır ve GPU’da Q-quants’lara göre daha az optimize edilmiştir. CPU çıkarımında IQ4_XS gözde tercihtir; H100 üzerinde Q4_K_M genelde daha hızlı kalır.

Pratik karar şu basit eşik üzerinden alınır:

VRAM > 1.2 × FP16 boyut → FP16 / BF16 kullan.
VRAM 0.6-1.2 × FP16 boyut → Q8_0 veya Q6_K.
VRAM 0.35-0.6 × FP16 → Q5_K_M veya Q4_K_M (sweet spot).
VRAM < 0.35 × FP16 → Q3_K veya Q2_K (kalite belirgin düşer).

GGUF dosya formatı süperblok yapısı ve K-quants görseli

AWQ, GPTQ ve SmoothQuant: Algoritma Karşılaştırması

GPU-native deployment için üç dominant algoritma vardır. Hepsi farklı varsayımlardan yola çıkar.

GPTQ (Frantar ve ark., 2022, ICLR 2023): Layer-by-layer ikinci dereceden Hessian yaklaşımı kullanarak quantization hatasını minimize eder. Bir kalibrasyon setinde (128-512 örnek) modelin çıkışlarını ölçer, her katmanı tek tek kuantize ederken sonraki ağırlıkları telafi edici şekilde ayarlar. arXiv 2210.17323 numaralı orijinal makale 2024 sonu itibarıyla 1500+ atıf almış durumda.

AWQ (Lin ve ark., 2023, MLSys 2024): Tüm ağırlıkların eşit derecede önemli olmadığı gözlemine dayanır. Aktivasyonların büyüklüğüne göre %0.1-1 oranındaki “salient” ağırlıkları belirler ve onları kuantizasyondan korur (per-channel scaling ile). GPTQ’ya kıyasla genelde 0.1-0.5 puan daha düşük perplexity ve %20-30 daha hızlı inference verir; ayrıca kalibrasyon dataset’i bağımlılığı daha düşüktür.

SmoothQuant (Xiao ve ark., 2022): INT8-spesifik bir tekniktir. LLM aktivasyonlarındaki “outlier” sorununu çözmek için scaling factor’ı aktivasyondan ağırlıklara taşır; hem aktivasyon hem ağırlık INT8’e indirilebilir hale gelir. NVIDIA TensorRT-LLM ve Intel Neural Compressor varsayılan olarak SmoothQuant kullanır.

Algoritma	Hedef Bit	Kalibrasyon Gerekli mi?	Aktivasyon Quant	Tipik Perplexity Drift (Llama 7B, Wikitext)	Runtime Desteği
GPTQ	3/4/8 bit	Evet (128-512 örnek)	Hayır (sadece ağırlık)	+0.21 (4-bit)	vLLM, ExLlamaV2, TGI, AutoGPTQ
AWQ	3/4 bit	Evet (küçük set)	Hayır	+0.15 (4-bit)	vLLM, TensorRT-LLM, llm-awq
SmoothQuant	8 bit	Evet	Evet (W8A8)	+0.05 (8-bit)	TensorRT-LLM, OpenVINO, INC
SqueezeLLM	3/4 bit	Evet	Hayır	+0.18 (4-bit)	Araştırma, sınırlı
QuIP#	2 bit	Evet (uzun)	Hayır	+0.8 (2-bit)	Deneysel
HQQ (Half-Quadratic)	2/3/4/8 bit	Hayır (data-free)	Hayır	+0.24 (4-bit)	Hugging Face Transformers
bitsandbytes NF4	4 bit	Hayır (QLoRA için)	Hayır	+0.30 (4-bit)	Transformers, PEFT

Pratik akış: Bir modeli ilk kez kuantize edecekseniz AWQ ile başlayın — kalibrasyon süresi ~10-30 dakika (A100 üzerinde 7B model), kalite/hız oranı en iyisi. QLoRA fine-tuning yapacaksanız bitsandbytes NF4 tek pratik seçenektir; H100 + production batch için SmoothQuant W8A8 ya da FP8 kullanın. Detay için LLM özelleştirme karşılaştırmamızı inceleyebilirsiniz.

Bellek Bütçesi Hesaplama: Donanıma Göre Maksimum Model

VRAM bütçesi yalnızca ağırlıklardan ibaret değildir. Production hesabında üç kalem vardır:

Ağırlık (weights): parametre sayısı × bit/8.
KV-cache: 2 × katman sayısı × head sayısı × head_dim × seq_len × batch × bit/8. Çoğu 70B modelde 8K context için 10-25 GB.
Aktivasyon + workspace: Genelde 2-5 GB sabit overhead.

Bir 70B model + 4K context + batch 8 için yaklaşık formül: weights + 12 GB KV + 3 GB overhead. Aşağıdaki tablo, popüler donanımlarda hangi modelin hangi kuantizasyonla sığdığını gösterir.

GPU / Donanım	Kullanılabilir VRAM	FP16 Max Model	INT8 Max Model	INT4 Max Model	GGUF Q4_K_M Max
RTX 3060 12GB	~11 GB	3B	7B (kıt)	13B	13B + offload 34B
RTX 4090 24GB	~22 GB	7B	13B	34B	34B + offload 70B
RTX 5090 32GB	~30 GB	13B	34B	70B (kıt)	70B
L4 24GB	~22 GB	7B	13B	34B	34B
L40S 48GB	~45 GB	13B	34B	70B	70B (rahat)
A100 40GB	~38 GB	13B	34B	70B (kıt)	70B
A100 80GB	~75 GB	34B	70B	120B (Mixtral 8×22)	120B
H100 80GB	~75 GB	34B	70B	120B	120B
H200 141GB	~135 GB	70B	120B	405B (Llama 3.1)	405B
Mac Studio M2 Ultra 192GB unified	~150 GB	70B (yavaş)	120B	405B	405B

2026 başında Apple Silicon (M2/M3/M4 Max & Ultra) GGUF dünyasında ciddi bir oyuncu haline geldi. Unified memory mimarisi sayesinde 192 GB RAM’in çoğunluğu modele tahsis edilebiliyor; M2 Ultra üzerinde Llama 3.1 405B Q4_K_M ~9-12 token/sn üretiyor. Sunucu rakipleri (H100) için bu sayı 50-80 t/s, ancak donanım maliyeti 30-50x daha yüksek.

GPU VRAM bellek bütçesi ve LLM model boyutu görseli

Performance Benchmark: Throughput, Latency ve Kalite

Aşağıdaki benchmark, A100 80GB üzerinde Llama 3 8B modelinin farklı kuantizasyonlarla vLLM 0.6.x sunulması sonucu elde edilen değerlerin yaklaşık sentezidir (NVIDIA ve vLLM blog yazılarındaki public sayılarla uyumlu, batch=16, in=512, out=128 token).

Quantization	Model Boyutu	Throughput (tok/s)	p50 Latency (ms)	p95 Latency (ms)	MMLU Skoru	Wikitext PPL
FP16	16.1 GB	~3850	520	730	67.8	6.14
BF16	16.1 GB	~3820	525	735	67.7	6.14
FP8 (E4M3)	8.2 GB	~6900	295	410	67.5	6.16
INT8 SmoothQuant	8.1 GB	~6400	315	440	67.1	6.21
INT4 AWQ	5.4 GB	~9100	225	320	66.4	6.29
INT4 GPTQ	5.4 GB	~8200	250	355	66.0	6.35
NF4 (bitsandbytes)	5.6 GB	~2300	820	1140	66.1	6.44

Dikkat çekici noktalar:

NF4 yavaştır çünkü bitsandbytes dequantize-on-the-fly mantığıyla çalışır; üretim servisi için değil, QLoRA eğitimi için tasarlanmıştır.
FP8 throughput’u INT4’ten düşük ama latency p95’i daha stabildir; SLA önceliği olan API’larda FP8 daha tahmin edilebilir.
MMLU kaybı INT4’te %1.4 civarı; bu çoğu kurumsal use-case için kabul edilebilir, RAG hatlarında neredeyse fark edilmez çünkü retrieval kalitesi bu farkı genelde domine eder.

Ek bir gerçek: H100 üzerinde FP8 native tensor core desteği sayesinde aynı modelin throughput’u A100’e göre yaklaşık 2.4x’e çıkar. RTX 5090 üzerinde FP8 desteği daha yeni eklenmiş olsa da consumer fiyat/performansı en yüksek değer noktasıdır.

Production Deployment: vLLM, TensorRT-LLM, llama.cpp Stack Seçimi

Kuantize modelinizi nereden servis edeceğiniz, formattan en az kuantizasyon tipi kadar önemlidir. Yanlış runtime, %75 bellek tasarrufunuzu %20’lik bir throughput kaybıyla geri alabilir.

Runtime	Desteklenen Quant Formatları	Donanım	Tipik Throughput Kazancı (FP16’ya göre)	Sweet Spot
vLLM	AWQ, GPTQ, FP8, INT8 (Marlin kernel), BitsAndBytes	NVIDIA (A100+, RTX 30/40/50), AMD MI300 (sınırlı)	2-4x	Çok kullanıcılı API, OpenAI-uyumlu endpoint
TensorRT-LLM	FP8, INT8 SmoothQuant, INT4 AWQ, KV-cache INT8	NVIDIA H100/H200/L40S/RTX 4090+	3-5x	En düşük latency, NVIDIA-only production
llama.cpp	GGUF (tüm Q ve IQ varyantları)	CPU, Apple Silicon, NVIDIA, AMD, Vulkan, Metal	1.5-3x (CPU’ya göre)	Edge, laptop, mobil, hybrid offload
SGLang	AWQ, FP8, INT8, GGUF (kısmi)	NVIDIA (A100+), AMD MI300	2-4x	Yapılandırılmış üretim, JSON-mode, agentic
TGI (HF Text Gen)	AWQ, GPTQ, EETQ, FP8 (kısmi)	NVIDIA, AMD, Inferentia	1.8-3x	Hugging Face ekosistemi, sagemaker
ExLlamaV2	EXL2 (kendi formatı), GPTQ	NVIDIA consumer (RTX 30/40/50)	2-3x	Single-user uzun context, RP/local chat
Ollama	GGUF (llama.cpp tabanlı)	CPU, Apple Silicon, NVIDIA	~llama.cpp ile aynı	Yerel geliştirme, demo, hobi

Karar matrisi:

OpenAI-uyumlu çok kullanıcılı API (RTX 4090/L40S/A100): vLLM + AWQ INT4. PagedAttention ile KV-cache fragmentasyonu yok, continuous batching throughput’u maksimize eder.
H100 80GB, p95 latency < 200ms: TensorRT-LLM + FP8 (KV-cache INT8). Engine build 15-40 dk sürer ve her config değişiminde rebuild gerekir.
M2 Max MacBook’ta lokal 70B test: llama.cpp + GGUF Q4_K_M, Metal hızlandırma + mlock.
Agentic akış, JSON çıktı garanti: SGLang + AWQ. Constrained decoding native, çoklu adım cache reuse vLLM’den iyi.
QLoRA fine-tune: bitsandbytes NF4 + PEFT + Transformers. Production öncesi AWQ/GPTQ ile yeniden kuantize et.

vLLM TensorRT-LLM llama.cpp inference runtime karşılaştırma görseli

2026 Trendleri: FP4, Microscaling ve KV-Cache Quantization

Quantization alanı 2024-2026 arasında üç önemli evrim geçirdi.

1. NVIDIA Blackwell ve FP4 native desteği: Mart 2024’te tanıtılan B100/B200 GPU’lar FP4 (4-bit floating point, E2M1) tensor core desteğiyle geldi. INT4’ten farklı olarak FP4 dinamik aralığı korur; Blackwell üzerinde FP4 inference, H100 FP8’e göre ~2.5x throughput sunuyor. Yazılım ekosistemi (TensorRT-LLM 0.13+, vLLM nightly) henüz olgunlaşıyor.

2. Microscaling formats (MX-format) — OCP standardı: Open Compute Project tarafından 2023 sonunda standartlaştırılan MXFP8, MXFP6, MXFP4 formatları, 32’lik bloklar halinde paylaşılan E8M0 scale faktörü kullanır. AMD MI350 ve gelecek nesil donanımların temel formatı; ARM ve Intel de destekliyor.

3. KV-cache quantization: Uzun context (32K+) servis ederken KV-cache boyutu ağırlıklardan büyük olabilir. Llama 3 70B + 32K context + batch 8’de KV-cache ~80 GB tutar. KV-cache’i INT8 ya da FP8’e indirgemek bellek baskısını ~%50 azaltır ve perplexity’ye etkisi çok düşüktür (<0.5 puan).

Avantaj: Uzun context’te 2x daha fazla eşzamanlı kullanıcı.
Dezavantaj: Bazı modellerde (özellikle GQA-yoğun mimariler) ek 0.3-1 puan MMLU kaybı.
Ne zaman seç: Document chat, code completion, agentic workflows gibi 8K+ context senaryolarında neredeyse her zaman.

Hugging Face’in 2025 raporuna göre 2024’te en çok indirilen 100 LLM’in 78’i kuantize sürümler; bu rakam 2023’te 31’di. Konuya kurumsal bağlamda yaklaşıyorsanız kurumsal yapay zeka entegrasyonu ve RAG altyapı kurulumu rehberlerimiz tamamlayıcı yol haritası sunar.

Doğruluk Kaybını Azaltma: Calibration, GS, Outlier Handling

Kuantizasyon kaynaklı perplexity artışını minimize etmek için 2026 pratiğinde dört kaldıraç kullanılır:

Kalibrasyon dataset seçimi: Modelin kullanım dağılımına yakın olmalı. Genel domain için C4/RedPajama’dan 128-512 örnek yeterli. Ömer Önal olarak verdiğimiz danışmanlık projelerinde, kalibrasyon setini ürün dokümantasyonu + gerçek müşteri sorularından kurmak domain doğruluğunu 2-4 puan iyileştiriyor.
Group size (GS): Küçük GS = az hata, çok bellek. Pratik: GS=128 sweet spot; 4-bit’te GS=64 ek doğruluk verir ama %3-5 bellek maliyetiyle.
Outlier protection: AWQ salient-weight, SmoothQuant aktivasyon yumuşatma, GPTQ act-order. 2026’da yeni standart mixed-precision: outlier kanallar FP16’da, geri kalan INT4’te.
Quantization-aware fine-tuning (QAT): Model ağırlıkları kuantize halde birkaç epoch eğitilir. Pahalıdır (LoRA ile düşer) ama 2-3 bit sıkıştırmalarda perplexity drift’i yarıya indirir.

Kuantize bir modelin doğruluğunu test ederken Wikitext-2 perplexity sadece başlangıç ölçütüdür. Gerçek değerlendirme için MMLU, GSM8K, HumanEval ve domain-spesifik eval set’lerini birlikte koşturmak gerekir; LLM hallucination azaltma yazımızda bu ölçütleri detaylı ele aldık.

Sıkça Sorulan Sorular (SSS)

INT4 kuantizasyon kaliteyi ne kadar düşürür, kullanıcılar fark eder mi?

Tipik bir 7B-70B modelde AWQ INT4 ile MMLU’da %1-2.5, Wikitext perplexity’sinde 0.15-0.30 puan kayıp olur. Bu kayıp genellikle son kullanıcı tarafından doğrudan fark edilmez; ancak çok-adımlı muhakeme (GSM8K), kod üretimi (HumanEval) ve uzun-context görevlerde fark belirginleşebilir. Production’da A/B test ile doğrulamak şarttır.

GGUF mi yoksa AWQ mı kullanmalıyım?

Sunucuda NVIDIA GPU ile çok kullanıcıya servis edeceksiniz: AWQ + vLLM. Laptop, Mac, edge cihaz veya CPU çalışacaksa: GGUF + llama.cpp. AWQ daha hızlıdır ama llama.cpp kadar taşınabilir değildir. Hybrid senaryolarda her iki formatı da saklamak yaygın bir pratiktir.

Kuantize edilmiş bir modeli fine-tune edebilir miyim?

Doğrudan ağırlıkları güncelleyemezsiniz, ancak QLoRA ile kuantize bazda LoRA adaptörleri eğitebilirsiniz (NF4 + LoRA). 7B model için 1xRTX 4090 yeterli olur, 70B için 2xA100. Adaptör eğitildikten sonra dilerseniz tam ağırlıklarla birleştirip yeniden AWQ ile kuantize edebilirsiniz.

FP8 ile INT8 arasındaki temel fark nedir?

FP8 dinamik aralığı korur (E4M3 formatında ~±448), bu yüzden outlier’lara daha dayanıklıdır ve genelde 0.5-1 puan daha az perplexity kaybı verir. INT8 ise tensor core üzerinde daha hızlıdır (özellikle A100/L4’te) ve daha geniş donanım uyumuna sahiptir. H100/H200 üzerinde FP8 native ve hızı INT8’e çok yakındır; bu donanımlarda varsayılan tercih FP8 olmalı.

Quantization tek başına yeterli mi, başka optimizasyon gerekir mi?

Hayır, üretim seviyesi için quantization sadece ilk adımdır. Yanına PagedAttention (vLLM), FlashAttention-3, continuous batching, speculative decoding, prefix caching ve uygun KV-cache stratejisi eklenmelidir. Bu kombinasyon, sadece kuantize modele kıyasla 3-6x ek throughput sağlar ve TCO’yu belirgin şekilde düşürür.

Sonuç

LLM quantization 2026’da artık opsiyonel bir optimizasyon değil, üretim hattının zorunlu bir bileşenidir. Doğru format seçimi — INT4 AWQ, INT8 SmoothQuant, FP8, GGUF Q4_K_M — donanımınıza, latency SLA’nıza ve doğruluk toleransınıza göre yapılır. Sunucu tarafında NVIDIA Hopper/Blackwell GPU’nuz varsa FP8 + TensorRT-LLM en yüksek verimlilik, A100/L40S/RTX 4090 sınıfında AWQ INT4 + vLLM en iyi maliyet/performans, edge/laptop için GGUF Q4_K_M + llama.cpp tek pratik yoldur.

Karar verirken üç ölçüt birlikte değerlendirilmeli: bellek bütçesi (donanımdaki gerçek VRAM, KV-cache ve overhead dahil), kalite eşiği (MMLU/domain eval ile ölçülen kabul edilebilir kayıp) ve operasyonel maliyet (token başına maliyet, p95 latency, eşzamanlı kullanıcı kapasitesi). Çoğu kurumsal senaryoda AWQ INT4 + vLLM + KV-cache INT8 üçlüsü, FP16 baseline’a kıyasla 3-4x daha düşük maliyetle %98-99 kalite sunar; bu, hızla yaygınlaşan “default production stack” haline gelmiş durumda.

LLM dağıtım mimarinizde kuantizasyon stratejisini netleştirmek için iletişime geçebilir ya da agentic AI iş akışları rehberimizden devam edebilirsiniz. Derin kaynaklar: AWQ makalesi (arXiv 2306.00978), GPTQ makalesi (arXiv 2210.17323), llama.cpp GitHub deposu, NVIDIA TensorRT-LLM dokümantasyonu, vLLM dokümantasyonu, Hugging Face Quantization Overview ve OCP Microscaling Formats spesifikasyonu.

OmerOnal

Yorum (1)

Ömer ÖNAL
Mayıs 16, 2026
Yanıtla

Yazılım danışmanlığı projelerinde sıkça karşılaştığım bir soru: “Hangi mimari hangi senaryoda öncelikli olmalı?” Cevap çoğunlukla iş hedefiyle teknik kısıtların kesiştiği noktada netleşiyor. Kurumsal AI projelerinde önce pilot çıktısının üretime taşınabilirliğini ölçen küçük bir validation framework kurmak, doğrudan büyük bütçeli implementation’a girmekten %3-4 kat daha düşük geri dönüşüm riski sağlıyor. Yorumlarınıza açığım.

Our Gallery

Contact Info

LLM Quantization 2026: INT4, INT8 ve GGUF Karsilastirmasi