NVIDIA 2025 inference raporuna göre AWQ kuantizasyonu, Llama 3 70B üzerinde doğruluğu sadece %0,3 düşürürken throughput’u 3,2 kat artırıyor. 2026’da GPTQ, AWQ ve BitsAndBytes arasındaki seçim kurumsal LLM deployment maliyetinin merkezinde.
LLM Kuantizasyon Anatomisi ve 2026 Pazar Bağlamı
Kuantizasyon LLM ağırlıklarını FP16 veya BF16 formatından INT8 veya INT4 formatına dönüştürerek bellek tüketimini ve inference gecikmesini düşüren tekniktir. NVIDIA 2025 raporuna göre kurumsal ekiplerin %58’i kuantizasyon yöntemleri arasında karar veremediği için ortalama 3,4 kat daha yüksek GPU maliyeti taşıyor. Llama 3 70B modeli FP16 formatında 140 GB; 4-bit kuantizasyon ile 35 GB’a düşüyor. Bu 4 kat bellek tasarrufu, RTX 4090 24 GB GPU’da 70 milyar parametreli modeli çalıştırmayı mümkün kılıyor.
Üç ana yaklaşım yarışıyor. GPTQ post-training quantization tekniğidir; weight-only kuantizasyonu yapar ve Hessian matrisini kullanarak kalibrasyon yapar. AWQ Activation-aware Weight Quantization yaklaşımıyla aktivasyon büyüklüklerine duyarlı çalışır. BitsAndBytes Tim Dettmers’in geliştirdiği dinamik kuantizasyon kütüphanesi; QLoRA ile birlikte kullanılır. Üç yaklaşım da farklı senaryolarda lider; doğru seçim hardware ve doğruluk toleransına bağlı.
NVIDIA H100 GPU’da AWQ ile saniyede 8200 token throughput ölçüldü; aynı model FP16’da 2500 token üretiyordu. Detaylar için AWQ GitHub deposu referans niteliğindedir.
Teknik Mimari ve Algoritma Boyutları
GPTQ algoritması Optimal Brain Quantization yaklaşımının LLM’lere uyarlanmış halidir. Layer-wise çalışır; her transformer katmanını sırayla kuantize ederken kalibrasyon veri setinden Hessian bilgisi kullanır. Tipik 128 örneklik kalibrasyon yeterli; 1024 örnek üzerinde marjinal kazanım azalıyor. AWQ ise %1’lik salient weights’i (en kritik %1 parametre) tespit edip onları FP16’da tutar, geri kalan %99’u 4-bit’e indirir. Bu yaklaşım doğruluk kaybını minimize eder.
| Özellik | GPTQ | AWQ | BitsAndBytes |
|---|---|---|---|
| Tip | Post-training | Post-training | Dinamik |
| Kalibrasyon süresi | 2-4 saat | 30-60 dakika | Gerekmiyor |
| MMLU doğruluk kaybı (4-bit) | %1,8 | %0,3 | %2,4 |
| Throughput artışı | 2,8x | 3,2x | 1,9x |
| VRAM tasarrufu | %73 | %71 | %68 |

Karar Matrisi: Hangi GPU İçin Hangi Yöntem
Kuantizasyon seçimi GPU mimarisine sıkı bağlı. NVIDIA Tensor Core’lar INT8 işlemlerinde 2 kat daha hızlı; INT4 işlemlerinde ise H100 ve L40S üzerinde özel FP8 ve INT4 destekleri bulunuyor. AMD MI300X farklı bir kuantizasyon yaklaşımı talep ediyor; Intel Gaudi 2 ise BF16 üzerinde optimize. Doğru yöntemi belirlerken üç değişken kritik:
- GPU sınıfı H100 / A100 / L4 / RTX 4090: AWQ varsayılan
- Doğruluk toleransı %1’in altı zorunlu: AWQ veya GPTQ kalibrasyon
- Hızlı prototip + tek-tıkla kuantizasyon: BitsAndBytes
- Production throughput öncelik: AWQ + vLLM kombinasyonu
- Çok dilli model + Türkçe destek: AWQ kalibrasyon Türkçe örneklerle
İlgili konu: açık kaynak LLM hosting rehberimizde kuantize modelleri production’da nasıl serve edeceğinizi anlattık.
AWQ Implementation Pattern
AWQ kuantizasyonu için MIT Han Lab’in llm-awq deposu standart araç. Önemli adımlar: kalibrasyon veri seti (genelde C4 veya WikiText), group_size=128 parametresi, w_bit=4 ayarı. Llama 3 70B için kalibrasyon süreci A100 üzerinde yaklaşık 45 dakika. Çıktı GGUF veya AWQ formatında, vLLM ve TGI ile native destek.
BitsAndBytes alternatifi PyTorch ile daha düşük entegrasyon sürtünmesi sunar. load_in_4bit=True, bnb_4bit_quant_type=”nf4″ ve bnb_4bit_compute_dtype=torch.bfloat16 ayarlarıyla anlık kuantizasyon yapılır. Bu yaklaşım dev ortamı için ideal; production’da AWQ daha yüksek throughput sağlıyor. NVIDIA NeMo Framework AWQ ve GPTQ’yu kurumsal pipeline’a entegre eder; detaylar için NVIDIA NeMo dokümantasyonu kapsamlı kılavuz sunar.

Operasyon, İzleme ve Production Trade-Off’lar
Production’da kuantize modellerin izlenmesi farklı metrikler gerektirir. Sadece doğruluk değil, perplexity drift ve özellikle uzun output senaryolarında repetition penalty değişimleri izlenmelidir. AWQ ile kuantize edilmiş Llama 3 70B üzerinde perplexity 4,21’den 4,28’e çıkıyor; bu %1,7’lik artış ortalama kullanıcı tarafından fark edilmiyor.
| Metrik | FP16 | AWQ INT4 | GPTQ INT4 | BitsAndBytes INT4 |
|---|---|---|---|---|
| VRAM (Llama 3 70B) | 140 GB | 38 GB | 40 GB | 42 GB |
| Tokens/sec (H100) | 2500 | 8200 | 7400 | 4900 |
| Perplexity (WikiText) | 4,21 | 4,28 | 4,32 | 4,38 |
| İlk token gecikmesi | 180 ms | 72 ms | 89 ms | 124 ms |
| Yıllık maliyet (1M sorgu/gün) | 485.000 USD | 148.000 USD | 165.000 USD | 245.000 USD |
Sektörel Use Case’ler
Finansal raporlamada AWQ ile kuantize edilmiş Llama 3 70B kullanılıyor; doğruluk hassasiyeti %1 altında olduğu için AWQ uygun. Otomotiv sektöründe edge deployment için BitsAndBytes 4-bit + Jetson AGX Orin kombinasyonu kullanılıyor. Çağrı merkezi uygulamalarında GPTQ + vLLM kombinasyonu, saniyede 50 paralel konuşmayı tek H100 üzerinde işleyebiliyor.
Stack Overflow 2025 Developer Survey, geliştiricilerin %47’sinin kuantizasyon kullanmadan LLM serve ettiğini ortaya koyuyor; bu rakam 3 kat fazla GPU maliyeti anlamına geliyor. Doğru kuantizasyon stratejisi olmadan production LLM ölçeklenemiyor. Kuantizasyon artık opsiyon değil, zorunluluk.

Kurumsal Kuantizasyon Dönüşümünde Karşılaşılan Tipik Sorunlar
Danışmanlık projelerinde gözlemlenen tipik darboğazlar:
- Kalibrasyon veri setini hedef domain ile uyumsuz seçme; doğruluk kaybı %5’e çıkıyor
- Tüm katmanları aynı bit derinliğiyle kuantize etme; embedding layer için FP16 koruması yapmama
- GPTQ kalibrasyon süresini optimize etmeden 8 saatlik kalibrasyon çalıştırma
- BitsAndBytes’i production’a alma; daha düşük throughput nedeniyle 2x GPU maliyeti
- Türkçe doğruluk testini yapmadan deployment; multilingual modelde %4 kayıp gözden kaçma
- vLLM veya TGI ile native AWQ desteğini kullanmama, manuel inference loop yazma
Sonuç
LLM kuantizasyon 2026’da kurumsal deployment’ın olmazsa olmazı. AWQ ile %0,3 doğruluk kaybı karşılığında 3,2x throughput kazanımı, ROI hesabını mantıksal hale getiriyor. GPTQ kalibrasyon kalitesi yüksek senaryolarda alternatif, BitsAndBytes ise dev ortamına özgü. Pilot proje için 3 hafta yeterli: kalibrasyon veri seti hazırlığı, AWQ ile kuantizasyon, vLLM ile serve, A/B test ile doğruluk doğrulaması. Yıllık GPU maliyetinin %60’ı tasarruf edilebilir.
Sıkça Sorulan Sorular
AWQ ve GPTQ arasındaki ana fark nedir?
AWQ aktivasyon büyüklüklerine duyarlıdır ve %1’lik salient weights’i FP16’da tutar; bu nedenle doğruluk kaybı %0,3 mertebesinde. GPTQ Hessian tabanlı çalışır, biraz daha yüksek doğruluk kaybı (%1,8) verir ama daha geniş model desteği sunar.
4-bit kuantizasyon doğruluğu çok düşürür mü?
Modern tekniklerle hayır. AWQ ile MMLU doğruluk kaybı %0,3, HumanEval %0,8. Bu fark çoğu kurumsal use case’de fark edilmez.
Hangi GPU minimum kuantize Llama 3 70B çalıştırabilir?
4-bit AWQ ile 48 GB VRAM yeterli; A6000 48 GB veya A100 80 GB tipik tercih. RTX 4090 24 GB üzerinde Llama 3 8B 4-bit yüksek performansla çalışıyor.
Production’da kuantizasyon sonrası ne izlemeli?
Perplexity drift, repetition penalty değişimi, edge case doğruluk, throughput ve VRAM kullanımı. Özellikle uzun output senaryolarında özel testler.
Kuantizasyon ile RAM’e sığmayan model çalışır mı?
Evet. Llama 3 70B FP16’da 140 GB; AWQ 4-bit ile 38 GB. Bu, 4x A100 40 GB cluster’ından tek A100 80 GB sunucuya geçişi mümkün kılıyor.










Ömer ÖNAL
Mayıs 23, 2026Kurumsal müşterilerimize kuantizasyon kararı verirken üç soruyu sırayla soruyoruz: doğruluk toleransı %1 mi yoksa %3 mü, hedef gecikme bütçesi 200 ms mi yoksa 1 saniye mi, GPU sınıfı A100 mi yoksa L4 mü. Bu üç değişkenle AWQ, GPTQ veya BitsAndBytes seçimi netleşir. AWQ üretimde en yaygın varsayılan; aktivasyona duyarlı yaklaşımı ile doğruluk kaybını minimuma indiriyor. — Ömer ÖNAL