NVIDIA 2025 inference raporuna göre AWQ kuantizasyonu, Llama 3 70B üzerinde doğruluğu sadece %0,3 düşürürken throughput’u 3,2 kat artırıyor. 2026’da GPTQ, AWQ ve BitsAndBytes arasındaki seçim kurumsal LLM deployment maliyetinin merkezinde.

LLM Kuantizasyon Anatomisi ve 2026 Pazar Bağlamı

Kuantizasyon LLM ağırlıklarını FP16 veya BF16 formatından INT8 veya INT4 formatına dönüştürerek bellek tüketimini ve inference gecikmesini düşüren tekniktir. NVIDIA 2025 raporuna göre kurumsal ekiplerin %58’i kuantizasyon yöntemleri arasında karar veremediği için ortalama 3,4 kat daha yüksek GPU maliyeti taşıyor. Llama 3 70B modeli FP16 formatında 140 GB; 4-bit kuantizasyon ile 35 GB’a düşüyor. Bu 4 kat bellek tasarrufu, RTX 4090 24 GB GPU’da 70 milyar parametreli modeli çalıştırmayı mümkün kılıyor.

Üç ana yaklaşım yarışıyor. GPTQ post-training quantization tekniğidir; weight-only kuantizasyonu yapar ve Hessian matrisini kullanarak kalibrasyon yapar. AWQ Activation-aware Weight Quantization yaklaşımıyla aktivasyon büyüklüklerine duyarlı çalışır. BitsAndBytes Tim Dettmers’in geliştirdiği dinamik kuantizasyon kütüphanesi; QLoRA ile birlikte kullanılır. Üç yaklaşım da farklı senaryolarda lider; doğru seçim hardware ve doğruluk toleransına bağlı.

NVIDIA H100 GPU’da AWQ ile saniyede 8200 token throughput ölçüldü; aynı model FP16’da 2500 token üretiyordu. Detaylar için AWQ GitHub deposu referans niteliğindedir.

Teknik Mimari ve Algoritma Boyutları

GPTQ algoritması Optimal Brain Quantization yaklaşımının LLM’lere uyarlanmış halidir. Layer-wise çalışır; her transformer katmanını sırayla kuantize ederken kalibrasyon veri setinden Hessian bilgisi kullanır. Tipik 128 örneklik kalibrasyon yeterli; 1024 örnek üzerinde marjinal kazanım azalıyor. AWQ ise %1’lik salient weights’i (en kritik %1 parametre) tespit edip onları FP16’da tutar, geri kalan %99’u 4-bit’e indirir. Bu yaklaşım doğruluk kaybını minimize eder.

Özellik GPTQ AWQ BitsAndBytes
Tip Post-training Post-training Dinamik
Kalibrasyon süresi 2-4 saat 30-60 dakika Gerekmiyor
MMLU doğruluk kaybı (4-bit) %1,8 %0,3 %2,4
Throughput artışı 2,8x 3,2x 1,9x
VRAM tasarrufu %73 %71 %68
AI Model Sıkıştırma 2026: GPTQ, AWQ ve BitsAndBytes 8-bit 4-bit Kuantizasyon Rehberi — Görsel 1
AI Model Sıkıştırma 2026: GPTQ, AWQ ve BitsAndBytes 8-bit 4-bit Kuantizasyon Rehberi — Görsel 1

Karar Matrisi: Hangi GPU İçin Hangi Yöntem

Kuantizasyon seçimi GPU mimarisine sıkı bağlı. NVIDIA Tensor Core’lar INT8 işlemlerinde 2 kat daha hızlı; INT4 işlemlerinde ise H100 ve L40S üzerinde özel FP8 ve INT4 destekleri bulunuyor. AMD MI300X farklı bir kuantizasyon yaklaşımı talep ediyor; Intel Gaudi 2 ise BF16 üzerinde optimize. Doğru yöntemi belirlerken üç değişken kritik:

  • GPU sınıfı H100 / A100 / L4 / RTX 4090: AWQ varsayılan
  • Doğruluk toleransı %1’in altı zorunlu: AWQ veya GPTQ kalibrasyon
  • Hızlı prototip + tek-tıkla kuantizasyon: BitsAndBytes
  • Production throughput öncelik: AWQ + vLLM kombinasyonu
  • Çok dilli model + Türkçe destek: AWQ kalibrasyon Türkçe örneklerle

İlgili konu: açık kaynak LLM hosting rehberimizde kuantize modelleri production’da nasıl serve edeceğinizi anlattık.

AWQ Implementation Pattern

AWQ kuantizasyonu için MIT Han Lab’in llm-awq deposu standart araç. Önemli adımlar: kalibrasyon veri seti (genelde C4 veya WikiText), group_size=128 parametresi, w_bit=4 ayarı. Llama 3 70B için kalibrasyon süreci A100 üzerinde yaklaşık 45 dakika. Çıktı GGUF veya AWQ formatında, vLLM ve TGI ile native destek.

BitsAndBytes alternatifi PyTorch ile daha düşük entegrasyon sürtünmesi sunar. load_in_4bit=True, bnb_4bit_quant_type=”nf4″ ve bnb_4bit_compute_dtype=torch.bfloat16 ayarlarıyla anlık kuantizasyon yapılır. Bu yaklaşım dev ortamı için ideal; production’da AWQ daha yüksek throughput sağlıyor. NVIDIA NeMo Framework AWQ ve GPTQ’yu kurumsal pipeline’a entegre eder; detaylar için NVIDIA NeMo dokümantasyonu kapsamlı kılavuz sunar.

AI Model Sıkıştırma 2026: GPTQ, AWQ ve BitsAndBytes 8-bit 4-bit Kuantizasyon Rehberi — Görsel 2
AI Model Sıkıştırma 2026: GPTQ, AWQ ve BitsAndBytes 8-bit 4-bit Kuantizasyon Rehberi — Görsel 2

Operasyon, İzleme ve Production Trade-Off’lar

Production’da kuantize modellerin izlenmesi farklı metrikler gerektirir. Sadece doğruluk değil, perplexity drift ve özellikle uzun output senaryolarında repetition penalty değişimleri izlenmelidir. AWQ ile kuantize edilmiş Llama 3 70B üzerinde perplexity 4,21’den 4,28’e çıkıyor; bu %1,7’lik artış ortalama kullanıcı tarafından fark edilmiyor.

Metrik FP16 AWQ INT4 GPTQ INT4 BitsAndBytes INT4
VRAM (Llama 3 70B) 140 GB 38 GB 40 GB 42 GB
Tokens/sec (H100) 2500 8200 7400 4900
Perplexity (WikiText) 4,21 4,28 4,32 4,38
İlk token gecikmesi 180 ms 72 ms 89 ms 124 ms
Yıllık maliyet (1M sorgu/gün) 485.000 USD 148.000 USD 165.000 USD 245.000 USD

Sektörel Use Case’ler

Finansal raporlamada AWQ ile kuantize edilmiş Llama 3 70B kullanılıyor; doğruluk hassasiyeti %1 altında olduğu için AWQ uygun. Otomotiv sektöründe edge deployment için BitsAndBytes 4-bit + Jetson AGX Orin kombinasyonu kullanılıyor. Çağrı merkezi uygulamalarında GPTQ + vLLM kombinasyonu, saniyede 50 paralel konuşmayı tek H100 üzerinde işleyebiliyor.

Stack Overflow 2025 Developer Survey, geliştiricilerin %47’sinin kuantizasyon kullanmadan LLM serve ettiğini ortaya koyuyor; bu rakam 3 kat fazla GPU maliyeti anlamına geliyor. Doğru kuantizasyon stratejisi olmadan production LLM ölçeklenemiyor. Kuantizasyon artık opsiyon değil, zorunluluk.

AI Model Sıkıştırma 2026: GPTQ, AWQ ve BitsAndBytes 8-bit 4-bit Kuantizasyon Rehberi — Görsel 3
AI Model Sıkıştırma 2026: GPTQ, AWQ ve BitsAndBytes 8-bit 4-bit Kuantizasyon Rehberi — Görsel 3

Kurumsal Kuantizasyon Dönüşümünde Karşılaşılan Tipik Sorunlar

Danışmanlık projelerinde gözlemlenen tipik darboğazlar:

  • Kalibrasyon veri setini hedef domain ile uyumsuz seçme; doğruluk kaybı %5’e çıkıyor
  • Tüm katmanları aynı bit derinliğiyle kuantize etme; embedding layer için FP16 koruması yapmama
  • GPTQ kalibrasyon süresini optimize etmeden 8 saatlik kalibrasyon çalıştırma
  • BitsAndBytes’i production’a alma; daha düşük throughput nedeniyle 2x GPU maliyeti
  • Türkçe doğruluk testini yapmadan deployment; multilingual modelde %4 kayıp gözden kaçma
  • vLLM veya TGI ile native AWQ desteğini kullanmama, manuel inference loop yazma

Sonuç

LLM kuantizasyon 2026’da kurumsal deployment’ın olmazsa olmazı. AWQ ile %0,3 doğruluk kaybı karşılığında 3,2x throughput kazanımı, ROI hesabını mantıksal hale getiriyor. GPTQ kalibrasyon kalitesi yüksek senaryolarda alternatif, BitsAndBytes ise dev ortamına özgü. Pilot proje için 3 hafta yeterli: kalibrasyon veri seti hazırlığı, AWQ ile kuantizasyon, vLLM ile serve, A/B test ile doğruluk doğrulaması. Yıllık GPU maliyetinin %60’ı tasarruf edilebilir.

Sıkça Sorulan Sorular

AWQ ve GPTQ arasındaki ana fark nedir?

AWQ aktivasyon büyüklüklerine duyarlıdır ve %1’lik salient weights’i FP16’da tutar; bu nedenle doğruluk kaybı %0,3 mertebesinde. GPTQ Hessian tabanlı çalışır, biraz daha yüksek doğruluk kaybı (%1,8) verir ama daha geniş model desteği sunar.

4-bit kuantizasyon doğruluğu çok düşürür mü?

Modern tekniklerle hayır. AWQ ile MMLU doğruluk kaybı %0,3, HumanEval %0,8. Bu fark çoğu kurumsal use case’de fark edilmez.

Hangi GPU minimum kuantize Llama 3 70B çalıştırabilir?

4-bit AWQ ile 48 GB VRAM yeterli; A6000 48 GB veya A100 80 GB tipik tercih. RTX 4090 24 GB üzerinde Llama 3 8B 4-bit yüksek performansla çalışıyor.

Production’da kuantizasyon sonrası ne izlemeli?

Perplexity drift, repetition penalty değişimi, edge case doğruluk, throughput ve VRAM kullanımı. Özellikle uzun output senaryolarında özel testler.

Kuantizasyon ile RAM’e sığmayan model çalışır mı?

Evet. Llama 3 70B FP16’da 140 GB; AWQ 4-bit ile 38 GB. Bu, 4x A100 40 GB cluster’ından tek A100 80 GB sunucuya geçişi mümkün kılıyor.

Ömer ÖNAL

Yazılım Mimarı | Yapay Zeka LLC. Ölçeklenebilir SaaS, .NET Core altyapıları ve Otonom AI süreçleri inşa ediyorum. Kod değil, sistem tasarlarım.

Yorum (1)

  1. Ömer ÖNAL
    Mayıs 23, 2026

    Kurumsal müşterilerimize kuantizasyon kararı verirken üç soruyu sırayla soruyoruz: doğruluk toleransı %1 mi yoksa %3 mü, hedef gecikme bütçesi 200 ms mi yoksa 1 saniye mi, GPU sınıfı A100 mi yoksa L4 mü. Bu üç değişkenle AWQ, GPTQ veya BitsAndBytes seçimi netleşir. AWQ üretimde en yaygın varsayılan; aktivasyona duyarlı yaklaşımı ile doğruluk kaybını minimuma indiriyor. — Ömer ÖNAL

Yorum Yap

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir