GPTQ AWQ BitsAndBytes Kuantizasyon Karşılaştırması 2026

Haziran 18, 2026Ömer ÖNAL1 Yorum

NVIDIA 2025 inference raporuna göre AWQ kuantizasyonu, Llama 3 70B üzerinde doğruluğu sadece %0,3 düşürürken throughput’u 3,2 kat artırıyor. 2026’da GPTQ, AWQ ve BitsAndBytes arasındaki seçim kurumsal LLM deployment maliyetinin merkezinde.

📖 7 dakikalık okuma

İçindekiler

LLM Kuantizasyon Anatomisi ve 2026 Pazar Bağlamı
Teknik Mimari ve Algoritma Boyutları
Karar Matrisi: Hangi GPU İçin Hangi Yöntem
AWQ Implementation Pattern
Operasyon, İzleme ve Production Trade-Off'lar
Sektörel Use Case'ler
Kurumsal Kuantizasyon Dönüşümünde Karşılaşılan Tipik Sorunlar
Sonuç
Sıkça Sorulan Sorular

LLM Kuantizasyon Anatomisi ve 2026 Pazar Bağlamı

Kuantizasyon LLM ağırlıklarını FP16 veya BF16 formatından INT8 veya INT4 formatına dönüştürerek bellek tüketimini ve inference gecikmesini düşüren tekniktir. NVIDIA 2025 raporuna göre kurumsal ekiplerin %58’i kuantizasyon yöntemleri arasında karar veremediği için ortalama 3,4 kat daha yüksek GPU maliyeti taşıyor. Llama 3 70B modeli FP16 formatında 140 GB; 4-bit kuantizasyon ile 35 GB’a düşüyor. Bu 4 kat bellek tasarrufu, RTX 4090 24 GB GPU’da 70 milyar parametreli modeli çalıştırmayı mümkün kılıyor.

Üç ana yaklaşım yarışıyor. GPTQ post-training quantization tekniğidir; weight-only kuantizasyonu yapar ve Hessian matrisini kullanarak kalibrasyon yapar. AWQ Activation-aware Weight Quantization yaklaşımıyla aktivasyon büyüklüklerine duyarlı çalışır. BitsAndBytes Tim Dettmers’in geliştirdiği dinamik kuantizasyon kütüphanesi; QLoRA ile birlikte kullanılır. Üç yaklaşım da farklı senaryolarda lider; doğru seçim hardware ve doğruluk toleransına bağlı.

NVIDIA H100 GPU’da AWQ ile saniyede 8200 token throughput ölçüldü; aynı model FP16’da 2500 token üretiyordu. Detaylar için AWQ GitHub deposu referans niteliğindedir.

Teknik Mimari ve Algoritma Boyutları

GPTQ algoritması Optimal Brain Quantization yaklaşımının LLM’lere uyarlanmış halidir. Layer-wise çalışır; her transformer katmanını sırayla kuantize ederken kalibrasyon veri setinden Hessian bilgisi kullanır. Tipik 128 örneklik kalibrasyon yeterli; 1024 örnek üzerinde marjinal kazanım azalıyor. AWQ ise %1’lik salient weights’i (en kritik %1 parametre) tespit edip onları FP16’da tutar, geri kalan %99’u 4-bit’e indirir. Bu yaklaşım doğruluk kaybını minimize eder.

Özellik	GPTQ	AWQ	BitsAndBytes
Tip	Post-training	Post-training	Dinamik
Kalibrasyon süresi	2-4 saat	30-60 dakika	Gerekmiyor
MMLU doğruluk kaybı (4-bit)	%1,8	%0,3	%2,4
Throughput artışı	2,8x	3,2x	1,9x
VRAM tasarrufu	%73	%71	%68

AI Model Sıkıştırma 2026: GPTQ, AWQ ve BitsAndBytes 8-bit 4-bit Kuantizasyon Rehberi — Görsel 1

Karar Matrisi: Hangi GPU İçin Hangi Yöntem

Kuantizasyon seçimi GPU mimarisine sıkı bağlı. NVIDIA Tensor Core’lar INT8 işlemlerinde 2 kat daha hızlı; INT4 işlemlerinde ise H100 ve L40S üzerinde özel FP8 ve INT4 destekleri bulunuyor. AMD MI300X farklı bir kuantizasyon yaklaşımı talep ediyor; Intel Gaudi 2 ise BF16 üzerinde optimize. Doğru yöntemi belirlerken üç değişken kritik:

GPU sınıfı H100 / A100 / L4 / RTX 4090: AWQ varsayılan
Doğruluk toleransı %1’in altı zorunlu: AWQ veya GPTQ kalibrasyon
Hızlı prototip + tek-tıkla kuantizasyon: BitsAndBytes
Production throughput öncelik: AWQ + vLLM kombinasyonu
Çok dilli model + Türkçe destek: AWQ kalibrasyon Türkçe örneklerle

İlgili konu: açık kaynak LLM hosting rehberimizde kuantize modelleri production’da nasıl serve edeceğinizi anlattık.

AWQ Implementation Pattern

AWQ kuantizasyonu için MIT Han Lab’in llm-awq deposu standart araç. Önemli adımlar: kalibrasyon veri seti (genelde C4 veya WikiText), group_size=128 parametresi, w_bit=4 ayarı. Llama 3 70B için kalibrasyon süreci A100 üzerinde yaklaşık 45 dakika. Çıktı GGUF veya AWQ formatında, vLLM ve TGI ile native destek.

BitsAndBytes alternatifi PyTorch ile daha düşük entegrasyon sürtünmesi sunar. load_in_4bit=True, bnb_4bit_quant_type=”nf4″ ve bnb_4bit_compute_dtype=torch.bfloat16 ayarlarıyla anlık kuantizasyon yapılır. Bu yaklaşım dev ortamı için ideal; production’da AWQ daha yüksek throughput sağlıyor. NVIDIA NeMo Framework AWQ ve GPTQ’yu kurumsal pipeline’a entegre eder; detaylar için NVIDIA NeMo dokümantasyonu kapsamlı kılavuz sunar.

AI Model Sıkıştırma 2026: GPTQ, AWQ ve BitsAndBytes 8-bit 4-bit Kuantizasyon Rehberi — Görsel 2

Operasyon, İzleme ve Production Trade-Off’lar

Production’da kuantize modellerin izlenmesi farklı metrikler gerektirir. Sadece doğruluk değil, perplexity drift ve özellikle uzun output senaryolarında repetition penalty değişimleri izlenmelidir. AWQ ile kuantize edilmiş Llama 3 70B üzerinde perplexity 4,21’den 4,28’e çıkıyor; bu %1,7’lik artış ortalama kullanıcı tarafından fark edilmiyor.

Metrik	FP16	AWQ INT4	GPTQ INT4	BitsAndBytes INT4
VRAM (Llama 3 70B)	140 GB	38 GB	40 GB	42 GB
Tokens/sec (H100)	2500	8200	7400	4900
Perplexity (WikiText)	4,21	4,28	4,32	4,38
İlk token gecikmesi	180 ms	72 ms	89 ms	124 ms
Yıllık maliyet (1M sorgu/gün)	485.000 USD	148.000 USD	165.000 USD	245.000 USD

Sektörel Use Case’ler

Finansal raporlamada AWQ ile kuantize edilmiş Llama 3 70B kullanılıyor; doğruluk hassasiyeti %1 altında olduğu için AWQ uygun. Otomotiv sektöründe edge deployment için BitsAndBytes 4-bit + Jetson AGX Orin kombinasyonu kullanılıyor. Çağrı merkezi uygulamalarında GPTQ + vLLM kombinasyonu, saniyede 50 paralel konuşmayı tek H100 üzerinde işleyebiliyor.

Stack Overflow 2025 Developer Survey, geliştiricilerin %47’sinin kuantizasyon kullanmadan LLM serve ettiğini ortaya koyuyor; bu rakam 3 kat fazla GPU maliyeti anlamına geliyor. Doğru kuantizasyon stratejisi olmadan production LLM ölçeklenemiyor. Kuantizasyon artık opsiyon değil, zorunluluk.

AI Model Sıkıştırma 2026: GPTQ, AWQ ve BitsAndBytes 8-bit 4-bit Kuantizasyon Rehberi — Görsel 3

Kurumsal Kuantizasyon Dönüşümünde Karşılaşılan Tipik Sorunlar

Danışmanlık projelerinde gözlemlenen tipik darboğazlar:

Kalibrasyon veri setini hedef domain ile uyumsuz seçme; doğruluk kaybı %5’e çıkıyor
Tüm katmanları aynı bit derinliğiyle kuantize etme; embedding layer için FP16 koruması yapmama
GPTQ kalibrasyon süresini optimize etmeden 8 saatlik kalibrasyon çalıştırma
BitsAndBytes’i production’a alma; daha düşük throughput nedeniyle 2x GPU maliyeti
Türkçe doğruluk testini yapmadan deployment; multilingual modelde %4 kayıp gözden kaçma
vLLM veya TGI ile native AWQ desteğini kullanmama, manuel inference loop yazma

Sonuç

LLM kuantizasyon 2026’da kurumsal deployment’ın olmazsa olmazı. AWQ ile %0,3 doğruluk kaybı karşılığında 3,2x throughput kazanımı, ROI hesabını mantıksal hale getiriyor. GPTQ kalibrasyon kalitesi yüksek senaryolarda alternatif, BitsAndBytes ise dev ortamına özgü. Pilot proje için 3 hafta yeterli: kalibrasyon veri seti hazırlığı, AWQ ile kuantizasyon, vLLM ile serve, A/B test ile doğruluk doğrulaması. Yıllık GPU maliyetinin %60’ı tasarruf edilebilir.

Sıkça Sorulan Sorular

AWQ ve GPTQ arasındaki ana fark nedir?

AWQ aktivasyon büyüklüklerine duyarlıdır ve %1’lik salient weights’i FP16’da tutar; bu nedenle doğruluk kaybı %0,3 mertebesinde. GPTQ Hessian tabanlı çalışır, biraz daha yüksek doğruluk kaybı (%1,8) verir ama daha geniş model desteği sunar.

4-bit kuantizasyon doğruluğu çok düşürür mü?

Modern tekniklerle hayır. AWQ ile MMLU doğruluk kaybı %0,3, HumanEval %0,8. Bu fark çoğu kurumsal use case’de fark edilmez.

Hangi GPU minimum kuantize Llama 3 70B çalıştırabilir?

4-bit AWQ ile 48 GB VRAM yeterli; A6000 48 GB veya A100 80 GB tipik tercih. RTX 4090 24 GB üzerinde Llama 3 8B 4-bit yüksek performansla çalışıyor.

Production’da kuantizasyon sonrası ne izlemeli?

Perplexity drift, repetition penalty değişimi, edge case doğruluk, throughput ve VRAM kullanımı. Özellikle uzun output senaryolarında özel testler.

Kuantizasyon ile RAM’e sığmayan model çalışır mı?

Evet. Llama 3 70B FP16’da 140 GB; AWQ 4-bit ile 38 GB. Bu, 4x A100 40 GB cluster’ından tek A100 80 GB sunucuya geçişi mümkün kılıyor.

Ömer ÖNAL

Yazılım Mimarı | Yapay Zeka LLC. Ölçeklenebilir SaaS, .NET Core altyapıları ve Otonom AI süreçleri inşa ediyorum. Kod değil, sistem tasarlarım.

Yorum (1)

Ömer ÖNAL
Mayıs 23, 2026
Yanıtla

Kurumsal müşterilerimize kuantizasyon kararı verirken üç soruyu sırayla soruyoruz: doğruluk toleransı %1 mi yoksa %3 mü, hedef gecikme bütçesi 200 ms mi yoksa 1 saniye mi, GPU sınıfı A100 mi yoksa L4 mü. Bu üç değişkenle AWQ, GPTQ veya BitsAndBytes seçimi netleşir. AWQ üretimde en yaygın varsayılan; aktivasyona duyarlı yaklaşımı ile doğruluk kaybını minimuma indiriyor. — Ömer ÖNAL

Our Gallery

Contact Info

AI Model Sıkıştırma 2026: GPTQ, AWQ ve BitsAndBytes 8-bit 4-bit Kuantizasyon Rehberi