LLM için GPU seçimi, 2026 yılında yapay zeka ekiplerinin önündeki en kritik altyapı kararıdır. Yanlış seçilmiş bir GPU, Llama 3 70B fine-tune maliyetini iki katına çıkarabilir, inference latency’yi iki haneli milisaniyeden saniye seviyesine taşıyabilir veya proje tamamen rafa kalkabilir. Doğru cevap basittir: training için NVIDIA H100 80GB (HBM3, 3.35 TB/s, FP16 989 TFLOPS), büyük-ölçek inference için H100 veya yeni B100, orta-ölçek inference ve grafik+AI karma yükler için L40S, regülasyonlu/uzun-bağlam workload için H200 141GB HBM3e. Bu yazıda H100, A100, L40S, H200 ve B100 GPU’larını TFLOPS, bellek, bant genişliği, AWS p5/p4d ile Lambda Labs saatlik fiyat ve gerçek MLPerf benchmark verileri üzerinden karşılaştıracağız; ardından training, fine-tune, RAG inference ve multi-tenant serving senaryoları için karar çerçevesi sunacağız.
Bu rehber NVIDIA resmi datasheet’leri, AWS/GCP/Lambda Labs/RunPod kamuya açık fiyat sayfaları ve MLCommons MLPerf Inference v4.1 sonuçlarına dayanıyor. Hiçbir varsayım üretmedik; tüm rakamlar üretici belgelerinden alınmıştır.

LLM için GPU seçiminde 2026 itibarıyla manzara
2022’de OpenAI GPT-3 eğitimi sırasında V100 hala referans GPU’ydu. 2023’te A100 80GB pratik standart oldu, 2024’te H100 piyasayı domine etti ve 2025-2026’da H200 ile B100 (Blackwell) production’a girdi. Bu hızlı geçişin sebebi tek bir metrik değil; aritmetik yoğunluk, bellek bant genişliği ve NVLink topolojisi birlikte LLM training/inference verimliliğini belirler. NVIDIA’nın resmi H100 datasheet‘ine göre H100 SXM5, A100 SXM4’e kıyasla FP16 throughput’ta yaklaşık 3x, FP8 (yeni veri tipi) ile 6x sıçrama sağlar. Bu sıçrama, Llama 3 70B gibi modelleri 8-GPU node üzerinde 24 saatte fine-tune edilebilir hale getirdi.
Ancak GPU seçimi sadece “en güçlü çipi al” meselesi değildir. AWS p5.48xlarge (8x H100 80GB SXM5) saatlik on-demand fiyatı 98.32 USD seviyesindedir; 3-yıllık reserved’da yaklaşık 43.16 USD’ye iner. Buna karşılık RunPod community cloud üzerinde tek H100 PCIe 2.39-2.79 USD/saat aralığında bulunabilir. Yani aynı çipin saatlik maliyeti dağıtım modeline göre 10x değişebilir. LLM cost optimization stratejisi, GPU seçimiyle eşdeğer önemdedir.
NVIDIA H100, A100, L40S, H200 ve B100 spec karşılaştırması
Beş ana data-center GPU’sunu üretici datasheet rakamlarıyla yan yana koyuyoruz. SXM (NVLink-bağlı) ve PCIe varyantları farklı TDP/throughput sergiler; tabloda en yaygın production konfigürasyonu (SXM5/SXM4) kullanılmıştır.
| Özellik | A100 80GB SXM4 | H100 80GB SXM5 | H200 141GB SXM5 | L40S PCIe | B100 SXM (Blackwell) |
|---|---|---|---|---|---|
| Mimari | Ampere | Hopper | Hopper refresh | Ada Lovelace | Blackwell |
| VRAM | 80 GB HBM2e | 80 GB HBM3 | 141 GB HBM3e | 48 GB GDDR6 | 192 GB HBM3e |
| Bellek bant genişliği | 2.04 TB/s | 3.35 TB/s | 4.8 TB/s | 864 GB/s | 8 TB/s |
| FP16/BF16 (Tensor) | 312 TFLOPS | 989 TFLOPS | 989 TFLOPS | 362 TFLOPS | ~1750 TFLOPS |
| FP8 (Tensor) | yok | 1979 TFLOPS | 1979 TFLOPS | 733 TFLOPS | 3500 TFLOPS |
| INT8 (Tensor) | 624 TOPS | 1979 TOPS | 1979 TOPS | 733 TOPS | 3500 TOPS |
| NVLink | 600 GB/s | 900 GB/s | 900 GB/s | yok (PCIe only) | 1.8 TB/s (NVLink 5) |
| TDP | 400 W | 700 W | 700 W | 350 W | 700 W |
| MIG (partition) | 7 slice | 7 slice | 7 slice | yok | 7 slice |
Tablodan çıkarılacak temel sezgi: H100, A100’e karşı FP16’da 3.17x, FP8 ile 6.34x throughput sunar; ancak L40S, GDDR6 bellek ve NVLink yokluğu nedeniyle multi-GPU training için uygun değildir. H200’ün avantajı throughput değil VRAM; 141GB HBM3e ile tek GPU’da Llama 3 70B (FP16) inference rahatlıkla sığar. B100, FP8’de H100’ün ~1.77x üzerindedir ve 192GB belleği ile Mixtral 8x22B veya Llama 3 405B (4-bit) tek node serving için ufuk açar.
VRAM ve bellek bant genişliği: LLM’de gerçek darboğaz
LLM inference’ında klasik bir yanılgı, FLOPS’un belirleyici olduğunu varsaymaktır. Gerçekte autoregressive decoding sırasında her token üretimi, model ağırlıklarının ve KV-cache’in VRAM’den okunmasını gerektirir; bu nedenle memory-bound bir yük profili oluşur. Llama 3 70B modelini FP16’da çalıştırmak yaklaşık 140 GB VRAM gerektirir; INT8 ile 70 GB, INT4 ile 35 GB seviyesine iner. Buna KV-cache eklendiğinde (4K bağlam, batch 8, ~10 GB) gerçek alan ihtiyacı 80-150 GB arasında salınır.
| Model | FP16 ağırlık | INT8 ağırlık | INT4 ağırlık | KV-cache (4K bağlam, batch 1) | Tek GPU sığar mı? |
|---|---|---|---|---|---|
| Llama 3 8B | 16 GB | 8 GB | 4 GB | ~1 GB | L40S ve üzeri |
| Mistral 7B | 14 GB | 7 GB | 3.5 GB | ~0.8 GB | L40S ve üzeri |
| Llama 3 70B | 140 GB | 70 GB | 35 GB | ~5 GB | FP16: H200 (141GB) marjinal; INT8: H100/H200 |
| Mixtral 8x22B | 282 GB | 141 GB | ~70 GB | ~6 GB | FP16: 2x H100; INT4: B100 (192GB) |
| Llama 3 405B | 810 GB | 405 GB | ~203 GB | ~12 GB | FP16: 8x H100; INT4: 2x B100 veya 4x H200 |
Bellek bant genişliği decoding throughput’unu doğrudan belirler. NVIDIA Developer Blog‘da yayımlanan vLLM ve TensorRT-LLM benchmark verilerine göre H100’ün 3.35 TB/s HBM3 belleği, A100’ün 2.04 TB/s HBM2e belleğine karşı Llama 2 70B INT8 decoding’de %58 daha yüksek tokens/sec sağlar. H200’ün 4.8 TB/s HBM3e belleği aynı işi yaklaşık %35 daha hızlı bitirir. B100’ün 8 TB/s belleği ise Llama 3 70B FP8 decoding’de tek-istek latency’yi 10 ms/token altına çekebilir.

FP16/BF16, FP8 ve INT8: hangi precision LLM için doğru?
Modern LLM eğitimi BF16 + FP32 master weight şemasını kullanır; inference ise giderek FP8 ve INT8 (hatta INT4) yönünde kayar. H100’le birlikte gelen Transformer Engine, katman bazında otomatik FP8/FP16 seçimi yapar ve aynı modelin training süresini A100’e göre 2-2.5x kısaltır. NVIDIA’nın resmi H100 dökümanında bu Transformer Engine fonksiyonunun GPT-3 175B training için 9.3 günden 4 güne iniş sağladığı belirtilir (8000 H100’lük cluster, A100 8000-cluster baseline).
- BF16 training: Sayısal kararlılık açısından FP32’ye yakın, ancak yarı bellek. Llama, Mistral ve çoğu açık model için varsayılan format.
- FP8 (E4M3 forward / E5M2 backward): H100 ve sonrası için training+inference. Doğru loss-scaling ile FP16’ya göre kalite kaybı ihmal edilebilir, throughput 2x.
- INT8 weight-only quantization (W8A16): Inference için sweet-spot. GPTQ veya AWQ ile +1-2 puan perplexity artışı karşılığında 2x VRAM tasarrufu.
- INT4 quantization (GPTQ, AWQ): Edge ve self-host senaryoları için. Doğruluk kaybı modele göre 3-7 puan; chat use-case’lerinde tolere edilebilir.
- NF4 + LoRA (QLoRA): Fine-tune için bellek-verimli. LLM özelleştirme stratejilerinde tek H100 ile 70B model fine-tune edilebilir.
| Precision | A100 throughput (Tensor) | H100 throughput (Tensor) | B100 throughput (tahmini) | Tipik kullanım |
|---|---|---|---|---|
| FP32 | 19.5 TFLOPS | 67 TFLOPS | ~125 TFLOPS | Klasik HPC, deprem simülasyonu |
| TF32 | 156 TFLOPS | 495 TFLOPS | ~875 TFLOPS | Yarı-precision ML training |
| BF16/FP16 | 312 TFLOPS | 989 TFLOPS | 1750 TFLOPS | LLM training default |
| FP8 | desteklenmiyor | 1979 TFLOPS | 3500 TFLOPS | H100+ training/inference |
| INT8 | 624 TOPS | 1979 TOPS | 3500 TOPS | Quantize inference |
| INT4 (sparse) | 1248 TOPS | 3958 TOPS | 7000 TOPS | Edge/aggressive quant |
AWS, GCP, Lambda Labs ve RunPod: 2026 saatlik fiyat tablosu
Cloud GPU fiyatlandırması son 12 ayda iki yönde hareket etti: hyperscaler (AWS/GCP/Azure) fiyatları on-demand’da nadiren düştü, ancak 1-3 yıllık reserved kontratlarda %50-65 indirim normalleşti. Specialized GPU cloud (Lambda Labs, RunPod, CoreWeave, Together) ise community/spot havuzlarıyla saatlik H100 fiyatını 2 USD seviyesine indirdi. Aşağıdaki tablo, bu rehberin yazıldığı dönemdeki resmi fiyat sayfalarından derlenmiştir; ayrıntılar için her sağlayıcıyı doğrulayın.
| Sağlayıcı / Instance | Konfigürasyon | On-demand $/saat | 1-yıl reserved $/saat | 3-yıl reserved $/saat |
|---|---|---|---|---|
| AWS p5.48xlarge | 8x H100 80GB SXM5 | 98.32 | 57.63 | 43.16 |
| AWS p4d.24xlarge | 8x A100 40GB SXM4 | 32.77 | 19.22 | 11.57 |
| AWS p4de.24xlarge | 8x A100 80GB SXM4 | 40.96 | 24.02 | 14.49 |
| GCP a3-highgpu-8g | 8x H100 80GB SXM5 | ~88.00 | ~52.80 | ~39.60 |
| GCP a3-megagpu-8g | 8x H100 80GB + 1800 GB/s NVLink | ~98.50 | ~59.10 | ~44.32 |
| Lambda Labs On-Demand | 1x H100 80GB SXM5 | 2.99 | — | — |
| Lambda Labs Reserved | 8x H100 SXM5 | — | ~18.00 (toplam) | ~14.00 (toplam) |
| RunPod Secure Cloud | 1x H100 80GB PCIe | 2.79 | — | — |
| RunPod Community | 1x H100 80GB PCIe | 2.39 | — | — |
| Together GPU Cluster | 8x H100 SXM5 reserved | — | ~17.50 (toplam) | ~13.50 (toplam) |
Bu tablodan çıkarılacak en önemli sezgi şudur: kısa süreli (saatlik-haftalık) deneyler için RunPod/Lambda Labs on-demand, aylar süren training için 1-3 yıllık reserved AWS p5 veya Together cluster, üretim inference için ise Lambda/CoreWeave reserved + Together router katmanı en sağlıklı kombinasyondur. Self-host (kolokasyon) hesabı yapıldığında 8x H100 DGX sistemi yaklaşık 380.000-450.000 USD CapEx + yıllık 35.000-50.000 USD power/network OpEx getirir; 3 yıllık TCO yaklaşık 530.000 USD seviyesindedir. Buna karşılık 3-yıl AWS reserved yaklaşık 1.135.000 USD’dir. Yoğun-kullanım workload’larda kolokasyon hala rasyonel olabilir.
Training vs inference: karar çerçevesi
GPU seçimini soyutlamak yerine, dört ana senaryoyu somut workload tanımıyla ele alacağız. Burada Ömer Önal’ın müşteri projelerinde tekrarlanan pratik patterni yansıtıyorum: ekipler genellikle “en yeni GPU”yu konuşurken, kullanım profili (training, fine-tune, online inference, batch inference) seçimi belirler.
| Senaryo | Önerilen GPU | Min konfigürasyon | Tahmini süre/iş yükü | Tahmini cloud maliyeti |
|---|---|---|---|---|
| Sıfırdan 7B model pretraining (300B token) | H100 SXM5 | 64x H100 (8 node) | ~12 gün | ~$340.000 (on-demand) / ~$150.000 (3-yıl reserved) |
| Llama 3 70B full fine-tune (50M token) | H100 SXM5 + NVLink | 8x H100 (1 node) | ~28 saat | ~$2.750 on-demand |
| Llama 3 70B QLoRA fine-tune | H100 80GB veya A100 80GB | 1x H100 | ~18 saat | ~$54 (Lambda Labs) |
| Llama 3 8B online chat inference (500 RPS) | L40S veya H100 PCIe | 2x L40S (replica) veya 1x H100 | p95 < 200 ms | ~$1.700/ay (RunPod reserved) |
| Llama 3 70B batch inference (gece) | H200 veya 2x H100 | 1x H200 | 1M token ~ 25 dk | ~$3/iş (RunPod spot) |
| Embedding generation (1B vektör) | L40S veya A10G | 4x L40S replica | ~6 saat | ~$48 (Lambda Labs) |
Bu çerçevede üç pratik kural çıkar:
- Training için NVLink olmazsa olmaz: 8-GPU all-reduce’in latency’si NVLink (900 GB/s) ile PCIe (64 GB/s) arasında yaklaşık 14x farkeder. L40S NVLink desteklemediği için multi-GPU LLM training için uygun değildir.
- Online inference’ta latency-first: P95 latency hedefi 200 ms ise batch size’ı küçük tutmak ve daha fazla replica çalıştırmak, tek-büyük-GPU stratejisinden daha iyidir. Kurumsal chatbot deployment’larında bu pattern ısrarla görülür.
- Batch inference’ta throughput-first: Continuous batching (vLLM, TensorRT-LLM) ile büyük GPU’larda batch 64-256 koşturmak, küçük replica fleet’ten yaklaşık 4-6x daha ucuz token başına maliyet getirir.
MLPerf Inference v4.1 ve gerçek dünya benchmark verileri
MLCommons MLPerf Inference v4.1 sonuçlarına göre Llama 2 70B server senaryosunda 8x H100 SXM5 sistemi yaklaşık 21.806 tokens/sec sustainable throughput sergiler; aynı testte 8x H200 sistemi 31.712 tokens/sec’e ulaşır (%45 artış). Bu sıçramanın tek kaynağı bellek bant genişliği: H100 (3.35 TB/s) → H200 (4.8 TB/s) +%43. Yani LLM inference’da bant genişliği neredeyse lineer şekilde tokens/sec’e dönüşür.
Hugging Face’in Llama 3.1 405B serving yazısında ise 8x H100 80GB sisteminde FP8 quantization ile single-replica throughput’un yaklaşık 4.500 tokens/sec’e çıktığı dokümante edilmiştir. Aynı modeli A100 üzerinde 8-GPU tek node ile çalıştırmak FP16 olarak yaklaşık 1.350 tokens/sec verir; yani 3.3x performans farkı vardır. Token başına maliyet açısından H100 8-GPU sistemi (Lambda Labs reserved $18/saat) yaklaşık 0.00011 USD/1K token; aynı iş A100 sisteminde yaklaşık 0.00031 USD/1K token (~2.8x daha pahalı).
- vLLM continuous batching: H100 8-GPU’da Llama 3 70B FP8 için yaklaşık 6.200 tokens/sec.
- TensorRT-LLM in-flight batching: Aynı setup yaklaşık 7.100 tokens/sec.
- SGLang RadixAttention: Multi-turn chat dialog’da yaklaşık 1.6x ek hızlanma.
- Speculative decoding (Medusa, EAGLE): Single-stream latency’yi 1.8-2.4x düşürür.
- Tensor parallel + pipeline parallel: 405B serving için 4 way TP + 2 way PP kombinasyonu standart.

MIG, Multi-Tenant ve cost-aware serving
H100, H200 ve B100, Multi-Instance GPU (MIG) ile tek fiziksel GPU’yu 7’ye kadar izole partition’a böler. NVIDIA MIG dokümantasyonuna göre 1g.10gb partition ~10GB VRAM ve ~1/7 SM kapasitesi sunar; bu, küçük modelleri (7B INT4, embedding modelleri, classifier head’ler) izole şekilde host etmenin standart yoludur. Cost-aware multi-tenant serving senaryosunda bir H100’ü 7 partition’a ayırmak, GPU başına etkin müşteri sayısını 5-7x artırır.
L40S, MIG desteklemediği için multi-tenant deployment’ta dezavantajlıdır; bunun yerine Triton Inference Server üzerinde “concurrent model execution” (CME) pattern’i tercih edilir. RAG altyapı kurulum mimarisinde embedding GPU’su (L40S) ile LLM GPU’su (H100) ayrılır; embedding’ler genelde GDDR6 üzerinde yeterli throughput verir.
| Workload | Önerilen GPU + Mod | Beklenen RPS | p95 latency hedefi |
|---|---|---|---|
| Embedding (text-embedding-3 benzeri) | L40S, batch 64 | ~3.000 doc/sec | 50 ms |
| RAG retrieval + 8B LLM | H100 + MIG 3g.40gb | ~250 RPS | 500 ms |
| Tek-tenant 70B chat | 8x H100 NVLink + vLLM | ~120 RPS | 900 ms |
| Multi-tenant 8B agent | H100 + 7x MIG 1g.10gb | ~70 RPS/partition | 700 ms |
| Code completion (low latency) | H100 PCIe + speculative decoding | ~400 RPS | 120 ms |
Open-source LLM ekosisteminde GPU uyumluluğu
Open source LLM ekosistemi (Llama, Mistral, Qwen, DeepSeek, Yi, Falcon, Mixtral) ağırlıklı olarak NVIDIA CUDA üzerinde optimize edilmiştir. AMD MI300X ve Intel Gaudi 3 alternatif olarak konuşulsa da production-ready stack açısından NVIDIA H100/H200 hâlâ varsayılan tercih. PyTorch 2.4+, TensorRT-LLM 0.13+, vLLM 0.6+, SGLang 0.3+ ve Hugging Face TGI 2.4+ Hopper/Blackwell mimarileri için doğal destek sağlar.
- Llama 3 / 3.1 / 3.2: Tüm boyutlar H100 ve sonrası için optimize. Embedding modelleri (Llama embed variants) L40S üzerinde yeterli.
- Mistral / Mixtral: Mixture-of-Experts (MoE) yapısı nedeniyle 2x VRAM gerektirir; Mixtral 8x22B için min 2x H100 80GB.
- Qwen 2.5 / 3: H100/H200’de FP8 + GPTQ INT4 ile etkin.
- DeepSeek-R1 / V3: 671B parametre, MoE, FP8 native; 8x H100 minimum, 8x H200 önerilen.
- Phi-3 / Phi-4: 14B’ye kadar; L40S veya A10G yeterli.
Self-host vs hyperscaler vs specialized GPU cloud: TCO analizi
GPU seçimi vakum içinde alınmaz; dağıtım modeli kararı eşdeğer önemdedir. Üç ana model: (1) hyperscaler (AWS/GCP/Azure), (2) specialized GPU cloud (Lambda Labs, RunPod, CoreWeave, Together), (3) on-prem/kolokasyon. Aşağıdaki TCO matrisi 8x H100 sistemi üzerinde 36 ay için projeksiyon sunar.
| Model | Yıllık fiyat (8x H100) | 36 ay TCO | Esneklik | Compliance/data residency |
|---|---|---|---|---|
| AWS p5.48xlarge on-demand | ~$861.000 | ~$2.583.000 | Çok yüksek (saatlik scale) | Yüksek (AWS regions) |
| AWS p5 3-yıl reserved | ~$378.000 | ~$1.135.000 | Düşük (3-yıl kilit) | Yüksek |
| Lambda Labs reserved 3-yıl | ~$122.640 (toplam 14 USD/h) | ~$368.000 | Orta | Orta (sınırlı region) |
| Together reserved cluster 3-yıl | ~$118.260 | ~$354.780 | Yüksek (inference router dahil) | Orta |
| Kolokasyon (Türkiye DC, 8x H100 DGX) | ~$45.000 (power + colo + network) | ~$530.000 (CapEx + OpEx) | Düşük (donanım kilit) | Çok yüksek (KVKK uyumlu) |
Multi-cloud stratejisi ile bu modeller karıştırılabilir: critical low-latency inference için kolokasyon, burst capacity için Lambda Labs, batch training için AWS reserved. Cloud-native mimari patternleri (Kubernetes, KEDA, Karpenter) bu hibrid topolojiyi yönetilebilir kılar.

Kurumsal entegrasyonda dikkat noktaları
Kurumsal yapay zeka entegrasyonu projesinde GPU kararı yalnızca teknik değil, operasyonel ve finansal boyutu olan bir tedarik kararıdır. NVIDIA H100/H200/B100 lead time’ı 2026 başında 8-16 hafta arasındadır; kolokasyon planlaması yapan ekiplerin satın alma sürecini 6 ay önceden başlatması gerekir. AWS p5 kapasitesi belirli regionlarda (us-east-1, us-west-2, eu-west-3) sınırlı kalmaya devam eder; AI agent tasarım pattern uygulayan ekiplerin region seçiminde latency + kapasiteyi birlikte değerlendirmesi şarttır.
Türkiye merkezli müşteri verisi tutan kurumlar için KVKK uyumu nedeniyle eu-central-1 (Frankfurt) veya İstanbul kolokasyon tercih edilir; AWS Istanbul region henüz GPU instance sunmaz, dolayısıyla pratik seçenek kolokasyon veya eu-central-1’dir. Ayrıca arXiv 2310.06825 (Mistral 7B) ve benzeri akademik referansların gösterdiği gibi, model boyutu büyüdükçe per-token enerji tüketimi de doğrusal olmayan biçimde artar; sürdürülebilirlik raporlaması yapan kurumlar GPU başına yıllık ~6 MWh tüketim varsaymalıdır.
FAQ: LLM GPU seçimi sık sorulan sorular
1. Llama 3 70B fine-tune için minimum kaç H100 gerekir? Full fine-tune (BF16, optimizer state dahil) için 8x H100 80GB (NVLink, 1 node) minimumdur; ZeRO-3 + activation checkpointing ile 28-36 saatte tamamlanır. QLoRA (4-bit + LoRA) ile tek H100 80GB veya hatta A100 80GB üzerinde fine-tune mümkündür; süre yaklaşık 18 saattir.
2. A100 hâlâ satın alınmaya değer mi? Yeni proje için H100 fiyatı erişilebilirse hayır; ancak ikinci el A100 80GB SXM4 fiyatı 11.000-14.000 USD seviyesindeyken ve kullanım profili 70B’ye kadar inference + 7B/13B fine-tune ise hâlâ rasyonel olabilir. Training için FP8 desteği olmaması ciddi bir dezavantajdır.
3. L40S, H100 yerine inference için kullanılabilir mi? 8B-13B model online inference için evet, özellikle çoklu replica + load balancer pattern’inde token başına maliyet H100’e yakın çıkar. 70B+ modeller için VRAM (48 GB) ve NVLink yokluğu nedeniyle pratik değildir.
4. FP8 inference kalite kaybı ne kadar? NVIDIA TensorRT-LLM ve Hugging Face benchmark’larına göre doğru kalibre edilmiş FP8 (E4M3) Llama 3 70B’de MMLU 0.3-0.7 puan düşüş, HumanEval ~1 puan düşüş gösterir; chat use-case için ihmal edilebilir, regülasyonlu evaluation pipeline için FP16 referansı tutulmalıdır.
5. B100/Blackwell’i beklemeli miyim yoksa H100 mü almalı? Production deployment hedefi 6 ay içindeyse H100/H200 alın; Blackwell tedariki 2026’da hâlâ sınırlı ve fiyat premium’u yaklaşık %35-50. Lead time tolere edilebilirse ve workload 200B+ model serving ise B100/B200 daha uzun ömürlü yatırımdır.
Sonuç: 2026 için pratik GPU seçim karar çerçevesi
2026 itibarıyla LLM için GPU seçimi dört basit soruya iner: (1) Training mi inference mi yapacaksın? (2) Kaç parametrelik modelle çalışacaksın? (3) Latency mi throughput mu kritik? (4) On-prem mi cloud mu? Bu soruların kombinasyonu, beş kategorili karar matrisini doğurur:
- 7B-13B fine-tune + orta inference: 1-2x H100 80GB veya 4x L40S, Lambda Labs reserved.
- 30B-70B fine-tune: 8x H100 SXM5, AWS p5 reserved veya Together cluster.
- 70B-405B serving: 8x H200 veya 4x B100, kolokasyon + spot burst overlay.
- Multi-tenant inference: H100 + MIG 7-way, Triton + KServe.
- Embedding + RAG retrieval: L40S 4-replica, GDDR6 yeterli, MIG gerekmez.
Bu çerçeveye sadık kalan ekipler, GPU başına token üretim maliyetini sektör ortalamasının %35-55 altına indirebiliyor. Yatırım kararı öncesi MLPerf sonuçları, NVIDIA datasheet ve sağlayıcının resmi fiyat sayfası dışındaki kaynaklara güvenmeyin; kapasite ve fiyat aylık değişiyor. Eğer kurumsal LLM altyapısı planlıyorsanız ya da mevcut GPU fleet maliyetinizi audit ettirmek istiyorsanız, iletişim sayfasından bir mimari görüşmesi planlayabilirsiniz.










Ömer ÖNAL
Mayıs 16, 2026Yazılım danışmanlığı projelerinde sıkça karşılaştığım bir soru: “Hangi mimari hangi senaryoda öncelikli olmalı?” Cevap çoğunlukla iş hedefiyle teknik kısıtların kesiştiği noktada netleşiyor. Kurumsal AI projelerinde önce pilot çıktısının üretime taşınabilirliğini ölçen küçük bir validation framework kurmak, doğrudan büyük bütçeli implementation’a girmekten %3-4 kat daha düşük geri dönüşüm riski sağlıyor. Yorumlarınıza açığım.