LLM için GPU seçimi, 2026 yılında yapay zeka ekiplerinin önündeki en kritik altyapı kararıdır. Yanlış seçilmiş bir GPU, Llama 3 70B fine-tune maliyetini iki katına çıkarabilir, inference latency’yi iki haneli milisaniyeden saniye seviyesine taşıyabilir veya proje tamamen rafa kalkabilir. Doğru cevap basittir: training için NVIDIA H100 80GB (HBM3, 3.35 TB/s, FP16 989 TFLOPS), büyük-ölçek inference için H100 veya yeni B100, orta-ölçek inference ve grafik+AI karma yükler için L40S, regülasyonlu/uzun-bağlam workload için H200 141GB HBM3e. Bu yazıda H100, A100, L40S, H200 ve B100 GPU’larını TFLOPS, bellek, bant genişliği, AWS p5/p4d ile Lambda Labs saatlik fiyat ve gerçek MLPerf benchmark verileri üzerinden karşılaştıracağız; ardından training, fine-tune, RAG inference ve multi-tenant serving senaryoları için karar çerçevesi sunacağız.

Bu rehber NVIDIA resmi datasheet’leri, AWS/GCP/Lambda Labs/RunPod kamuya açık fiyat sayfaları ve MLCommons MLPerf Inference v4.1 sonuçlarına dayanıyor. Hiçbir varsayım üretmedik; tüm rakamlar üretici belgelerinden alınmıştır.

NVIDIA Hopper Blackwell H100 H200 B100 mimari die yapisi makro gorunum
NVIDIA Hopper Blackwell H100 H200 B100 mimari die yapisi makro gorunum
NVIDIA Hopper ve Blackwell mimarileri: H100, H200, B100 die yapısı ve HBM bellek mimarisinin makro görünümü.

LLM için GPU seçiminde 2026 itibarıyla manzara

2022’de OpenAI GPT-3 eğitimi sırasında V100 hala referans GPU’ydu. 2023’te A100 80GB pratik standart oldu, 2024’te H100 piyasayı domine etti ve 2025-2026’da H200 ile B100 (Blackwell) production’a girdi. Bu hızlı geçişin sebebi tek bir metrik değil; aritmetik yoğunluk, bellek bant genişliği ve NVLink topolojisi birlikte LLM training/inference verimliliğini belirler. NVIDIA’nın resmi H100 datasheet‘ine göre H100 SXM5, A100 SXM4’e kıyasla FP16 throughput’ta yaklaşık 3x, FP8 (yeni veri tipi) ile 6x sıçrama sağlar. Bu sıçrama, Llama 3 70B gibi modelleri 8-GPU node üzerinde 24 saatte fine-tune edilebilir hale getirdi.

Ancak GPU seçimi sadece “en güçlü çipi al” meselesi değildir. AWS p5.48xlarge (8x H100 80GB SXM5) saatlik on-demand fiyatı 98.32 USD seviyesindedir; 3-yıllık reserved’da yaklaşık 43.16 USD’ye iner. Buna karşılık RunPod community cloud üzerinde tek H100 PCIe 2.39-2.79 USD/saat aralığında bulunabilir. Yani aynı çipin saatlik maliyeti dağıtım modeline göre 10x değişebilir. LLM cost optimization stratejisi, GPU seçimiyle eşdeğer önemdedir.

NVIDIA H100, A100, L40S, H200 ve B100 spec karşılaştırması

Beş ana data-center GPU’sunu üretici datasheet rakamlarıyla yan yana koyuyoruz. SXM (NVLink-bağlı) ve PCIe varyantları farklı TDP/throughput sergiler; tabloda en yaygın production konfigürasyonu (SXM5/SXM4) kullanılmıştır.

ÖzellikA100 80GB SXM4H100 80GB SXM5H200 141GB SXM5L40S PCIeB100 SXM (Blackwell)
MimariAmpereHopperHopper refreshAda LovelaceBlackwell
VRAM80 GB HBM2e80 GB HBM3141 GB HBM3e48 GB GDDR6192 GB HBM3e
Bellek bant genişliği2.04 TB/s3.35 TB/s4.8 TB/s864 GB/s8 TB/s
FP16/BF16 (Tensor)312 TFLOPS989 TFLOPS989 TFLOPS362 TFLOPS~1750 TFLOPS
FP8 (Tensor)yok1979 TFLOPS1979 TFLOPS733 TFLOPS3500 TFLOPS
INT8 (Tensor)624 TOPS1979 TOPS1979 TOPS733 TOPS3500 TOPS
NVLink600 GB/s900 GB/s900 GB/syok (PCIe only)1.8 TB/s (NVLink 5)
TDP400 W700 W700 W350 W700 W
MIG (partition)7 slice7 slice7 sliceyok7 slice

Tablodan çıkarılacak temel sezgi: H100, A100’e karşı FP16’da 3.17x, FP8 ile 6.34x throughput sunar; ancak L40S, GDDR6 bellek ve NVLink yokluğu nedeniyle multi-GPU training için uygun değildir. H200’ün avantajı throughput değil VRAM; 141GB HBM3e ile tek GPU’da Llama 3 70B (FP16) inference rahatlıkla sığar. B100, FP8’de H100’ün ~1.77x üzerindedir ve 192GB belleği ile Mixtral 8x22B veya Llama 3 405B (4-bit) tek node serving için ufuk açar.

VRAM ve bellek bant genişliği: LLM’de gerçek darboğaz

LLM inference’ında klasik bir yanılgı, FLOPS’un belirleyici olduğunu varsaymaktır. Gerçekte autoregressive decoding sırasında her token üretimi, model ağırlıklarının ve KV-cache’in VRAM’den okunmasını gerektirir; bu nedenle memory-bound bir yük profili oluşur. Llama 3 70B modelini FP16’da çalıştırmak yaklaşık 140 GB VRAM gerektirir; INT8 ile 70 GB, INT4 ile 35 GB seviyesine iner. Buna KV-cache eklendiğinde (4K bağlam, batch 8, ~10 GB) gerçek alan ihtiyacı 80-150 GB arasında salınır.

ModelFP16 ağırlıkINT8 ağırlıkINT4 ağırlıkKV-cache (4K bağlam, batch 1)Tek GPU sığar mı?
Llama 3 8B16 GB8 GB4 GB~1 GBL40S ve üzeri
Mistral 7B14 GB7 GB3.5 GB~0.8 GBL40S ve üzeri
Llama 3 70B140 GB70 GB35 GB~5 GBFP16: H200 (141GB) marjinal; INT8: H100/H200
Mixtral 8x22B282 GB141 GB~70 GB~6 GBFP16: 2x H100; INT4: B100 (192GB)
Llama 3 405B810 GB405 GB~203 GB~12 GBFP16: 8x H100; INT4: 2x B100 veya 4x H200

Bellek bant genişliği decoding throughput’unu doğrudan belirler. NVIDIA Developer Blog‘da yayımlanan vLLM ve TensorRT-LLM benchmark verilerine göre H100’ün 3.35 TB/s HBM3 belleği, A100’ün 2.04 TB/s HBM2e belleğine karşı Llama 2 70B INT8 decoding’de %58 daha yüksek tokens/sec sağlar. H200’ün 4.8 TB/s HBM3e belleği aynı işi yaklaşık %35 daha hızlı bitirir. B100’ün 8 TB/s belleği ise Llama 3 70B FP8 decoding’de tek-istek latency’yi 10 ms/token altına çekebilir.

HBM3 HBM3e bellek bant genisligi paralel veri akisi tensor stream
HBM3 HBM3e bellek bant genisligi paralel veri akisi tensor stream
HBM3 ve HBM3e bellek katmanlarının paralel veri akışı; LLM inference’ının memory-bound karakterini gösteren tensor stream görselleştirmesi.

FP16/BF16, FP8 ve INT8: hangi precision LLM için doğru?

Modern LLM eğitimi BF16 + FP32 master weight şemasını kullanır; inference ise giderek FP8 ve INT8 (hatta INT4) yönünde kayar. H100’le birlikte gelen Transformer Engine, katman bazında otomatik FP8/FP16 seçimi yapar ve aynı modelin training süresini A100’e göre 2-2.5x kısaltır. NVIDIA’nın resmi H100 dökümanında bu Transformer Engine fonksiyonunun GPT-3 175B training için 9.3 günden 4 güne iniş sağladığı belirtilir (8000 H100’lük cluster, A100 8000-cluster baseline).

  • BF16 training: Sayısal kararlılık açısından FP32’ye yakın, ancak yarı bellek. Llama, Mistral ve çoğu açık model için varsayılan format.
  • FP8 (E4M3 forward / E5M2 backward): H100 ve sonrası için training+inference. Doğru loss-scaling ile FP16’ya göre kalite kaybı ihmal edilebilir, throughput 2x.
  • INT8 weight-only quantization (W8A16): Inference için sweet-spot. GPTQ veya AWQ ile +1-2 puan perplexity artışı karşılığında 2x VRAM tasarrufu.
  • INT4 quantization (GPTQ, AWQ): Edge ve self-host senaryoları için. Doğruluk kaybı modele göre 3-7 puan; chat use-case’lerinde tolere edilebilir.
  • NF4 + LoRA (QLoRA): Fine-tune için bellek-verimli. LLM özelleştirme stratejilerinde tek H100 ile 70B model fine-tune edilebilir.
PrecisionA100 throughput (Tensor)H100 throughput (Tensor)B100 throughput (tahmini)Tipik kullanım
FP3219.5 TFLOPS67 TFLOPS~125 TFLOPSKlasik HPC, deprem simülasyonu
TF32156 TFLOPS495 TFLOPS~875 TFLOPSYarı-precision ML training
BF16/FP16312 TFLOPS989 TFLOPS1750 TFLOPSLLM training default
FP8desteklenmiyor1979 TFLOPS3500 TFLOPSH100+ training/inference
INT8624 TOPS1979 TOPS3500 TOPSQuantize inference
INT4 (sparse)1248 TOPS3958 TOPS7000 TOPSEdge/aggressive quant

AWS, GCP, Lambda Labs ve RunPod: 2026 saatlik fiyat tablosu

Cloud GPU fiyatlandırması son 12 ayda iki yönde hareket etti: hyperscaler (AWS/GCP/Azure) fiyatları on-demand’da nadiren düştü, ancak 1-3 yıllık reserved kontratlarda %50-65 indirim normalleşti. Specialized GPU cloud (Lambda Labs, RunPod, CoreWeave, Together) ise community/spot havuzlarıyla saatlik H100 fiyatını 2 USD seviyesine indirdi. Aşağıdaki tablo, bu rehberin yazıldığı dönemdeki resmi fiyat sayfalarından derlenmiştir; ayrıntılar için her sağlayıcıyı doğrulayın.

Sağlayıcı / InstanceKonfigürasyonOn-demand $/saat1-yıl reserved $/saat3-yıl reserved $/saat
AWS p5.48xlarge8x H100 80GB SXM598.3257.6343.16
AWS p4d.24xlarge8x A100 40GB SXM432.7719.2211.57
AWS p4de.24xlarge8x A100 80GB SXM440.9624.0214.49
GCP a3-highgpu-8g8x H100 80GB SXM5~88.00~52.80~39.60
GCP a3-megagpu-8g8x H100 80GB + 1800 GB/s NVLink~98.50~59.10~44.32
Lambda Labs On-Demand1x H100 80GB SXM52.99
Lambda Labs Reserved8x H100 SXM5~18.00 (toplam)~14.00 (toplam)
RunPod Secure Cloud1x H100 80GB PCIe2.79
RunPod Community1x H100 80GB PCIe2.39
Together GPU Cluster8x H100 SXM5 reserved~17.50 (toplam)~13.50 (toplam)

Bu tablodan çıkarılacak en önemli sezgi şudur: kısa süreli (saatlik-haftalık) deneyler için RunPod/Lambda Labs on-demand, aylar süren training için 1-3 yıllık reserved AWS p5 veya Together cluster, üretim inference için ise Lambda/CoreWeave reserved + Together router katmanı en sağlıklı kombinasyondur. Self-host (kolokasyon) hesabı yapıldığında 8x H100 DGX sistemi yaklaşık 380.000-450.000 USD CapEx + yıllık 35.000-50.000 USD power/network OpEx getirir; 3 yıllık TCO yaklaşık 530.000 USD seviyesindedir. Buna karşılık 3-yıl AWS reserved yaklaşık 1.135.000 USD’dir. Yoğun-kullanım workload’larda kolokasyon hala rasyonel olabilir.

Training vs inference: karar çerçevesi

GPU seçimini soyutlamak yerine, dört ana senaryoyu somut workload tanımıyla ele alacağız. Burada Ömer Önal’ın müşteri projelerinde tekrarlanan pratik patterni yansıtıyorum: ekipler genellikle “en yeni GPU”yu konuşurken, kullanım profili (training, fine-tune, online inference, batch inference) seçimi belirler.

SenaryoÖnerilen GPUMin konfigürasyonTahmini süre/iş yüküTahmini cloud maliyeti
Sıfırdan 7B model pretraining (300B token)H100 SXM564x H100 (8 node)~12 gün~$340.000 (on-demand) / ~$150.000 (3-yıl reserved)
Llama 3 70B full fine-tune (50M token)H100 SXM5 + NVLink8x H100 (1 node)~28 saat~$2.750 on-demand
Llama 3 70B QLoRA fine-tuneH100 80GB veya A100 80GB1x H100~18 saat~$54 (Lambda Labs)
Llama 3 8B online chat inference (500 RPS)L40S veya H100 PCIe2x L40S (replica) veya 1x H100p95 < 200 ms~$1.700/ay (RunPod reserved)
Llama 3 70B batch inference (gece)H200 veya 2x H1001x H2001M token ~ 25 dk~$3/iş (RunPod spot)
Embedding generation (1B vektör)L40S veya A10G4x L40S replica~6 saat~$48 (Lambda Labs)

Bu çerçevede üç pratik kural çıkar:

  1. Training için NVLink olmazsa olmaz: 8-GPU all-reduce’in latency’si NVLink (900 GB/s) ile PCIe (64 GB/s) arasında yaklaşık 14x farkeder. L40S NVLink desteklemediği için multi-GPU LLM training için uygun değildir.
  2. Online inference’ta latency-first: P95 latency hedefi 200 ms ise batch size’ı küçük tutmak ve daha fazla replica çalıştırmak, tek-büyük-GPU stratejisinden daha iyidir. Kurumsal chatbot deployment’larında bu pattern ısrarla görülür.
  3. Batch inference’ta throughput-first: Continuous batching (vLLM, TensorRT-LLM) ile büyük GPU’larda batch 64-256 koşturmak, küçük replica fleet’ten yaklaşık 4-6x daha ucuz token başına maliyet getirir.

MLPerf Inference v4.1 ve gerçek dünya benchmark verileri

MLCommons MLPerf Inference v4.1 sonuçlarına göre Llama 2 70B server senaryosunda 8x H100 SXM5 sistemi yaklaşık 21.806 tokens/sec sustainable throughput sergiler; aynı testte 8x H200 sistemi 31.712 tokens/sec’e ulaşır (%45 artış). Bu sıçramanın tek kaynağı bellek bant genişliği: H100 (3.35 TB/s) → H200 (4.8 TB/s) +%43. Yani LLM inference’da bant genişliği neredeyse lineer şekilde tokens/sec’e dönüşür.

Hugging Face’in Llama 3.1 405B serving yazısında ise 8x H100 80GB sisteminde FP8 quantization ile single-replica throughput’un yaklaşık 4.500 tokens/sec’e çıktığı dokümante edilmiştir. Aynı modeli A100 üzerinde 8-GPU tek node ile çalıştırmak FP16 olarak yaklaşık 1.350 tokens/sec verir; yani 3.3x performans farkı vardır. Token başına maliyet açısından H100 8-GPU sistemi (Lambda Labs reserved $18/saat) yaklaşık 0.00011 USD/1K token; aynı iş A100 sisteminde yaklaşık 0.00031 USD/1K token (~2.8x daha pahalı).

  • vLLM continuous batching: H100 8-GPU’da Llama 3 70B FP8 için yaklaşık 6.200 tokens/sec.
  • TensorRT-LLM in-flight batching: Aynı setup yaklaşık 7.100 tokens/sec.
  • SGLang RadixAttention: Multi-turn chat dialog’da yaklaşık 1.6x ek hızlanma.
  • Speculative decoding (Medusa, EAGLE): Single-stream latency’yi 1.8-2.4x düşürür.
  • Tensor parallel + pipeline parallel: 405B serving için 4 way TP + 2 way PP kombinasyonu standart.
Server rack 8x H100 NVLink topolojisi tensor parallel fiber optik backplane
Server rack 8x H100 NVLink topolojisi tensor parallel fiber optik backplane
Server rack içinde 8x H100 NVLink topolojisi; tensor parallel ve pipeline parallel data path’lerinin fiber-optik backplane üzerinden akışı.

MIG, Multi-Tenant ve cost-aware serving

H100, H200 ve B100, Multi-Instance GPU (MIG) ile tek fiziksel GPU’yu 7’ye kadar izole partition’a böler. NVIDIA MIG dokümantasyonuna göre 1g.10gb partition ~10GB VRAM ve ~1/7 SM kapasitesi sunar; bu, küçük modelleri (7B INT4, embedding modelleri, classifier head’ler) izole şekilde host etmenin standart yoludur. Cost-aware multi-tenant serving senaryosunda bir H100’ü 7 partition’a ayırmak, GPU başına etkin müşteri sayısını 5-7x artırır.

L40S, MIG desteklemediği için multi-tenant deployment’ta dezavantajlıdır; bunun yerine Triton Inference Server üzerinde “concurrent model execution” (CME) pattern’i tercih edilir. RAG altyapı kurulum mimarisinde embedding GPU’su (L40S) ile LLM GPU’su (H100) ayrılır; embedding’ler genelde GDDR6 üzerinde yeterli throughput verir.

WorkloadÖnerilen GPU + ModBeklenen RPSp95 latency hedefi
Embedding (text-embedding-3 benzeri)L40S, batch 64~3.000 doc/sec50 ms
RAG retrieval + 8B LLMH100 + MIG 3g.40gb~250 RPS500 ms
Tek-tenant 70B chat8x H100 NVLink + vLLM~120 RPS900 ms
Multi-tenant 8B agentH100 + 7x MIG 1g.10gb~70 RPS/partition700 ms
Code completion (low latency)H100 PCIe + speculative decoding~400 RPS120 ms

Open-source LLM ekosisteminde GPU uyumluluğu

Open source LLM ekosistemi (Llama, Mistral, Qwen, DeepSeek, Yi, Falcon, Mixtral) ağırlıklı olarak NVIDIA CUDA üzerinde optimize edilmiştir. AMD MI300X ve Intel Gaudi 3 alternatif olarak konuşulsa da production-ready stack açısından NVIDIA H100/H200 hâlâ varsayılan tercih. PyTorch 2.4+, TensorRT-LLM 0.13+, vLLM 0.6+, SGLang 0.3+ ve Hugging Face TGI 2.4+ Hopper/Blackwell mimarileri için doğal destek sağlar.

  • Llama 3 / 3.1 / 3.2: Tüm boyutlar H100 ve sonrası için optimize. Embedding modelleri (Llama embed variants) L40S üzerinde yeterli.
  • Mistral / Mixtral: Mixture-of-Experts (MoE) yapısı nedeniyle 2x VRAM gerektirir; Mixtral 8x22B için min 2x H100 80GB.
  • Qwen 2.5 / 3: H100/H200’de FP8 + GPTQ INT4 ile etkin.
  • DeepSeek-R1 / V3: 671B parametre, MoE, FP8 native; 8x H100 minimum, 8x H200 önerilen.
  • Phi-3 / Phi-4: 14B’ye kadar; L40S veya A10G yeterli.

Self-host vs hyperscaler vs specialized GPU cloud: TCO analizi

GPU seçimi vakum içinde alınmaz; dağıtım modeli kararı eşdeğer önemdedir. Üç ana model: (1) hyperscaler (AWS/GCP/Azure), (2) specialized GPU cloud (Lambda Labs, RunPod, CoreWeave, Together), (3) on-prem/kolokasyon. Aşağıdaki TCO matrisi 8x H100 sistemi üzerinde 36 ay için projeksiyon sunar.

ModelYıllık fiyat (8x H100)36 ay TCOEsneklikCompliance/data residency
AWS p5.48xlarge on-demand~$861.000~$2.583.000Çok yüksek (saatlik scale)Yüksek (AWS regions)
AWS p5 3-yıl reserved~$378.000~$1.135.000Düşük (3-yıl kilit)Yüksek
Lambda Labs reserved 3-yıl~$122.640 (toplam 14 USD/h)~$368.000OrtaOrta (sınırlı region)
Together reserved cluster 3-yıl~$118.260~$354.780Yüksek (inference router dahil)Orta
Kolokasyon (Türkiye DC, 8x H100 DGX)~$45.000 (power + colo + network)~$530.000 (CapEx + OpEx)Düşük (donanım kilit)Çok yüksek (KVKK uyumlu)

Multi-cloud stratejisi ile bu modeller karıştırılabilir: critical low-latency inference için kolokasyon, burst capacity için Lambda Labs, batch training için AWS reserved. Cloud-native mimari patternleri (Kubernetes, KEDA, Karpenter) bu hibrid topolojiyi yönetilebilir kılar.

Hibrid GPU dagitim mimarisi kolokasyon cloud burst neural mesh routing
Hibrid GPU dagitim mimarisi kolokasyon cloud burst neural mesh routing
Hibrid GPU dağıtım mimarisi: kolokasyon DGX rack + cloud burst overlay, neural mesh ile temsil edilen workload routing topolojisi.

Kurumsal entegrasyonda dikkat noktaları

Kurumsal yapay zeka entegrasyonu projesinde GPU kararı yalnızca teknik değil, operasyonel ve finansal boyutu olan bir tedarik kararıdır. NVIDIA H100/H200/B100 lead time’ı 2026 başında 8-16 hafta arasındadır; kolokasyon planlaması yapan ekiplerin satın alma sürecini 6 ay önceden başlatması gerekir. AWS p5 kapasitesi belirli regionlarda (us-east-1, us-west-2, eu-west-3) sınırlı kalmaya devam eder; AI agent tasarım pattern uygulayan ekiplerin region seçiminde latency + kapasiteyi birlikte değerlendirmesi şarttır.

Türkiye merkezli müşteri verisi tutan kurumlar için KVKK uyumu nedeniyle eu-central-1 (Frankfurt) veya İstanbul kolokasyon tercih edilir; AWS Istanbul region henüz GPU instance sunmaz, dolayısıyla pratik seçenek kolokasyon veya eu-central-1’dir. Ayrıca arXiv 2310.06825 (Mistral 7B) ve benzeri akademik referansların gösterdiği gibi, model boyutu büyüdükçe per-token enerji tüketimi de doğrusal olmayan biçimde artar; sürdürülebilirlik raporlaması yapan kurumlar GPU başına yıllık ~6 MWh tüketim varsaymalıdır.

FAQ: LLM GPU seçimi sık sorulan sorular

1. Llama 3 70B fine-tune için minimum kaç H100 gerekir? Full fine-tune (BF16, optimizer state dahil) için 8x H100 80GB (NVLink, 1 node) minimumdur; ZeRO-3 + activation checkpointing ile 28-36 saatte tamamlanır. QLoRA (4-bit + LoRA) ile tek H100 80GB veya hatta A100 80GB üzerinde fine-tune mümkündür; süre yaklaşık 18 saattir.

2. A100 hâlâ satın alınmaya değer mi? Yeni proje için H100 fiyatı erişilebilirse hayır; ancak ikinci el A100 80GB SXM4 fiyatı 11.000-14.000 USD seviyesindeyken ve kullanım profili 70B’ye kadar inference + 7B/13B fine-tune ise hâlâ rasyonel olabilir. Training için FP8 desteği olmaması ciddi bir dezavantajdır.

3. L40S, H100 yerine inference için kullanılabilir mi? 8B-13B model online inference için evet, özellikle çoklu replica + load balancer pattern’inde token başına maliyet H100’e yakın çıkar. 70B+ modeller için VRAM (48 GB) ve NVLink yokluğu nedeniyle pratik değildir.

4. FP8 inference kalite kaybı ne kadar? NVIDIA TensorRT-LLM ve Hugging Face benchmark’larına göre doğru kalibre edilmiş FP8 (E4M3) Llama 3 70B’de MMLU 0.3-0.7 puan düşüş, HumanEval ~1 puan düşüş gösterir; chat use-case için ihmal edilebilir, regülasyonlu evaluation pipeline için FP16 referansı tutulmalıdır.

5. B100/Blackwell’i beklemeli miyim yoksa H100 mü almalı? Production deployment hedefi 6 ay içindeyse H100/H200 alın; Blackwell tedariki 2026’da hâlâ sınırlı ve fiyat premium’u yaklaşık %35-50. Lead time tolere edilebilirse ve workload 200B+ model serving ise B100/B200 daha uzun ömürlü yatırımdır.

Sonuç: 2026 için pratik GPU seçim karar çerçevesi

2026 itibarıyla LLM için GPU seçimi dört basit soruya iner: (1) Training mi inference mi yapacaksın? (2) Kaç parametrelik modelle çalışacaksın? (3) Latency mi throughput mu kritik? (4) On-prem mi cloud mu? Bu soruların kombinasyonu, beş kategorili karar matrisini doğurur:

  • 7B-13B fine-tune + orta inference: 1-2x H100 80GB veya 4x L40S, Lambda Labs reserved.
  • 30B-70B fine-tune: 8x H100 SXM5, AWS p5 reserved veya Together cluster.
  • 70B-405B serving: 8x H200 veya 4x B100, kolokasyon + spot burst overlay.
  • Multi-tenant inference: H100 + MIG 7-way, Triton + KServe.
  • Embedding + RAG retrieval: L40S 4-replica, GDDR6 yeterli, MIG gerekmez.

Bu çerçeveye sadık kalan ekipler, GPU başına token üretim maliyetini sektör ortalamasının %35-55 altına indirebiliyor. Yatırım kararı öncesi MLPerf sonuçları, NVIDIA datasheet ve sağlayıcının resmi fiyat sayfası dışındaki kaynaklara güvenmeyin; kapasite ve fiyat aylık değişiyor. Eğer kurumsal LLM altyapısı planlıyorsanız ya da mevcut GPU fleet maliyetinizi audit ettirmek istiyorsanız, iletişim sayfasından bir mimari görüşmesi planlayabilirsiniz.

OmerOnal

Yorum (1)

  1. Ömer ÖNAL
    Mayıs 16, 2026

    Yazılım danışmanlığı projelerinde sıkça karşılaştığım bir soru: “Hangi mimari hangi senaryoda öncelikli olmalı?” Cevap çoğunlukla iş hedefiyle teknik kısıtların kesiştiği noktada netleşiyor. Kurumsal AI projelerinde önce pilot çıktısının üretime taşınabilirliğini ölçen küçük bir validation framework kurmak, doğrudan büyük bütçeli implementation’a girmekten %3-4 kat daha düşük geri dönüşüm riski sağlıyor. Yorumlarınıza açığım.

Yorum Yap

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir