A100 hala satin alinmaya deger mi?

Yeni proje icin H100 fiyati erisilebilirse hayir; ancak ikinci el A100 80GB SXM4 fiyati 11.000-14.000 USD seviyesindeyken ve kullanim profili 70B'ye kadar inference + 7B/13B fine-tune ise hala rasyonel olabilir. Training icin FP8 destegi olmamasi ciddi bir dezavantajdir.

L40S, H100 yerine inference icin kullanilabilir mi?

8B-13B model online inference icin evet, ozellikle coklu replica + load balancer pattern'inde token basina maliyet H100'e yakin cikar. 70B+ modeller icin VRAM (48 GB) ve NVLink yoklugu nedeniyle pratik degildir.

FP8 inference kalite kaybi ne kadar?

NVIDIA TensorRT-LLM ve Hugging Face benchmark'larina gore dogru kalibre edilmis FP8 (E4M3) Llama 3 70B'de MMLU 0.3-0.7 puan dusus, HumanEval ~1 puan dusus gosterir; chat use-case icin ihmal edilebilir, regulasyonlu evaluation pipeline icin FP16 referansi tutulmalidir.

B100/Blackwell'i beklemeli miyim yoksa H100 mu almaliyim?

Production deployment hedefi 6 ay icindeyse H100/H200 alin; Blackwell tedariki 2026'da hala sinirli ve fiyat premium'u yaklasik %35-50. Lead time tolere edilebilirse ve workload 200B+ model serving ise B100/B200 daha uzun omurlu yatirimdir.

GPU Secimi 2026: LLM Egitim ve Inference Karsilastirmasi

Q: Llama 3 70B fine-tune için minimum kaç H100 gerekir?

Full fine-tune (BF16, optimizer state dahil) için 8x H100 80GB (NVLink, 1 node) minimumdur; ZeRO-3 + activation checkpointing ile 28-36 saatte tamamlanir. QLoRA (4-bit + LoRA) ile tek H100 80GB veya A100 80GB uzerinde fine-tune mumkundur; sure yaklasik 18 saattir.

Yapay Zeka & LLM

Haziran 21, 2026OmerOnal1 Yorum

LLM için GPU seçimi, 2026 yılında yapay zeka ekiplerinin önündeki en kritik altyapı kararıdır. Yanlış seçilmiş bir GPU, Llama 3 70B fine-tune maliyetini iki katına çıkarabilir, inference latency’yi iki haneli milisaniyeden saniye seviyesine taşıyabilir veya proje tamamen rafa kalkabilir. Doğru cevap basittir: training için NVIDIA H100 80GB (HBM3, 3.35 TB/s, FP16 989 TFLOPS), büyük-ölçek inference için H100 veya yeni B100, orta-ölçek inference ve grafik+AI karma yükler için L40S, regülasyonlu/uzun-bağlam workload için H200 141GB HBM3e. Bu yazıda H100, A100, L40S, H200 ve B100 GPU’larını TFLOPS, bellek, bant genişliği, AWS p5/p4d ile Lambda Labs saatlik fiyat ve gerçek MLPerf benchmark verileri üzerinden karşılaştıracağız; ardından training, fine-tune, RAG inference ve multi-tenant serving senaryoları için karar çerçevesi sunacağız. Konuyla ilişkili olarak Ollama vs vLLM vs TGI 2026: Lokal LLM Serving Karsilastirma rehberimiz detaylı incelemeyi içerir.

Bu rehber NVIDIA resmi datasheet’leri, AWS/GCP/Lambda Labs/RunPod kamuya açık fiyat sayfaları ve MLCommons MLPerf Inference v4.1 sonuçlarına dayanıyor. Hiçbir varsayım üretmedik; tüm rakamlar üretici belgelerinden alınmıştır.

NVIDIA Hopper Blackwell H100 H200 B100 mimari die yapisi makro gorunum

NVIDIA Hopper ve Blackwell mimarileri: H100, H200, B100 die yapısı ve HBM bellek mimarisinin makro görünümü.

📖 17 dakikalık okuma

İçindekiler

LLM için GPU seçiminde 2026 itibarıyla manzara
NVIDIA H100, A100, L40S, H200 ve B100 spec karşılaştırması
VRAM ve bellek bant genişliği: LLM'de gerçek darboğaz
FP16/BF16, FP8 ve INT8: hangi precision LLM için doğru?
AWS, GCP, Lambda Labs ve RunPod: 2026 saatlik fiyat tablosu
Training vs inference: karar çerçevesi
MLPerf Inference v4.1 ve gerçek dünya benchmark verileri
MIG, Multi-Tenant ve cost-aware serving
Open-source LLM ekosisteminde GPU uyumluluğu
Self-host vs hyperscaler vs specialized GPU cloud: TCO analizi
Kurumsal entegrasyonda dikkat noktaları
FAQ: LLM GPU seçimi sık sorulan sorular
Sonuç: 2026 için pratik GPU seçim karar çerçevesi

LLM için GPU seçiminde 2026 itibarıyla manzara

2022’de OpenAI GPT-3 eğitimi sırasında V100 hala referans GPU’ydu. 2023’te A100 80GB pratik standart oldu, 2024’te H100 piyasayı domine etti ve 2025-2026’da H200 ile B100 (Blackwell) production’a girdi. Bu hızlı geçişin sebebi tek bir metrik değil; aritmetik yoğunluk, bellek bant genişliği ve NVLink topolojisi birlikte LLM training/inference verimliliğini belirler. NVIDIA’nın resmi H100 datasheet‘ine göre H100 SXM5, A100 SXM4’e kıyasla FP16 throughput’ta yaklaşık 3x, FP8 (yeni veri tipi) ile 6x sıçrama sağlar. Bu sıçrama, Llama 3 70B gibi modelleri 8-GPU node üzerinde 24 saatte fine-tune edilebilir hale getirdi.

Ancak GPU seçimi sadece “en güçlü çipi al” meselesi değildir. AWS p5.48xlarge (8x H100 80GB SXM5) saatlik on-demand fiyatı 98.32 USD seviyesindedir; 3-yıllık reserved’da yaklaşık 43.16 USD’ye iner. Buna karşılık RunPod community cloud üzerinde tek H100 PCIe 2.39-2.79 USD/saat aralığında bulunabilir. Yani aynı çipin saatlik maliyeti dağıtım modeline göre 10x değişebilir. LLM cost optimization stratejisi, GPU seçimiyle eşdeğer önemdedir.

NVIDIA H100, A100, L40S, H200 ve B100 spec karşılaştırması

Beş ana data-center GPU’sunu üretici datasheet rakamlarıyla yan yana koyuyoruz. SXM (NVLink-bağlı) ve PCIe varyantları farklı TDP/throughput sergiler; tabloda en yaygın production konfigürasyonu (SXM5/SXM4) kullanılmıştır.

Özellik	A100 80GB SXM4	H100 80GB SXM5	H200 141GB SXM5	L40S PCIe	B100 SXM (Blackwell)
Mimari	Ampere	Hopper	Hopper refresh	Ada Lovelace	Blackwell
VRAM	80 GB HBM2e	80 GB HBM3	141 GB HBM3e	48 GB GDDR6	192 GB HBM3e
Bellek bant genişliği	2.04 TB/s	3.35 TB/s	4.8 TB/s	864 GB/s	8 TB/s
FP16/BF16 (Tensor)	312 TFLOPS	989 TFLOPS	989 TFLOPS	362 TFLOPS	~1750 TFLOPS
FP8 (Tensor)	yok	1979 TFLOPS	1979 TFLOPS	733 TFLOPS	3500 TFLOPS
INT8 (Tensor)	624 TOPS	1979 TOPS	1979 TOPS	733 TOPS	3500 TOPS
NVLink	600 GB/s	900 GB/s	900 GB/s	yok (PCIe only)	1.8 TB/s (NVLink 5)
TDP	400 W	700 W	700 W	350 W	700 W
MIG (partition)	7 slice	7 slice	7 slice	yok	7 slice

Tablodan çıkarılacak temel sezgi: H100, A100’e karşı FP16’da 3.17x, FP8 ile 6.34x throughput sunar; ancak L40S, GDDR6 bellek ve NVLink yokluğu nedeniyle multi-GPU training için uygun değildir. H200’ün avantajı throughput değil VRAM; 141GB HBM3e ile tek GPU’da Llama 3 70B (FP16) inference rahatlıkla sığar. B100, FP8’de H100’ün ~1.77x üzerindedir ve 192GB belleği ile Mixtral 8x22B veya Llama 3 405B (4-bit) tek node serving için ufuk açar.

VRAM ve bellek bant genişliği: LLM’de gerçek darboğaz

LLM inference’ında klasik bir yanılgı, FLOPS’un belirleyici olduğunu varsaymaktır. Gerçekte autoregressive decoding sırasında her token üretimi, model ağırlıklarının ve KV-cache’in VRAM’den okunmasını gerektirir; bu nedenle memory-bound bir yük profili oluşur. Llama 3 70B modelini FP16’da çalıştırmak yaklaşık 140 GB VRAM gerektirir; INT8 ile 70 GB, INT4 ile 35 GB seviyesine iner. Buna KV-cache eklendiğinde (4K bağlam, batch 8, ~10 GB) gerçek alan ihtiyacı 80-150 GB arasında salınır. Konuyla ilişkili olarak LLM Quantization 2026: INT4, INT8 ve GGUF Karsilastirmasi rehberimiz detaylı incelemeyi içerir.

Model	FP16 ağırlık	INT8 ağırlık	INT4 ağırlık	KV-cache (4K bağlam, batch 1)	Tek GPU sığar mı?
Llama 3 8B	16 GB	8 GB	4 GB	~1 GB	L40S ve üzeri
Mistral 7B	14 GB	7 GB	3.5 GB	~0.8 GB	L40S ve üzeri
Llama 3 70B	140 GB	70 GB	35 GB	~5 GB	FP16: H200 (141GB) marjinal; INT8: H100/H200
Mixtral 8x22B	282 GB	141 GB	~70 GB	~6 GB	FP16: 2x H100; INT4: B100 (192GB)
Llama 3 405B	810 GB	405 GB	~203 GB	~12 GB	FP16: 8x H100; INT4: 2x B100 veya 4x H200

Bellek bant genişliği decoding throughput’unu doğrudan belirler. NVIDIA Developer Blog‘da yayımlanan vLLM ve TensorRT-LLM benchmark verilerine göre H100’ün 3.35 TB/s HBM3 belleği, A100’ün 2.04 TB/s HBM2e belleğine karşı Llama 2 70B INT8 decoding’de %58 daha yüksek tokens/sec sağlar. H200’ün 4.8 TB/s HBM3e belleği aynı işi yaklaşık %35 daha hızlı bitirir. B100’ün 8 TB/s belleği ise Llama 3 70B FP8 decoding’de tek-istek latency’yi 10 ms/token altına çekebilir.

HBM3 HBM3e bellek bant genisligi paralel veri akisi tensor stream

HBM3 ve HBM3e bellek katmanlarının paralel veri akışı; LLM inference’ının memory-bound karakterini gösteren tensor stream görselleştirmesi.

FP16/BF16, FP8 ve INT8: hangi precision LLM için doğru?

Modern LLM eğitimi BF16 + FP32 master weight şemasını kullanır; inference ise giderek FP8 ve INT8 (hatta INT4) yönünde kayar. H100’le birlikte gelen Transformer Engine, katman bazında otomatik FP8/FP16 seçimi yapar ve aynı modelin training süresini A100’e göre 2-2.5x kısaltır. NVIDIA’nın resmi H100 dökümanında bu Transformer Engine fonksiyonunun GPT-3 175B training için 9.3 günden 4 güne iniş sağladığı belirtilir (8000 H100’lük cluster, A100 8000-cluster baseline).

BF16 training: Sayısal kararlılık açısından FP32’ye yakın, ancak yarı bellek. Llama, Mistral ve çoğu açık model için varsayılan format.
FP8 (E4M3 forward / E5M2 backward): H100 ve sonrası için training+inference. Doğru loss-scaling ile FP16’ya göre kalite kaybı ihmal edilebilir, throughput 2x.
INT8 weight-only quantization (W8A16): Inference için sweet-spot. GPTQ veya AWQ ile +1-2 puan perplexity artışı karşılığında 2x VRAM tasarrufu.
INT4 quantization (GPTQ, AWQ): Edge ve self-host senaryoları için. Doğruluk kaybı modele göre 3-7 puan; chat use-case’lerinde tolere edilebilir.
NF4 + LoRA (QLoRA): Fine-tune için bellek-verimli. LLM özelleştirme stratejilerinde tek H100 ile 70B model fine-tune edilebilir.

Precision	A100 throughput (Tensor)	H100 throughput (Tensor)	B100 throughput (tahmini)	Tipik kullanım
FP32	19.5 TFLOPS	67 TFLOPS	~125 TFLOPS	Klasik HPC, deprem simülasyonu
TF32	156 TFLOPS	495 TFLOPS	~875 TFLOPS	Yarı-precision ML training
BF16/FP16	312 TFLOPS	989 TFLOPS	1750 TFLOPS	LLM training default
FP8	desteklenmiyor	1979 TFLOPS	3500 TFLOPS	H100+ training/inference
INT8	624 TOPS	1979 TOPS	3500 TOPS	Quantize inference
INT4 (sparse)	1248 TOPS	3958 TOPS	7000 TOPS	Edge/aggressive quant

AWS, GCP, Lambda Labs ve RunPod: 2026 saatlik fiyat tablosu

Cloud GPU fiyatlandırması son 12 ayda iki yönde hareket etti: hyperscaler (AWS/GCP/Azure) fiyatları on-demand’da nadiren düştü, ancak 1-3 yıllık reserved kontratlarda %50-65 indirim normalleşti. Specialized GPU cloud (Lambda Labs, RunPod, CoreWeave, Together) ise community/spot havuzlarıyla saatlik H100 fiyatını 2 USD seviyesine indirdi. Aşağıdaki tablo, bu rehberin yazıldığı dönemdeki resmi fiyat sayfalarından derlenmiştir; ayrıntılar için her sağlayıcıyı doğrulayın.

Sağlayıcı / Instance	Konfigürasyon	On-demand $/saat	1-yıl reserved $/saat	3-yıl reserved $/saat
AWS p5.48xlarge	8x H100 80GB SXM5	98.32	57.63	43.16
AWS p4d.24xlarge	8x A100 40GB SXM4	32.77	19.22	11.57
AWS p4de.24xlarge	8x A100 80GB SXM4	40.96	24.02	14.49
GCP a3-highgpu-8g	8x H100 80GB SXM5	~88.00	~52.80	~39.60
GCP a3-megagpu-8g	8x H100 80GB + 1800 GB/s NVLink	~98.50	~59.10	~44.32
Lambda Labs On-Demand	1x H100 80GB SXM5	2.99	—	—
Lambda Labs Reserved	8x H100 SXM5	—	~18.00 (toplam)	~14.00 (toplam)
RunPod Secure Cloud	1x H100 80GB PCIe	2.79	—	—
RunPod Community	1x H100 80GB PCIe	2.39	—	—
Together GPU Cluster	8x H100 SXM5 reserved	—	~17.50 (toplam)	~13.50 (toplam)

Bu tablodan çıkarılacak en önemli sezgi şudur: kısa süreli (saatlik-haftalık) deneyler için RunPod/Lambda Labs on-demand, aylar süren training için 1-3 yıllık reserved AWS p5 veya Together cluster, üretim inference için ise Lambda/CoreWeave reserved + Together router katmanı en sağlıklı kombinasyondur. Self-host (kolokasyon) hesabı yapıldığında 8x H100 DGX sistemi yaklaşık 380.000-450.000 USD CapEx + yıllık 35.000-50.000 USD power/network OpEx getirir; 3 yıllık TCO yaklaşık 530.000 USD seviyesindedir. Buna karşılık 3-yıl AWS reserved yaklaşık 1.135.000 USD’dir. Yoğun-kullanım workload’larda kolokasyon hala rasyonel olabilir.

Training vs inference: karar çerçevesi

GPU seçimini soyutlamak yerine, dört ana senaryoyu somut workload tanımıyla ele alacağız. Burada Ömer Önal’ın müşteri projelerinde tekrarlanan pratik patterni yansıtıyorum: ekipler genellikle “en yeni GPU”yu konuşurken, kullanım profili (training, fine-tune, online inference, batch inference) seçimi belirler.

Senaryo	Önerilen GPU	Min konfigürasyon	Tahmini süre/iş yükü	Tahmini cloud maliyeti
Sıfırdan 7B model pretraining (300B token)	H100 SXM5	64x H100 (8 node)	~12 gün	~$340.000 (on-demand) / ~$150.000 (3-yıl reserved)
Llama 3 70B full fine-tune (50M token)	H100 SXM5 + NVLink	8x H100 (1 node)	~28 saat	~$2.750 on-demand
Llama 3 70B QLoRA fine-tune	H100 80GB veya A100 80GB	1x H100	~18 saat	~$54 (Lambda Labs)
Llama 3 8B online chat inference (500 RPS)	L40S veya H100 PCIe	2x L40S (replica) veya 1x H100	p95 < 200 ms	~$1.700/ay (RunPod reserved)
Llama 3 70B batch inference (gece)	H200 veya 2x H100	1x H200	1M token ~ 25 dk	~$3/iş (RunPod spot)
Embedding generation (1B vektör)	L40S veya A10G	4x L40S replica	~6 saat	~$48 (Lambda Labs)

Bu çerçevede üç pratik kural çıkar:

Training için NVLink olmazsa olmaz: 8-GPU all-reduce’in latency’si NVLink (900 GB/s) ile PCIe (64 GB/s) arasında yaklaşık 14x farkeder. L40S NVLink desteklemediği için multi-GPU LLM training için uygun değildir.
Online inference’ta latency-first: P95 latency hedefi 200 ms ise batch size’ı küçük tutmak ve daha fazla replica çalıştırmak, tek-büyük-GPU stratejisinden daha iyidir. Kurumsal chatbot deployment’larında bu pattern ısrarla görülür.
Batch inference’ta throughput-first: Continuous batching (vLLM, TensorRT-LLM) ile büyük GPU’larda batch 64-256 koşturmak, küçük replica fleet’ten yaklaşık 4-6x daha ucuz token başına maliyet getirir.

MLPerf Inference v4.1 ve gerçek dünya benchmark verileri

MLCommons MLPerf Inference v4.1 sonuçlarına göre Llama 2 70B server senaryosunda 8x H100 SXM5 sistemi yaklaşık 21.806 tokens/sec sustainable throughput sergiler; aynı testte 8x H200 sistemi 31.712 tokens/sec’e ulaşır (%45 artış). Bu sıçramanın tek kaynağı bellek bant genişliği: H100 (3.35 TB/s) → H200 (4.8 TB/s) +%43. Yani LLM inference’da bant genişliği neredeyse lineer şekilde tokens/sec’e dönüşür.

Hugging Face’in Llama 3.1 405B serving yazısında ise 8x H100 80GB sisteminde FP8 quantization ile single-replica throughput’un yaklaşık 4.500 tokens/sec’e çıktığı dokümante edilmiştir. Aynı modeli A100 üzerinde 8-GPU tek node ile çalıştırmak FP16 olarak yaklaşık 1.350 tokens/sec verir; yani 3.3x performans farkı vardır. Token başına maliyet açısından H100 8-GPU sistemi (Lambda Labs reserved $18/saat) yaklaşık 0.00011 USD/1K token; aynı iş A100 sisteminde yaklaşık 0.00031 USD/1K token (~2.8x daha pahalı).

vLLM continuous batching: H100 8-GPU’da Llama 3 70B FP8 için yaklaşık 6.200 tokens/sec.
TensorRT-LLM in-flight batching: Aynı setup yaklaşık 7.100 tokens/sec.
SGLang RadixAttention: Multi-turn chat dialog’da yaklaşık 1.6x ek hızlanma.
Speculative decoding (Medusa, EAGLE): Single-stream latency’yi 1.8-2.4x düşürür.
Tensor parallel + pipeline parallel: 405B serving için 4 way TP + 2 way PP kombinasyonu standart.

Server rack 8x H100 NVLink topolojisi tensor parallel fiber optik backplane

Server rack içinde 8x H100 NVLink topolojisi; tensor parallel ve pipeline parallel data path’lerinin fiber-optik backplane üzerinden akışı.

MIG, Multi-Tenant ve cost-aware serving

H100, H200 ve B100, Multi-Instance GPU (MIG) ile tek fiziksel GPU’yu 7’ye kadar izole partition’a böler. NVIDIA MIG dokümantasyonuna göre 1g.10gb partition ~10GB VRAM ve ~1/7 SM kapasitesi sunar; bu, küçük modelleri (7B INT4, embedding modelleri, classifier head’ler) izole şekilde host etmenin standart yoludur. Cost-aware multi-tenant serving senaryosunda bir H100’ü 7 partition’a ayırmak, GPU başına etkin müşteri sayısını 5-7x artırır.

L40S, MIG desteklemediği için multi-tenant deployment’ta dezavantajlıdır; bunun yerine Triton Inference Server üzerinde “concurrent model execution” (CME) pattern’i tercih edilir. RAG altyapı kurulum mimarisinde embedding GPU’su (L40S) ile LLM GPU’su (H100) ayrılır; embedding’ler genelde GDDR6 üzerinde yeterli throughput verir.

Workload	Önerilen GPU + Mod	Beklenen RPS	p95 latency hedefi
Embedding (text-embedding-3 benzeri)	L40S, batch 64	~3.000 doc/sec	50 ms
RAG retrieval + 8B LLM	H100 + MIG 3g.40gb	~250 RPS	500 ms
Tek-tenant 70B chat	8x H100 NVLink + vLLM	~120 RPS	900 ms
Multi-tenant 8B agent	H100 + 7x MIG 1g.10gb	~70 RPS/partition	700 ms
Code completion (low latency)	H100 PCIe + speculative decoding	~400 RPS	120 ms

Open-source LLM ekosisteminde GPU uyumluluğu

Open source LLM ekosistemi (Llama, Mistral, Qwen, DeepSeek, Yi, Falcon, Mixtral) ağırlıklı olarak NVIDIA CUDA üzerinde optimize edilmiştir. AMD MI300X ve Intel Gaudi 3 alternatif olarak konuşulsa da production-ready stack açısından NVIDIA H100/H200 hâlâ varsayılan tercih. PyTorch 2.4+, TensorRT-LLM 0.13+, vLLM 0.6+, SGLang 0.3+ ve Hugging Face TGI 2.4+ Hopper/Blackwell mimarileri için doğal destek sağlar.

Llama 3 / 3.1 / 3.2: Tüm boyutlar H100 ve sonrası için optimize. Embedding modelleri (Llama embed variants) L40S üzerinde yeterli.
Mistral / Mixtral: Mixture-of-Experts (MoE) yapısı nedeniyle 2x VRAM gerektirir; Mixtral 8x22B için min 2x H100 80GB.
Qwen 2.5 / 3: H100/H200’de FP8 + GPTQ INT4 ile etkin.
DeepSeek-R1 / V3: 671B parametre, MoE, FP8 native; 8x H100 minimum, 8x H200 önerilen.
Phi-3 / Phi-4: 14B’ye kadar; L40S veya A10G yeterli.

Self-host vs hyperscaler vs specialized GPU cloud: TCO analizi

GPU seçimi vakum içinde alınmaz; dağıtım modeli kararı eşdeğer önemdedir. Üç ana model: (1) hyperscaler (AWS/GCP/Azure), (2) specialized GPU cloud (Lambda Labs, RunPod, CoreWeave, Together), (3) on-prem/kolokasyon. Aşağıdaki TCO matrisi 8x H100 sistemi üzerinde 36 ay için projeksiyon sunar.

Model	Yıllık fiyat (8x H100)	36 ay TCO	Esneklik	Compliance/data residency
AWS p5.48xlarge on-demand	~$861.000	~$2.583.000	Çok yüksek (saatlik scale)	Yüksek (AWS regions)
AWS p5 3-yıl reserved	~$378.000	~$1.135.000	Düşük (3-yıl kilit)	Yüksek
Lambda Labs reserved 3-yıl	~$122.640 (toplam 14 USD/h)	~$368.000	Orta	Orta (sınırlı region)
Together reserved cluster 3-yıl	~$118.260	~$354.780	Yüksek (inference router dahil)	Orta
Kolokasyon (Türkiye DC, 8x H100 DGX)	~$45.000 (power + colo + network)	~$530.000 (CapEx + OpEx)	Düşük (donanım kilit)	Çok yüksek (KVKK uyumlu)

Multi-cloud stratejisi ile bu modeller karıştırılabilir: critical low-latency inference için kolokasyon, burst capacity için Lambda Labs, batch training için AWS reserved. Cloud-native mimari patternleri (Kubernetes, KEDA, Karpenter) bu hibrid topolojiyi yönetilebilir kılar.

Hibrid GPU dagitim mimarisi kolokasyon cloud burst neural mesh routing

Hibrid GPU dağıtım mimarisi: kolokasyon DGX rack + cloud burst overlay, neural mesh ile temsil edilen workload routing topolojisi.

Kurumsal entegrasyonda dikkat noktaları

Kurumsal yapay zeka entegrasyonu projesinde GPU kararı yalnızca teknik değil, operasyonel ve finansal boyutu olan bir tedarik kararıdır. NVIDIA H100/H200/B100 lead time’ı 2026 başında 8-16 hafta arasındadır; kolokasyon planlaması yapan ekiplerin satın alma sürecini 6 ay önceden başlatması gerekir. AWS p5 kapasitesi belirli regionlarda (us-east-1, us-west-2, eu-west-3) sınırlı kalmaya devam eder; AI agent tasarım pattern uygulayan ekiplerin region seçiminde latency + kapasiteyi birlikte değerlendirmesi şarttır.

Türkiye merkezli müşteri verisi tutan kurumlar için KVKK uyumu nedeniyle eu-central-1 (Frankfurt) veya İstanbul kolokasyon tercih edilir; AWS Istanbul region henüz GPU instance sunmaz, dolayısıyla pratik seçenek kolokasyon veya eu-central-1’dir. Ayrıca arXiv 2310.06825 (Mistral 7B) ve benzeri akademik referansların gösterdiği gibi, model boyutu büyüdükçe per-token enerji tüketimi de doğrusal olmayan biçimde artar; sürdürülebilirlik raporlaması yapan kurumlar GPU başına yıllık ~6 MWh tüketim varsaymalıdır.

FAQ: LLM GPU seçimi sık sorulan sorular

1. Llama 3 70B fine-tune için minimum kaç H100 gerekir? Full fine-tune (BF16, optimizer state dahil) için 8x H100 80GB (NVLink, 1 node) minimumdur; ZeRO-3 + activation checkpointing ile 28-36 saatte tamamlanır. QLoRA (4-bit + LoRA) ile tek H100 80GB veya hatta A100 80GB üzerinde fine-tune mümkündür; süre yaklaşık 18 saattir.

2. A100 hâlâ satın alınmaya değer mi? Yeni proje için H100 fiyatı erişilebilirse hayır; ancak ikinci el A100 80GB SXM4 fiyatı 11.000-14.000 USD seviyesindeyken ve kullanım profili 70B’ye kadar inference + 7B/13B fine-tune ise hâlâ rasyonel olabilir. Training için FP8 desteği olmaması ciddi bir dezavantajdır.

3. L40S, H100 yerine inference için kullanılabilir mi? 8B-13B model online inference için evet, özellikle çoklu replica + load balancer pattern’inde token başına maliyet H100’e yakın çıkar. 70B+ modeller için VRAM (48 GB) ve NVLink yokluğu nedeniyle pratik değildir.

4. FP8 inference kalite kaybı ne kadar? NVIDIA TensorRT-LLM ve Hugging Face benchmark’larına göre doğru kalibre edilmiş FP8 (E4M3) Llama 3 70B’de MMLU 0.3-0.7 puan düşüş, HumanEval ~1 puan düşüş gösterir; chat use-case için ihmal edilebilir, regülasyonlu evaluation pipeline için FP16 referansı tutulmalıdır.

5. B100/Blackwell’i beklemeli miyim yoksa H100 mü almalı? Production deployment hedefi 6 ay içindeyse H100/H200 alın; Blackwell tedariki 2026’da hâlâ sınırlı ve fiyat premium’u yaklaşık %35-50. Lead time tolere edilebilirse ve workload 200B+ model serving ise B100/B200 daha uzun ömürlü yatırımdır.

Sonuç: 2026 için pratik GPU seçim karar çerçevesi

2026 itibarıyla LLM için GPU seçimi dört basit soruya iner: (1) Training mi inference mi yapacaksın? (2) Kaç parametrelik modelle çalışacaksın? (3) Latency mi throughput mu kritik? (4) On-prem mi cloud mu? Bu soruların kombinasyonu, beş kategorili karar matrisini doğurur:

7B-13B fine-tune + orta inference: 1-2x H100 80GB veya 4x L40S, Lambda Labs reserved.
30B-70B fine-tune: 8x H100 SXM5, AWS p5 reserved veya Together cluster.
70B-405B serving: 8x H200 veya 4x B100, kolokasyon + spot burst overlay.
Multi-tenant inference: H100 + MIG 7-way, Triton + KServe.
Embedding + RAG retrieval: L40S 4-replica, GDDR6 yeterli, MIG gerekmez.

Bu çerçeveye sadık kalan ekipler, GPU başına token üretim maliyetini sektör ortalamasının %35-55 altına indirebiliyor. Yatırım kararı öncesi MLPerf sonuçları, NVIDIA datasheet ve sağlayıcının resmi fiyat sayfası dışındaki kaynaklara güvenmeyin; kapasite ve fiyat aylık değişiyor. Eğer kurumsal LLM altyapısı planlıyorsanız ya da mevcut GPU fleet maliyetinizi audit ettirmek istiyorsanız, iletişim sayfasından bir mimari görüşmesi planlayabilirsiniz.

OmerOnal

Yorum (1)

Ömer ÖNAL
Mayıs 16, 2026
Yanıtla

Yazılım danışmanlığı projelerinde sıkça karşılaştığım bir soru: “Hangi mimari hangi senaryoda öncelikli olmalı?” Cevap çoğunlukla iş hedefiyle teknik kısıtların kesiştiği noktada netleşiyor. Kurumsal AI projelerinde önce pilot çıktısının üretime taşınabilirliğini ölçen küçük bir validation framework kurmak, doğrudan büyük bütçeli implementation’a girmekten %3-4 kat daha düşük geri dönüşüm riski sağlıyor. Yorumlarınıza açığım.

Our Gallery

Contact Info

GPU Secimi 2026: LLM Egitim ve Inference Karsilastirmasi

LLM için GPU seçiminde 2026 itibarıyla manzara

NVIDIA H100, A100, L40S, H200 ve B100 spec karşılaştırması

VRAM ve bellek bant genişliği: LLM’de gerçek darboğaz

FP16/BF16, FP8 ve INT8: hangi precision LLM için doğru?

AWS, GCP, Lambda Labs ve RunPod: 2026 saatlik fiyat tablosu

Training vs inference: karar çerçevesi

MLPerf Inference v4.1 ve gerçek dünya benchmark verileri

MIG, Multi-Tenant ve cost-aware serving

Open-source LLM ekosisteminde GPU uyumluluğu

Self-host vs hyperscaler vs specialized GPU cloud: TCO analizi

Kurumsal entegrasyonda dikkat noktaları

FAQ: LLM GPU seçimi sık sorulan sorular

Sonuç: 2026 için pratik GPU seçim karar çerçevesi

OmerOnal

Federated Learning 2026: Veri Gizliliği Korunan ML Mimarisi (Flower, NVIDIA FLARE, PySyft)

Long Context LLM: 1M+ Token Modellerle Kurumsal Doküman Analizi

Yorum (1)

Ömer ÖNAL

Yorum Yap Yanıtı iptal et

İletişim

Kurumsal

Hizmetlerimiz

Our Gallery

Contact Info

GPU Secimi 2026: LLM Egitim ve Inference Karsilastirmasi

LLM için GPU seçiminde 2026 itibarıyla manzara

NVIDIA H100, A100, L40S, H200 ve B100 spec karşılaştırması

VRAM ve bellek bant genişliği: LLM’de gerçek darboğaz

FP16/BF16, FP8 ve INT8: hangi precision LLM için doğru?

AWS, GCP, Lambda Labs ve RunPod: 2026 saatlik fiyat tablosu

Training vs inference: karar çerçevesi

MLPerf Inference v4.1 ve gerçek dünya benchmark verileri

MIG, Multi-Tenant ve cost-aware serving

Open-source LLM ekosisteminde GPU uyumluluğu

Self-host vs hyperscaler vs specialized GPU cloud: TCO analizi

Kurumsal entegrasyonda dikkat noktaları

FAQ: LLM GPU seçimi sık sorulan sorular

Sonuç: 2026 için pratik GPU seçim karar çerçevesi

OmerOnal

Kubernetes Multi-Tenancy: Hard vs Soft Isolation Mimarileri

Flutter ile Cross-Platform Mobil Uygulama Geliştirme 2026 Rehberi

İlgili Yazılar

Federated Learning 2026: Veri Gizliliği Korunan ML Mimarisi (Flower, NVIDIA FLARE, PySyft)

Long Context LLM: 1M+ Token Modellerle Kurumsal Doküman Analizi

Yorum (1)

Ömer ÖNAL

Yorum Yap Yanıtı iptal et