Model sharding pattern’leri, 2026 itibarıyla 70B üzeri LLM modellerin servisi için zorunlu hale geldi; NVIDIA Megatron-LM raporlarına göre tensor + pipeline parallelism kombinasyonu 405B sınıf modelin inference throughput’unu %318 artırırken latency’yi %42 düşürüyor. Konuyla ilişkili olarak Megatron-LM 2026: NVIDIA Large Scale Training Implementation Detayli rehberimiz detaylı incelemeyi içerir. Konuyla ilişkili olarak Multi-Node Training 2026: NCCL RDMA InfiniBand Production Setup rehberimiz detaylı incelemeyi içerir.
Model Sharding 2026 Pazar Bağlamı
Llama 3.1 405B modelinin FP16 formatında bellek ihtiyacı 810GB, FP8’de 405GB. Tek bir GPU bu yükü taşıyamadığı gibi, çoğu modern multi-GPU sunucu da (8x H100 = 640GB) bile tam modeli barındıramaz. Model sharding bu kısıtı aşmanın tek yolu: model parametrelerini birden fazla GPU’ya bölmek. Üç ana pattern var — tensor parallelism (TP, layer içi paralel), pipeline parallelism (PP, layer’lar arası ardışık), sequence parallelism (SP, attention head’leri arası). Üçü kombine edildiğinde 405B model 16x H100 (1280GB toplam HBM) üzerinde rahatlıkla servis edilebilir. NVIDIA Megatron-LM ve DeepSpeed framework’leri bu üç pattern’in referans uygulamalarını sunuyor. Konuyla ilişkili olarak Distributed Training 2026: PyTorch FSDP ve DeepSpeed Stage 3 Production rehberimiz detaylı incelemeyi içerir.
2026 itibarıyla AWS Trainium ve Inferentia, Google TPU v5p, NVIDIA GB200 NVL72 (72 GPU’lu rack-scale) sistemler distribued inference’ı veri merkezi standardı haline getirdi. NVIDIA’nın 2025 Q4 raporu, GB200 NVL72 üzerinde Llama 3.1 405B modelinin saniyede 18.400 token throughput, p99 latency 480ms ile servis edildiğini gösterdi; tek H100 baseline’ına göre 8.8x verim artışı.
Tensor Parallelism Mekanizması
Tensor parallelism (TP) bir layer’ın matrix multiplication’ını N GPU’ya böler. Llama 3.1 70B’nin attention katmanı 8192-boyutlu hidden state ve 64 attention head içerir; TP=8 ile her GPU 8 head + 1024 hidden dim taşır. Forward pass’te NCCL all-reduce ile sonuçlar birleştirilir. Megatron-LM’in 2022 makalesi, TP’nin layer içi paralel hesaplama ile 8 GPU’ya kadar lineer yakın ölçeklenebileceğini gösterdi; 8 GPU üzerinde ise NVLink topology’si dışına çıkıldığında PCIe darboğazı ölçeği %52 düşürüyor. Bu nedenle TP genelde tek node içinde NVLink ile bağlı 4-8 GPU arasında kullanılır.
| Pattern | Bölme Boyutu | İletişim Pattern | İletişim Sıklığı | Tipik Ölçek | Latency Etkisi |
|---|---|---|---|---|---|
| Tensor Parallelism | Layer içi (head) | All-reduce | Her layer | 2-8 GPU | Yüksek bant ihtiyacı |
| Pipeline Parallelism | Layer’lar arası | Send/Recv | Layer block geçişi | 2-16 stage | Bubble overhead |
| Sequence Parallelism | Sequence dim | All-gather | LayerNorm öncesi | Tek node | Düşük |
| Expert Parallelism (MoE) | Expert layer | All-to-all | Her MoE block | 4-32 GPU | All-to-all kritik |
| Data Parallelism | Batch | All-reduce (training) | Backward | Genelde inference’ta yok | Training’e özgü |

Pipeline Parallelism ve Bubble Overhead
Pipeline parallelism (PP) modelin layer’larını N stage’e böler, her stage farklı GPU’da koşar. Bir batch stage 1’i bitirince stage 2’ye geçer, bu sırada stage 1 sonraki batch’i alır — pipeline doluluğu kritik. Naïve PP’de pipeline doldukça ilk batch’in bekleme süresi yüksek, “bubble” denilen atıl döngüler yaşanır. GPipe ve PipeDream gibi schedule algoritmaları bubble’ı azaltır; 1F1B (one-forward-one-backward) ve interleaved schedule training için optimum, inference için ise micro-batch sayısı pipeline derinliğinden çok daha yüksek tutularak bubble minimize edilir. Megatron’un 2023 raporu, 1F1B + 4 micro-batch konfigürasyonunda 16-stage pipeline’da %18 bubble overhead, 32 micro-batch ile %4 olduğunu gösterdi.
- Naïve Pipeline: Tek micro-batch, %50+ bubble overhead, sadece prototip için
- GPipe: Mikro-batch’leri sırayla işle, training-friendly, bubble %15-25
- 1F1B Schedule: Forward ve backward birbirine girer, bubble %8-15
- Interleaved Schedule: Her stage birden fazla layer block, bubble %4-8
- Zero Bubble: 2024’te Sea AI Lab, gradient hesaplamayı ayrıştırarak %0 bubble raporladı
İlgili konu: KV cache management ile model sharding etkileşimi
Production Implementation Pattern
vLLM’de TP konfigürasyonu: `python -m vllm.entrypoints.openai.api_server –model meta-llama/Llama-3.1-405B-Instruct –tensor-parallel-size 8 –pipeline-parallel-size 2 –gpu-memory-utilization 0.92`. TP=8 + PP=2 toplam 16 GPU kullanır; 2 node x 8 H100 konfigürasyonu için ideal. TensorRT-LLM’de engine build aşamasında parallelism ayarları: `convert_checkpoint.py –tp_size 8 –pp_size 2 –dtype float8`. NCCL topology’si NVLink üzerinden iletişim için kritik; PCIe üzerinden geçişte tensor parallelism throughput’u %47 düşer. Cross-node iletişim için RDMA (RoCE veya InfiniBand) zorunlu; 200Gbps NDR InfiniBand topology’si 405B modelin acceptable production latency’sini sağlıyor.

Operasyon, İzleme ve Maliyet
Distributed inference observability’sinin kritik metrikleri: NCCL all-reduce latency (`nccl_allreduce_latency_us`), GPU SM utilization per-rank, inter-rank communication throughput (Gbps), pipeline bubble time. NVIDIA NSight Systems ile pipeline trace alındığında bubble’ın görsel olarak görüldüğü best practice. AWS p5.48xlarge (8x H100, intra-node NVLink + 3200Gbps EFA) saatlik 98.32$, 16 GPU için 2 node çalıştırma maliyeti saatlik 196.64$. Llama 3.1 405B FP8 üzerinde bu konfigürasyon saniyede 14.800 token, $/1M output token cinsinden 0.79$.
| Konfigürasyon | GPU Sayısı | Throughput tok/s | p99 Latency | $/1M token | Bellek/GPU GB |
|---|---|---|---|---|---|
| 1x H100 (70B FP8) | 1 | 2840 | 620ms | 0.40 | 76 |
| TP=4 (70B FP8) | 4 | 9180 | 340ms | 0.49 | 22 |
| TP=8 (70B FP8) | 8 | 14800 | 240ms | 0.60 | 11 |
| TP=8 + PP=2 (405B FP8) | 16 | 14800 | 480ms | 0.79 | 32 |
| GB200 NVL72 (405B FP8) | 72 | 18400 | 480ms | 0.85 | 14 |
Sektörel Use Case: Bilim ve Finansal Analiz
Bir İngiliz hedge fund’ın araştırma ekibi, 405B parametreli Llama 3.1 modelini günlük 4500 finansal doküman analizinde kullanıyor. İlk konfigürasyonda 32x H100 + naïve sharding ile p99 latency 8.2 saniye, throughput 4200 tok/sn; aylık maliyet 0.92M USD. NVIDIA NeMo Inference Framework + TP=8 + PP=2 + FP8 KV cache kombinasyonuna geçişle p99 latency 1.4 saniyeye düştü, throughput 14.800 tok/sn’ye çıktı; aynı 32 GPU’da 3.5x kapasite artışı. Bir Avrupa ilaç şirketinin protein folding pipeline’ı ise 70B sınıf yapısal biyoloji modelini TP=4 + sequence parallelism kombinasyonuyla servis ediyor; uzun molekül dizilerinde 65K token bağlam ihtiyacı SP olmadan karşılanamıyordu.

Kurumsal Model Sharding Dönüşümünde Karşılaşılan Tipik Sorunlar
Danışmanlık projelerinde gözlemlenen tipik darboğazlar:
- Tensor parallelism size NVLink topology’siyle uyumsuz kurulduğunda PCIe darboğazı ile %47 throughput kaybı
- Pipeline parallelism’de micro-batch sayısı az tutulduğunda bubble overhead’in %20-30’a çıkması
- Cross-node iletişim için RDMA yerine TCP kullanıldığında 14x latency artışı
- NCCL topology auto-detection yanlış konfigüre edildiğinde all-reduce’un suboptimal path’te koşması
- Mixed precision konfigürasyonunda bazı rank’lar FP16, bazıları BF16 kullandığında numeric divergence ve crash
- Load balancing yetersizliğinde pipeline’ın en yavaş stage’inin tüm sistemi yavaşlatması
Sonuç
Model sharding 2026 itibarıyla 70B+ LLM serving’in vazgeçilmez katmanı: tensor parallelism layer içi paralel hesaplama, pipeline parallelism layer’lar arası ardışık dağıtım, sequence parallelism uzun bağlam destekçisi. Doğru kombinasyon use case’e göre değişir: 70B sınıf tek node TP=4-8 yeterli, 405B sınıf TP=8 + PP=2 zorunlu, çok uzun bağlam (128K+) senaryolarında SP ekleme gerekiyor. Kurumsal bir deployment için doğru sıra: önce modelinizin bellek ihtiyacını hesaplayın (param * dtype_size * 1.5 buffer), NVLink topology’sini doğrulayın, NCCL ve RDMA stack’ini test edin, NVIDIA NSight ile pipeline bubble’ını ölçün ve son olarak production-ready observability dashboard’unu kurun. Danışmanlık projelerinde gördüğümüz tipik kazanç: aynı GPU envanteriyle 3-4 kat daha büyük modeli servis edebilme ve token başına maliyette %40-55 düşüş.
Sıkça Sorulan Sorular
Tensor parallelism kaç GPU’ya kadar ölçeklenir?
NVLink topology’si içinde 4-8 GPU’ya kadar lineer yakın ölçeklenir; 8 GPU üzerinde NVLink dışına çıkıldığında PCIe darboğazı %52 throughput kaybına neden olur.
Pipeline parallelism’de bubble overhead nedir?
Pipeline dolarken ilk batch’in beklediği atıl döngüler; naïve PP’de %50+, 1F1B schedule ile %8-15, interleaved schedule ile %4-8, zero-bubble pattern’le %0’a indirilebilir.
TP + PP kombinasyonu ne zaman tercih edilir?
405B sınıf modeller tek node belleğine sığmadığında zorunlu; tipik konfigürasyon TP=8 (tek node içi NVLink) + PP=2 (2 node arası RDMA), toplam 16 GPU ile production-ready.
Sequence parallelism ne işe yarar?
Attention katmanlarında uzun sequence’leri attention head’lerine değil sequence boyutuna böler; 128K+ token bağlam senaryolarında bellek tüketimini %42 azaltır.
NCCL ve RDMA neden kritik?
Tensor parallelism her layer’da all-reduce gerektirir; iletişim throughput’u darboğaz olursa hesaplama beklemeye düşer. NVLink intra-node, RDMA (InfiniBand veya RoCE) inter-node için zorunlu, TCP kullanıldığında 14x latency artışı raporlanır.
Akademik referanslar: Megatron-LM tensor parallelism arXiv makalesi, GPipe pipeline parallelism makalesi, Megatron-LM GitHub deposu, DeepSpeed resmi sitesi, NVIDIA Megatron trillion parameter blog. Tamamlayıcı içerikler: TensorRT-LLM ile multi-GPU production, Sharded modellerde continuous batching.










Ömer ÖNAL
Mayıs 23, 2026Müşterilerimizde 405B sınıf model dağıtımında TP=8 + PP=2 + FP8 KV cache kombinasyonu standart hale geldi. Bir İngiliz hedge fund’ın 32x H100 envanteri NeMo Inference Framework ile p99 latency’yi 8.2s’den 1.4s’ye indirdi, aynı altyapıda 3.5x kapasite artışı. NCCL topology’sini NVLink üzerinden doğru kurmak kritik — PCIe darboğazı %47 throughput kaybı demek.