Model Sharding 2026: Tensor ve Pipeline Parallelism Rehberi

Haziran 24, 2026Ömer ÖNAL1 Yorum

Model sharding pattern’leri, 2026 itibarıyla 70B üzeri LLM modellerin servisi için zorunlu hale geldi; NVIDIA Megatron-LM raporlarına göre tensor + pipeline parallelism kombinasyonu 405B sınıf modelin inference throughput’unu %318 artırırken latency’yi %42 düşürüyor. Konuyla ilişkili olarak Megatron-LM 2026: NVIDIA Large Scale Training Implementation Detayli rehberimiz detaylı incelemeyi içerir. Konuyla ilişkili olarak Multi-Node Training 2026: NCCL RDMA InfiniBand Production Setup rehberimiz detaylı incelemeyi içerir.

📖 8 dakikalık okuma

İçindekiler

Model Sharding 2026 Pazar Bağlamı
Tensor Parallelism Mekanizması
Pipeline Parallelism ve Bubble Overhead
Production Implementation Pattern
Operasyon, İzleme ve Maliyet
Sektörel Use Case: Bilim ve Finansal Analiz
Kurumsal Model Sharding Dönüşümünde Karşılaşılan Tipik Sorunlar
Sonuç
Sıkça Sorulan Sorular

Model Sharding 2026 Pazar Bağlamı

Llama 3.1 405B modelinin FP16 formatında bellek ihtiyacı 810GB, FP8’de 405GB. Tek bir GPU bu yükü taşıyamadığı gibi, çoğu modern multi-GPU sunucu da (8x H100 = 640GB) bile tam modeli barındıramaz. Model sharding bu kısıtı aşmanın tek yolu: model parametrelerini birden fazla GPU’ya bölmek. Üç ana pattern var — tensor parallelism (TP, layer içi paralel), pipeline parallelism (PP, layer’lar arası ardışık), sequence parallelism (SP, attention head’leri arası). Üçü kombine edildiğinde 405B model 16x H100 (1280GB toplam HBM) üzerinde rahatlıkla servis edilebilir. NVIDIA Megatron-LM ve DeepSpeed framework’leri bu üç pattern’in referans uygulamalarını sunuyor. Konuyla ilişkili olarak Distributed Training 2026: PyTorch FSDP ve DeepSpeed Stage 3 Production rehberimiz detaylı incelemeyi içerir.

2026 itibarıyla AWS Trainium ve Inferentia, Google TPU v5p, NVIDIA GB200 NVL72 (72 GPU’lu rack-scale) sistemler distribued inference’ı veri merkezi standardı haline getirdi. NVIDIA’nın 2025 Q4 raporu, GB200 NVL72 üzerinde Llama 3.1 405B modelinin saniyede 18.400 token throughput, p99 latency 480ms ile servis edildiğini gösterdi; tek H100 baseline’ına göre 8.8x verim artışı.

Tensor Parallelism Mekanizması

Tensor parallelism (TP) bir layer’ın matrix multiplication’ını N GPU’ya böler. Llama 3.1 70B’nin attention katmanı 8192-boyutlu hidden state ve 64 attention head içerir; TP=8 ile her GPU 8 head + 1024 hidden dim taşır. Forward pass’te NCCL all-reduce ile sonuçlar birleştirilir. Megatron-LM’in 2022 makalesi, TP’nin layer içi paralel hesaplama ile 8 GPU’ya kadar lineer yakın ölçeklenebileceğini gösterdi; 8 GPU üzerinde ise NVLink topology’si dışına çıkıldığında PCIe darboğazı ölçeği %52 düşürüyor. Bu nedenle TP genelde tek node içinde NVLink ile bağlı 4-8 GPU arasında kullanılır.

Pattern	Bölme Boyutu	İletişim Pattern	İletişim Sıklığı	Tipik Ölçek	Latency Etkisi
Tensor Parallelism	Layer içi (head)	All-reduce	Her layer	2-8 GPU	Yüksek bant ihtiyacı
Pipeline Parallelism	Layer’lar arası	Send/Recv	Layer block geçişi	2-16 stage	Bubble overhead
Sequence Parallelism	Sequence dim	All-gather	LayerNorm öncesi	Tek node	Düşük
Expert Parallelism (MoE)	Expert layer	All-to-all	Her MoE block	4-32 GPU	All-to-all kritik
Data Parallelism	Batch	All-reduce (training)	Backward	Genelde inference’ta yok	Training’e özgü

Model Sharding 2026: Tensor Parallelism ve Pipeline Parallelism — Görsel 1

Pipeline Parallelism ve Bubble Overhead

Pipeline parallelism (PP) modelin layer’larını N stage’e böler, her stage farklı GPU’da koşar. Bir batch stage 1’i bitirince stage 2’ye geçer, bu sırada stage 1 sonraki batch’i alır — pipeline doluluğu kritik. Naïve PP’de pipeline doldukça ilk batch’in bekleme süresi yüksek, “bubble” denilen atıl döngüler yaşanır. GPipe ve PipeDream gibi schedule algoritmaları bubble’ı azaltır; 1F1B (one-forward-one-backward) ve interleaved schedule training için optimum, inference için ise micro-batch sayısı pipeline derinliğinden çok daha yüksek tutularak bubble minimize edilir. Megatron’un 2023 raporu, 1F1B + 4 micro-batch konfigürasyonunda 16-stage pipeline’da %18 bubble overhead, 32 micro-batch ile %4 olduğunu gösterdi.

Naïve Pipeline: Tek micro-batch, %50+ bubble overhead, sadece prototip için
GPipe: Mikro-batch’leri sırayla işle, training-friendly, bubble %15-25
1F1B Schedule: Forward ve backward birbirine girer, bubble %8-15
Interleaved Schedule: Her stage birden fazla layer block, bubble %4-8
Zero Bubble: 2024’te Sea AI Lab, gradient hesaplamayı ayrıştırarak %0 bubble raporladı

İlgili konu: KV cache management ile model sharding etkileşimi

Production Implementation Pattern

vLLM’de TP konfigürasyonu: `python -m vllm.entrypoints.openai.api_server –model meta-llama/Llama-3.1-405B-Instruct –tensor-parallel-size 8 –pipeline-parallel-size 2 –gpu-memory-utilization 0.92`. TP=8 + PP=2 toplam 16 GPU kullanır; 2 node x 8 H100 konfigürasyonu için ideal. TensorRT-LLM’de engine build aşamasında parallelism ayarları: `convert_checkpoint.py –tp_size 8 –pp_size 2 –dtype float8`. NCCL topology’si NVLink üzerinden iletişim için kritik; PCIe üzerinden geçişte tensor parallelism throughput’u %47 düşer. Cross-node iletişim için RDMA (RoCE veya InfiniBand) zorunlu; 200Gbps NDR InfiniBand topology’si 405B modelin acceptable production latency’sini sağlıyor.

Model Sharding 2026: Tensor Parallelism ve Pipeline Parallelism — Görsel 2

Operasyon, İzleme ve Maliyet

Distributed inference observability’sinin kritik metrikleri: NCCL all-reduce latency (`nccl_allreduce_latency_us`), GPU SM utilization per-rank, inter-rank communication throughput (Gbps), pipeline bubble time. NVIDIA NSight Systems ile pipeline trace alındığında bubble’ın görsel olarak görüldüğü best practice. AWS p5.48xlarge (8x H100, intra-node NVLink + 3200Gbps EFA) saatlik 98.32$, 16 GPU için 2 node çalıştırma maliyeti saatlik 196.64$. Llama 3.1 405B FP8 üzerinde bu konfigürasyon saniyede 14.800 token, $/1M output token cinsinden 0.79$.

Konfigürasyon	GPU Sayısı	Throughput tok/s	p99 Latency	$/1M token	Bellek/GPU GB
1x H100 (70B FP8)	1	2840	620ms	0.40	76
TP=4 (70B FP8)	4	9180	340ms	0.49	22
TP=8 (70B FP8)	8	14800	240ms	0.60	11
TP=8 + PP=2 (405B FP8)	16	14800	480ms	0.79	32
GB200 NVL72 (405B FP8)	72	18400	480ms	0.85	14

Sektörel Use Case: Bilim ve Finansal Analiz

Bir İngiliz hedge fund’ın araştırma ekibi, 405B parametreli Llama 3.1 modelini günlük 4500 finansal doküman analizinde kullanıyor. İlk konfigürasyonda 32x H100 + naïve sharding ile p99 latency 8.2 saniye, throughput 4200 tok/sn; aylık maliyet 0.92M USD. NVIDIA NeMo Inference Framework + TP=8 + PP=2 + FP8 KV cache kombinasyonuna geçişle p99 latency 1.4 saniyeye düştü, throughput 14.800 tok/sn’ye çıktı; aynı 32 GPU’da 3.5x kapasite artışı. Bir Avrupa ilaç şirketinin protein folding pipeline’ı ise 70B sınıf yapısal biyoloji modelini TP=4 + sequence parallelism kombinasyonuyla servis ediyor; uzun molekül dizilerinde 65K token bağlam ihtiyacı SP olmadan karşılanamıyordu.

Model Sharding 2026: Tensor Parallelism ve Pipeline Parallelism — Görsel 3

Kurumsal Model Sharding Dönüşümünde Karşılaşılan Tipik Sorunlar

Danışmanlık projelerinde gözlemlenen tipik darboğazlar:

Tensor parallelism size NVLink topology’siyle uyumsuz kurulduğunda PCIe darboğazı ile %47 throughput kaybı
Pipeline parallelism’de micro-batch sayısı az tutulduğunda bubble overhead’in %20-30’a çıkması
Cross-node iletişim için RDMA yerine TCP kullanıldığında 14x latency artışı
NCCL topology auto-detection yanlış konfigüre edildiğinde all-reduce’un suboptimal path’te koşması
Mixed precision konfigürasyonunda bazı rank’lar FP16, bazıları BF16 kullandığında numeric divergence ve crash
Load balancing yetersizliğinde pipeline’ın en yavaş stage’inin tüm sistemi yavaşlatması

Sonuç

Model sharding 2026 itibarıyla 70B+ LLM serving’in vazgeçilmez katmanı: tensor parallelism layer içi paralel hesaplama, pipeline parallelism layer’lar arası ardışık dağıtım, sequence parallelism uzun bağlam destekçisi. Doğru kombinasyon use case’e göre değişir: 70B sınıf tek node TP=4-8 yeterli, 405B sınıf TP=8 + PP=2 zorunlu, çok uzun bağlam (128K+) senaryolarında SP ekleme gerekiyor. Kurumsal bir deployment için doğru sıra: önce modelinizin bellek ihtiyacını hesaplayın (param * dtype_size * 1.5 buffer), NVLink topology’sini doğrulayın, NCCL ve RDMA stack’ini test edin, NVIDIA NSight ile pipeline bubble’ını ölçün ve son olarak production-ready observability dashboard’unu kurun. Danışmanlık projelerinde gördüğümüz tipik kazanç: aynı GPU envanteriyle 3-4 kat daha büyük modeli servis edebilme ve token başına maliyette %40-55 düşüş.

Sıkça Sorulan Sorular

Tensor parallelism kaç GPU’ya kadar ölçeklenir?

NVLink topology’si içinde 4-8 GPU’ya kadar lineer yakın ölçeklenir; 8 GPU üzerinde NVLink dışına çıkıldığında PCIe darboğazı %52 throughput kaybına neden olur.

Pipeline parallelism’de bubble overhead nedir?

Pipeline dolarken ilk batch’in beklediği atıl döngüler; naïve PP’de %50+, 1F1B schedule ile %8-15, interleaved schedule ile %4-8, zero-bubble pattern’le %0’a indirilebilir.

TP + PP kombinasyonu ne zaman tercih edilir?

405B sınıf modeller tek node belleğine sığmadığında zorunlu; tipik konfigürasyon TP=8 (tek node içi NVLink) + PP=2 (2 node arası RDMA), toplam 16 GPU ile production-ready.

Sequence parallelism ne işe yarar?

Attention katmanlarında uzun sequence’leri attention head’lerine değil sequence boyutuna böler; 128K+ token bağlam senaryolarında bellek tüketimini %42 azaltır.

NCCL ve RDMA neden kritik?

Tensor parallelism her layer’da all-reduce gerektirir; iletişim throughput’u darboğaz olursa hesaplama beklemeye düşer. NVLink intra-node, RDMA (InfiniBand veya RoCE) inter-node için zorunlu, TCP kullanıldığında 14x latency artışı raporlanır.

Akademik referanslar: Megatron-LM tensor parallelism arXiv makalesi, GPipe pipeline parallelism makalesi, Megatron-LM GitHub deposu, DeepSpeed resmi sitesi, NVIDIA Megatron trillion parameter blog. Tamamlayıcı içerikler: TensorRT-LLM ile multi-GPU production, Sharded modellerde continuous batching.

Ömer ÖNAL

Yazılım Mimarı | Yapay Zeka LLC. Ölçeklenebilir SaaS, .NET Core altyapıları ve Otonom AI süreçleri inşa ediyorum. Kod değil, sistem tasarlarım.

Yorum (1)

Ömer ÖNAL
Mayıs 23, 2026
Yanıtla

Müşterilerimizde 405B sınıf model dağıtımında TP=8 + PP=2 + FP8 KV cache kombinasyonu standart hale geldi. Bir İngiliz hedge fund’ın 32x H100 envanteri NeMo Inference Framework ile p99 latency’yi 8.2s’den 1.4s’ye indirdi, aynı altyapıda 3.5x kapasite artışı. NCCL topology’sini NVLink üzerinden doğru kurmak kritik — PCIe darboğazı %47 throughput kaybı demek.

Our Gallery

Contact Info

Model Sharding 2026: Tensor Parallelism ve Pipeline Parallelism