NVIDIA Megatron-LM 2026 sürümü, 1 trilyon parametreli modellerin 8192 GPU üzerinde eğitilmesini ve Selene supercluster’da %58.7 MFU (Model FLOPS Utilization) elde edilmesini sağlıyor; NVIDIA 2025 teknik raporu, Megatron-Core’un 3D parallelism (Tensor + Pipeline + Sequence) yapısının PyTorch baseline’a göre %34 daha yüksek throughput verdiğini ve transformer engine ile FP8 desteğinin training maliyetini %47 düşürdüğünü ortaya […]





