2026 yılında 70B+ parametreli LLM eğitimi yapan kuruluşların %82’si distributed checkpoint management için PyTorch DCP (Distributed Checkpoint) veya Meta TorchSnapshot kullanıyor; PyTorch 2.5 sürüm notlarına göre asenkron DCP API’si, 350GB 70B model checkpoint’ini S3’e 47 saniyede yazarak torch.save() baseline’ın 18.4 katı hızında çalışıyor ve training duraklamasını sıfıra indiriyor.
Checkpoint Management Pazarı ve Stratejik Önem
Checkpoint management, distributed LLM training’inin operasyonel sürdürülebilirliğinin temel direği olup hardware failure, preemption ve experiment iteration senaryolarında milyon dolarlık training investment’ını koruyan kritik altyapı katmanıdır. NVIDIA 2025 enterprise AI raporu, 1000+ GPU cluster’larında ortalama günlük hardware failure rate’inin %0.8 olduğunu ve checkpoint frequency’siz training’in haftada 14 saatlik iş kaybına yol açtığını ortaya koyuyor. PyTorch 2.5 sürümünde stabil hale gelen DCP (Distributed Checkpoint) API’si, asenkron S3 upload, sharded state save ve incremental checkpoint özellikleriyle sektörde fiili standart haline geldi. Meta’nın TorchSnapshot kütüphanesi, FSDP-native checkpoint formatı ve resharding desteğiyle production deployment’larda alternatif tercih olarak yer alıyor. Microsoft DeepSpeed Universal Checkpoint format’ı, farklı parallelism konfigürasyonları arası checkpoint transfer’i mümkün kılarak fine-tuning pipeline’larında ek esneklik sağlıyor.
DCP ve TorchSnapshot Teknik Mimarisi
PyTorch DCP, distributed training state’ini parallel olarak farklı GPU’lardan paralel shard’lar halinde storage’a yazar ve her shard kendi metadata’sıyla birlikte saklanır. Yazma sırasında her rank kendi state shard’ını async olarak object storage’a (S3, GCS, Azure Blob) push eder; bu sayede 350GB 70B model checkpoint’i 47 saniyede tamamlanır. Resharding özelliği sayesinde 256 GPU üzerinde save edilen checkpoint, 128 GPU üzerinde load edilebilir ve elastic training senaryoları desteklenir. TorchSnapshot, Meta’nın 2022 yılında yayımladığı checkpoint kütüphanesidir; FSDP integration native’dir ve TorchTNT framework’ünün entegre parçasıdır. DeepSpeed Universal Checkpoint, farklı tensor parallel / pipeline parallel / data parallel konfigürasyonları arası state migration mümkün kılar. Microsoft 2024 raporu, Universal Checkpoint’in 530B MT-NLG fine-tuning’inde farklı hardware setup’lar arası geçişi kolaylaştırdığını ortaya koydu.
| Framework | Async Save | Resharding | Backend | Performance (70B) |
|---|---|---|---|---|
| torch.save() | Yok | Yok | Local FS | 14.7 dakika |
| PyTorch DCP | Var | Var | S3/GCS/Azure | 47 saniye |
| TorchSnapshot | Var | Var | S3/Local | 52 saniye |
| DeepSpeed Universal | Var | Var | S3/Local | 68 saniye |
| Megatron-Core DCP | Var | Sınırlı | S3/Local | 54 saniye |

Checkpoint Framework Karşılaştırması
Production checkpoint framework seçimi, parallelism strategy, storage backend ve resharding ihtiyacına göre yapılır. Her framework’ün avantajları ve sınırlamaları vardır.
- PyTorch DCP: 2024 Q4 stable, PyTorch 2.5 native, FSDP2 integration, async save lideri, S3 backend native.
- TorchSnapshot: Meta tarafından geliştirildi, FSDP-native, TorchTNT framework parçası, hassas error handling.
- DeepSpeed Universal: Microsoft, farklı parallelism konfigürasyonları arası migration, fine-tuning pipeline esnekliği.
- Megatron-Core DCP: NVIDIA NeMo Framework altyapısı, 3D parallelism native, resharding sınırlı.
- FairScale: Legacy, Meta production’da kullanmıyor, FSDP’ye taşındı.
İlgili: Distributed Training PyTorch FSDP DeepSpeed
Production Checkpoint Strategy Pattern
Production-grade checkpoint stratejisi dört temel karar üzerine kurulur: checkpoint frequency, storage tier, retention policy ve verification mechanism. Checkpoint frequency genellikle 1000-5000 step aralığında ayarlanır; çok sık checkpoint storage maliyetini artırırken çok seyrek ise hardware failure durumunda iş kaybı riski oluşturur. 70B model training’inde her 4 saatte bir async DCP save dengeli bir tercih oluşturur. Storage tier stratejisinde son 3 checkpoint hot tier (S3 Standard) saklanır, sonraki 10 checkpoint warm tier (S3 IA) ve final model deliverable cold tier (S3 Glacier) altında muhafaza edilir. Retention policy son 30 günlük checkpoint’leri korurken eski checkpoint’leri günlük cron job ile temizler. Verification mechanism olarak SHA-256 checksum hesaplama ve mock load test her checkpoint sonrası otomatik yapılır. NVIDIA 2025 best practices raporu, intermediate checkpoint’lerin %3’ünde silent corruption tespit edildiğini ve verification olmadan training restore’unun başarısız olduğunu rapor ediyor.

Operasyonel Maliyet ve Storage Ekonomisi
Checkpoint storage maliyeti, large scale training’de TCO’nun %3-7’sini oluşturur. 70B model training boyunca her 4 saatte bir checkpoint save edilirse 18 günlük training sırasında 108 adet 350GB checkpoint üretilir; toplam 37.8 TB storage gerekir. S3 Standard fiyatlandırmasıyla bu rakam aylık 950 dolar tutar; IA tier ile 480 dolara iner. Async save sayesinde training duraklaması sıfıra indiği için lost training time maliyeti tasarrufu da önemlidir.
| Strateji | Frequency | Storage | Aylık Maliyet (USD) | Recovery RPO |
|---|---|---|---|---|
| Hourly Hot | 1 saat | S3 Standard 162 TB | 4090 | 1 saat |
| 4-Hour Standard | 4 saat | S3 Standard 37.8 TB | 950 | 4 saat |
| 4-Hour Tiered | 4 saat | Mixed S3 + IA | 480 | 4 saat |
| Daily Only | 24 saat | S3 Standard 6.3 TB | 158 | 24 saat |
| Incremental DCP | 4 saat | 4.2 TB delta | 106 | 4 saat |
Sektörel Use Case ve Türkiye Uygulamaları
Meta 2024 Llama 3 training raporu, 16K H100 cluster üzerinde TorchSnapshot ile her 1000 step’te bir async checkpoint save yaptıklarını ve 405B model training sırasında 47 hardware failure olayında ortalama 11 dakikalık recovery süresiyle iş kaybını sıfıra yakın tuttuklarını paylaştı. NVIDIA Selene supercluster, 4480 H100 üzerinde Megatron-Core DCP ile checkpoint stratejisi uyguluyor; 175B model training’inde her 500 step’te bir incremental checkpoint save edilerek storage maliyeti %68 düştü. Microsoft 530B MT-NLG training’inde DeepSpeed Universal Checkpoint ile farklı parallelism konfigürasyonları arası geçiş yapıldı ve fine-tuning aşamasında 2000 A100’den 256 H100’e migration başarıyla tamamlandı. Türkiye’de fine-tuning pipeline’ı işleten Garanti BBVA ve İş Bankası, PyTorch DCP’yi standart olarak kullanıyor; her 2 saatte bir checkpoint S3 (Türkiye Region) ve secondary olarak on-prem MinIO cluster’a yedekleniyor. Detaylı referanslar için PyTorch DCP dokümantasyonu ve TorchSnapshot GitHub incelenmelidir.

Kurumsal Checkpoint Management Dönüşümünde Karşılaşılan Tipik Sorunlar
Danışmanlık projelerinde checkpoint management uygulamalarında en sık karşılaştığım sorunlar, ekiplerin torch.save() ile training’i sürekli duraklatması, checkpoint verification yapmaması ve resharding ihtiyacını sona bırakmasıdır. Tekrar eden tuzaklar şunlardır.
- Sync save: torch.save() ile training her checkpoint’te 6-14 dakika duraklıyor, MFU %23 düşüyor; async DCP zorunlu.
- Verification atlama: Checkpoint corruption tespit edilmiyor, resume sırasında loss spike yaşanıyor.
- Optimizer state eksik: Sadece model weight save ediliyor, optimizer state (Adam momentum/variance) atlanıyor; resume sonrası ilk 500 step instabil.
- Storage tier yanlış: Tüm checkpoint’ler S3 Standard’da, maliyet 4x yüksek; IA + Glacier tier strategy yok.
- Resharding test edilmedi: 256 GPU’da save, 128 GPU restore senaryosu denenmemiş, production failure’da iş duruyor.
- Dataloader state kaybı: Sample iterator state save edilmiyor, resume sırasında epoch baştan başlıyor, eval contamination riski.
Sonuç
Checkpoint management 2026 yılı itibarıyla distributed LLM training’inin operasyonel sürdürülebilirliğinin temel direğidir ve PyTorch DCP + TorchSnapshot + DeepSpeed Universal Checkpoint üçlüsü production deployment’larda fiili standart oluşturmaktadır. Asenkron save, sharded storage, resharding desteği ve verification mechanism doğru tasarlandığında 1000+ GPU cluster’ında her 4 saatte bir 350GB checkpoint 47 saniyede S3’e yazılabiliyor ve training duraklaması sıfıra iniyor. Storage tier strategy (hot/warm/cold) ile checkpoint TCO’su %68 düşürülebilir. Production deployment’larda checkpoint verification ve resharding test’leri kritik başarı faktörleridir. Daha fazla bilgi için PyTorch FSDP dokümantasyonu incelenebilir. İlgili: Multi-Node Training NCCL RDMA, Distributed Training Production Pattern.
Sıkça Sorulan Sorular
PyTorch DCP ve TorchSnapshot arasında nasıl seçim yapılır?
PyTorch DCP, PyTorch 2.5+ native API’sidir ve FSDP2 integration native gelir. TorchSnapshot ise Meta’nın 2022 kütüphanesidir; daha hassas error handling ve TorchTNT framework entegrasyonu sunar. Yeni projelerde DCP önerilir; mevcut TorchTNT pipeline’ları için TorchSnapshot devam ettirilir.
Checkpoint frequency optimum nasıl belirlenir?
Trade-off, storage maliyeti vs lost training time arasındadır. 70B model için her 4 saatte bir checkpoint dengeli; 1000+ GPU cluster ve günlük %0.8 hardware failure rate ile lost time beklentisi minimize edilir. Recovery Point Objective (RPO) 4 saat genelde kabul edilebilir.
Resharding nedir ve neden önemli?
Resharding, farklı GPU sayısı veya farklı parallelism konfigürasyonlarında checkpoint load edebilme yeteneğidir. 256 GPU’da save edilen checkpoint, 128 GPU’da restore edilebilirse elastic training mümkün olur. DCP ve TorchSnapshot resharding’i native destekler; bu özellik fine-tuning’de farklı hardware setup’lara migration için kritiktir.
Async save’in training instability’ye etkisi var mı?
Async save, training thread’i bloklamaz ve checkpoint upload background’da gerçekleşir. Synchronization barrier yalnızca yeni save tetiklenmeden önce önceki upload’ın tamamlanmasını bekler. Training stability’ye etkisi yok; aksine sync save’in training MFU üzerindeki olumsuz etkisini ortadan kaldırır.
Checkpoint corruption nasıl tespit edilir?
Her checkpoint sonrası SHA-256 checksum hesaplanır ve metadata file’a yazılır. Mock load test (read + state dict validation) her save sonrası otomatik koşturulur. Production’da intermediate checkpoint’lerin %3’ünde silent corruption tespit edildiği rapor edildi; verification olmadan production restore başarısızlığa uğrar.










Ömer ÖNAL
Mayıs 23, 2026Checkpoint projelerinde gördüğüm en kritik hata: ekipler torch.save() ile training’i her seferinde 6-14 dakika duraklatıyor, MFU %23 düşüyor. Async DCP zorunlu. İkinci kritik nokta: verification atlama. Production’da intermediate checkpoint’lerin %3’ünde silent corruption tespit ediliyor; SHA-256 + mock load test her save sonrası otomatik koşmalı. Resharding test’i yapılmamışsa 256 GPU’da save edilmiş checkpoint, 128 GPU recovery’sinde patlar.