IDC’nin 2025 Edge AI raporu 2027’ye kadar 750 milyon edge AI cihazının deploy edileceğini öngörüyor. Apple 2025 Neural Engine 38 TOPS performans, Qualcomm Snapdragon X Elite 45 TOPS sunuyor. Edge AI deployment 2026’da gizlilik, gecikme ve maliyet üçgeninin kesişimi. Konuyla ilişkili olarak Edge AI ve On-Device Inference 2026: TFLite, Core ML Rehberi rehberimiz detaylı incelemeyi içerir. Konuyla ilişkili olarak Edge AI: NVIDIA Jetson, Coral, Qualcomm AI Engine Karşılaştırması rehberimiz detaylı incelemeyi içerir.
Edge AI Pazar Bağlamı ve 2026 Bağlamı
Edge AI, AI modellerinin cloud sunucusunda değil son kullanıcı cihazında (telefon, IoT, embedded) çalışmasını sağlayan paradigmadır. Üç ana motivasyon: gizlilik (veri cihazdan çıkmıyor), gecikme (network round-trip yok), maliyet (cloud GPU yok). 2024-2025 döneminde Apple Intelligence, Google Pixel AI, Samsung Galaxy AI mobil edge AI’ı mainstream haline getirdi.
ONNX (Open Neural Network Exchange) cross-platform model exchange formatı; PyTorch, TensorFlow modelleri ONNX’e dönüştürülüp herhangi bir target hardware’de çalıştırılabiliyor. TensorRT NVIDIA Jetson ve datacenter GPU için optimize; CoreML Apple ekosisteminde lider; OpenVINO Intel CPU ve VPU için. Her hardware için ayrı runtime, ancak ONNX köprü.
Edge deployment için model optimizasyonu kritik: pruning, quantization, distillation, operator fusion. Detaylar için ONNX Runtime ve NVIDIA TensorRT referans niteliğindedir.
ONNX, TensorRT ve CoreML Karşılaştırması
Üç runtime farklı hardware ekosistemine optimize edilmiş. ONNX Runtime vendor-neutral; CPU, GPU, mobile, embedded; geniş uyumluluk ama hardware-spesifik optimizasyon sınırlı. TensorRT NVIDIA-only; H100, A100, Jetson Orin, Drive AGX serisinde lider performans. CoreML Apple-only; iPhone, iPad, Mac M-serisi chip’lerinde rakipsiz Neural Engine entegrasyonu.
| Özellik | ONNX Runtime | TensorRT | CoreML |
|---|---|---|---|
| Hardware desteği | Vendor-neutral | NVIDIA only | Apple only |
| Mobile destek | Android, iOS | Yok (datacenter/Jetson) | iOS native |
| Inference hızı (Llama 3 8B) | Baseline | 1,8x baseline | 1,3x baseline |
| Operator fusion | Sınırlı | Mükemmel | Mükemmel |
| Kuantizasyon desteği | INT8, INT4 | FP8, INT8, INT4 | INT8, INT4 |
| Lisans | MIT | NVIDIA SDK | Apple Developer |

Karar Matrisi: Hardware Bazlı Seçim
Edge AI runtime seçimi hardware’e sıkı bağlı. Aşağıdaki kriterler 2025-2026 saha pratiğine dayalı varsayılan tercihleri özetler:
- iOS, iPadOS, macOS uygulama: CoreML zorunlu, Neural Engine kullanımı için
- Android mobil + LLM/ML model: ONNX Runtime Mobile + NNAPI delegation
- NVIDIA Jetson edge GPU: TensorRT zorunlu, FP8 desteği avantaj
- Intel CPU + VPU embedded: OpenVINO veya ONNX Runtime
- Cross-platform tek codebase: ONNX Runtime varsayılan
- Web browser inference: ONNX Runtime Web + WebGPU
İlgili konu: model sıkıştırma rehberimizde edge deployment için kuantizasyon yöntemlerini detaylandırdık.
Build-Once-Deploy-Many Pipeline
Endüstri standardı yaklaşım build-once-deploy-many pattern’i. PyTorch eğitim → ONNX export → hardware-specific runtime conversion. Tek model artefaktı ONNX formatında saklanıyor; target hardware için ayrı conversion adımları (TensorRT engine build, CoreML compilation, OpenVINO IR generation) deployment pipeline’da yapılıyor.
Optimum (Hugging Face) edge deployment’ı standartlaştırıyor. PyTorch model → ONNX export tek satır kodla; ardından target runtime için optimizer çağrılıyor. Quantization-aware training (QAT) eğitim sırasında kuantizasyon farkındalığı; post-training quantization (PTQ) eğitim sonrası dönüşüm. QAT %2-4 daha doğru ama eğitim ek yüküyle geliyor. Detaylar için Hugging Face Optimum referans niteliğindedir.

Operasyon, Latency Bütçesi ve Maliyet
Edge AI latency cloud’un yaklaşık %5-10’u; 100 ms cloud round-trip yerine 10-20 ms cihaz inference. Bu fark gerçek zamanlı senaryolarda kritik: AR/VR, autonomous driving, real-time translation. Maliyet açısından edge AI marginal cost sıfıra yakın; cihazda zaten var olan SoC kullanılıyor.
| Senaryo | Cloud Inference | Edge Inference | Avantaj |
|---|---|---|---|
| Latency (P50) | 180 ms | 22 ms | 8,2x |
| Gizlilik | Veri network’te | Veri cihazda | GDPR/HIPAA uyumlu |
| Sorgu başı maliyet | 0,002 USD | 0,0001 USD | 20x |
| Offline çalışma | Hayır | Evet | Kritik |
| Model güncelleme | Anlık | App update | Dezavantaj |
Sektörel Use Case’ler
Otomotivde Tesla FSD, Mercedes EQS gibi autonomous driving sistemleri TensorRT + Jetson DRIVE Orin üzerinde çalışıyor; 254 TOPS performans. Sağlıkta wearable cihazlar (Apple Watch ECG, Fitbit) CoreML ile edge AI inference yapıyor; veri telefonu terk etmiyor. Akıllı kameralar Hailo veya Coral TPU üzerinde object detection real-time çalıştırıyor.
Apple Intelligence’ın 2024 lansmanı edge AI pazarını ikiye böldü: 8GB+ RAM’li yeni nesil iPhone’lar Apple Intelligence destekliyor, eskiler cloud fallback’e bağımlı. Bu trend tüm endüstride NPU (Neural Processing Unit) yatırımını hızlandırdı. Qualcomm, Apple, Google, Intel hepsinin 2025-2026 yol haritası 40-100 TOPS NPU içeriyor.

Kurumsal Edge AI Dönüşümünde Karşılaşılan Tipik Sorunlar
Danışmanlık projelerinde gözlemlenen tipik darboğazlar:
- Target hardware seçmeden model eğitme; PyTorch → ONNX → TensorRT conversion’da uyumsuz operatörler
- Kuantizasyon olmadan deployment deneme; model cihaza sığmıyor
- QAT yerine PTQ kullanma; %2-4 ekstra doğruluk kaybı
- Tek runtime’a bağımlılık; iOS için CoreML, Android için ONNX ayrı pipeline gerekiyor
- Model güncelleme stratejisi olmadan deployment; sürekli app update gerekli
- Battery ve thermal etkisini test etmeme; üretim cihazda overheating
Sonuç
Edge AI 2026’da gizlilik, gecikme, maliyet üçgeninin kesişimi. ONNX vendor-neutral build-once-deploy-many için, TensorRT NVIDIA Jetson için, CoreML Apple ekosistemi için varsayılan. Model optimizasyonu (kuantizasyon, pruning, distillation) deployment öncesi zorunlu. Pilot 6 hafta: PyTorch model + ONNX export + target hardware runtime + on-device benchmark. Latency, accuracy, battery, thermal metrikleri ölç. ROI gizlilik ve gecikme kritik senaryolarda 6 ay içinde geri ödüyor.
Sıkça Sorulan Sorular
Llama 3 8B telefonda çalışır mı?
4-bit kuantize edilmiş Llama 3 8B 4-5 GB RAM tüketiyor; 8GB+ RAM’li modern iPhone ve Android’de çalışıyor. Tokens/sec 5-15 arasında; konuşma senaryosu için yeterli.
Apple Intelligence’ı kendi modellerimle kullanabilir miyim?
Sınırlı. CoreML ile kendi modellerinizi Neural Engine’de çalıştırabilirsiniz; ama Apple Intelligence framework’ü Apple modellerine spesifik.
TensorRT lisansı kurumsal kullanım için uygun mu?
Evet, ticari kullanım açık. NVIDIA SDK kapsamında; Jetson hardware satın aldıysanız ek lisans gerekmiyor. Datacenter GPU için ayrı.
ONNX hangi operatörleri desteklemiyor?
Custom CUDA kernels, hardware-specific operators (FlashAttention, PagedAttention) sınırlı destek. Standart transformer ops tam destek; custom kod için fallback gerekebilir.
Edge AI model güncelleme nasıl yapılır?
App update üzerinden veya OTA model delivery (Apple ML Programs, Google Play Asset Delivery). Model ayrı dosya olarak indiriliyor; app restart gerekmiyor.










Ömer ÖNAL
Mayıs 23, 2026Edge AI deployment’ta varsayılan ONNX Runtime; ancak GPU’lu Jetson cihazlarda TensorRT, Apple ekosisteminde CoreML açık ara lider. Müşterilerimizde uyguladığımız strateji şu: tek bir PyTorch çıktısından ONNX export, ardından target hardware’e göre TensorRT/CoreML/OpenVINO ile özelleştirme. Bu pipeline aynı model artefaktıyla 5 farklı hardware sınıfını destekliyor. Build-once-deploy-many prensibi. — Ömer ÖNAL