On-Device AI 2026: Mobil ve Uç Cihazlarda Küçük Dil Modelleri

On-device AI 2026’da yapay zekânın bulut tekelinden çıkıp telefon, tablet ve uç cihazlara yerleştiği bir dönüm noktasına ulaştı; temel soru artık “modeli buluta mı göndereyim” değil, “hangi görevi cihazda, hangisini bulutta çalıştırayım” sorusudur. Doğrudan yanıt: 1 ile 8 milyar parametre aralığındaki küçük dil modelleri (SLM) — Gemini Nano, Phi-3, Llama 3.2 1B/3B, Qwen2.5 — nicemleme (quantization) sayesinde modern mobil cihazlardaki NPU’larda saniyede onlarca token üreterek, gizliliği koruyarak, ağ gecikmesi olmadan ve sıfır API maliyetiyle çalışır. Cihaz üstü yapay zekânın üç belirleyici avantajı gizlilik (veri cihazdan çıkmaz), gecikme (ağ turu yok, anlık yanıt) ve maliyettir (token başına ücret yok). Sınırı ise model boyutu ve cihaz belleğidir; karmaşık akıl yürütme hâlâ bulut modellerini gerektirir. 2026’nın baskın mimarisi hibrittir: basit görevler cihazda, ağır görevler bulutta.

On-device AI mimarisi: telefon ve uç cihazlardaki NPU üzerinde çalışan küçük dil modeli diyagramı
On-device AI mimarisi: telefon ve uç cihazlardaki NPU üzerinde çalışan küçük dil modeli diyagramı

Neden Cihaz Üstü Yapay Zeka Yükseliyor

On-device AI’ın yükselişi üç teknolojik gelişmenin kesişiminden doğdu: güçlü mobil NPU’lar, küçük ama yetenekli modeller ve agresif nicemleme. Apple’ın Neural Engine’i (A18’de saniyede 35 trilyon işlem) ve Qualcomm’un Hexagon NPU’su (Snapdragon 8 Elite’te 45+ TOPS) artık masaüstü GPU’lara yaklaşan çıkarım gücü sunuyor. Bu donanım, birkaç milyar parametreli modellerin telefonda gerçek zamanlı çalışmasını mümkün kıldı.

Modeli cihaza taşımanın değeri salt teknik değil, stratejiktir. Gizlilik açısından kullanıcı verisi (mesajlar, fotoğraflar, sağlık verisi) cihazdan hiç çıkmaz; bu, KVKK/GDPR uyumunu kökten basitleştirir. Gecikme açısından ağ turu olmadığından yanıt 50-200 ms içinde başlar. Maliyet açısından her çıkarım için bulut API ücreti ödenmez. Bu yaklaşımın edge tarafındaki uzantısını edge AI ve on-device çıkarım yazısı kapsar.

  • Gizlilik: Veri cihazda kalır, bulut sızıntısı riski sıfır.
  • Gecikme: Ağ turu yok, ilk token 50-200 ms.
  • Maliyet: Token başına API ücreti yok, çevrimdışı çalışır.

Küçük Dil Modelleri: 1B-8B Parametre Sınıfı

Küçük dil modelleri (Small Language Models, SLM), genellikle 1 ile 8 milyar parametre arasındaki, mobil ve uç cihazlarda çalışacak şekilde tasarlanmış modellerdir. Microsoft’un Phi-3-mini modeli 3,8 milyar parametreyle, çok daha büyük modellerle karşılaştırılabilir akıl yürütme sergileyerek bu sınıfın gücünü kanıtladı. Google’ın Gemini Nano’su Pixel ve Android cihazlara gömülü çalışır; Meta’nın Llama 3.2 1B ve 3B modelleri mobil için özel optimize edilmiştir. Bu modellerin başarısı, ölçek yasalarının (scaling laws) yanında veri kalitesinin de belirleyici olduğunu gösteren araştırmalara dayanır: özenle seçilmiş ve damıtılmış veriyle eğitilen küçük bir model, gelişigüzel veriyle eğitilen çok daha büyük bir modeli geçebilir.

Küçük dil modeli karşılaştırması: 1B-8B parametre sınıfındaki SLM'lerin boyut ve hız görselleştirmesi
Küçük dil modeli karşılaştırması: 1B-8B parametre sınıfındaki SLM'lerin boyut ve hız görselleştirmesi

Bu modellerin gücü “küçük ama akıllı” felsefesinden gelir: yüksek kaliteli, damıtılmış (distilled) eğitim verisi, devasa parametre sayısının yerini tutabilir. Açık kaynak SLM ekosistemi hızla genişliyor; Llama, Mistral, Qwen ve DeepSeek modellerinin karşılaştırması için açık kaynak LLM karşılaştırması kapsamlı bir referanstır. SLM’ler genel sohbette devasa modeller kadar geniş bilgi taşımaz ama özetleme, sınıflandırma, yeniden yazma ve yapılandırılmış çıkarım gibi dar görevlerde son derece etkilidir.

Bu modellerin telefonda gerçek zamanlı çalışabilmesinin arkasında, mobil işlemcilere eklenen özel yapay zeka donanımı (NPU) yatar. NPU’lar, sinir ağı çıkarımının çekirdeği olan matris işlemlerini düşük güç tüketimiyle yürütmek için tasarlandığından, aynı işi genel amaçlı CPU’dan kat kat verimli yapar. Aşağıdaki tablo başlıca mobil NPU platformlarının çıkarım gücünü karşılaştırır.

Platform NPU Yaklaşık Güç Tipik Cihaz Ekosistem
Apple A18 / M serisi Neural Engine ~35 TOPS iPhone 16, iPad Core ML, MLX
Snapdragon 8 Elite Hexagon NPU 45+ TOPS Android amiral QNN, AICore
Google Tensor TPU/Edge Cihaza gömülü Pixel AICore, Gemini Nano
MediaTek Dimensity APU ~30-50 TOPS Orta-üst Android NeuroPilot
PC NPU (Copilot+) Çeşitli 40+ TOPS Windows dizüstü DirectML, ONNX

Nicemleme: Modeli Cihaza Sığdırmanın Anahtarı

Nicemleme (quantization), bir modelin ağırlıklarını 32-bit kayan noktadan 8-bit, 4-bit hatta daha düşük hassasiyete indirerek bellek ve hesaplama gereksinimini dramatik azaltan tekniktir. 4-bit nicemleme, model boyutunu yaklaşık dörtte bire düşürür; 7 milyar parametreli bir model 16 bit’te ~14 GB iken 4-bit’te ~4 GB’a iner ve böylece çoğu modern telefona sığar. GGUF formatı ve llama.cpp, bu nicemlenmiş modelleri cihazda çalıştırmanın fiili standardıdır. Nicemleme yalnızca depolama değil, çıkarım hızı kazancı da sağlar: daha küçük ağırlıklar bellek bant genişliği darboğazını hafifletir ve modern NPU’lar düşük hassasiyetli (int8/int4) işlemleri yerel olarak hızlandırır.

Nicemlemenin maliyeti küçük bir doğruluk kaybıdır; ancak modern teknikler (AWQ, GPTQ, k-quant) bu kaybı çoğu görevde fark edilmeyecek seviyeye indirir. Çalıştırma motorları arasında llama.cpp (CPU/GPU), Apple MLX (Apple Silicon optimize) ve MLC LLM (çapraz platform GPU) öne çıkar; bunların karşılaştırması için edge LLM deployment motorları yazısı detaylı bir kaynaktır.

Nicemleme seviyesinin seçimi, boyut, hız ve doğruluk arasında bilinçli bir denge gerektirir. Aşağıdaki tablo, 7 milyar parametreli bir model örneği üzerinden farklı hassasiyet seviyelerinin etkisini özetler.

Hassasiyet 7B Model Boyutu Doğruluk Kaybı Bellek İhtiyacı Uygun Cihaz
FP16 (16-bit) ~14 GB Referans Çok yüksek Sunucu / masaüstü
INT8 (8-bit) ~7 GB Ölçülemez denli az Yüksek Üst seviye dizüstü
Q5 / Q6 (k-quant) ~5 GB Çok düşük Orta-Yüksek 12 GB+ RAM telefon
INT4 / Q4 (4-bit) ~4 GB %1-3 (AWQ ile) Orta 8 GB RAM telefon
Q3 ve altı ~3 GB Belirgin Düşük Yalnızca zorunlu hâl

Pratikte mobil cihazların çalışma atı 4-bit (Q4) ve k-quant varyantlarıdır; bunlar boyut ile kalite arasındaki tatlı noktayı yakalar. 3-bit ve altı agresif nicemleme yalnızca bellek gerçekten kritikse tercih edilir, çünkü kalite kaybı kullanıcı tarafından fark edilir hale gelir.

On-Device AI Model ve Motor Karşılaştırması

Model / Motor Parametre 4-bit Boyut Tipik Hız (mobil) Platform
Gemini Nano ~3,25B Cihaza gömülü ~20-40 tok/s Android / Pixel
Phi-3-mini 3,8B ~2,2 GB ~15-30 tok/s Çapraz platform
Llama 3.2 1B 1B ~0,8 GB ~40-60 tok/s Çapraz platform
Llama 3.2 3B 3B ~2 GB ~15-25 tok/s Çapraz platform
Qwen2.5 1.5B 1,5B ~1 GB ~30-45 tok/s Çapraz platform
Apple Foundation ~3B (cihaz) Cihaza gömülü NPU optimize iOS / Apple Silicon
Model nicemleme süreci: 32-bit kayan noktadan 4-bit hassasiyete indirgeme ve bellek tasarrufu şeması
Model nicemleme süreci: 32-bit kayan noktadan 4-bit hassasiyete indirgeme ve bellek tasarrufu şeması

Hibrit Mimari: Cihaz ve Bulut Birlikte

2026’nın baskın deseni saf cihaz veya saf bulut değil, akıllı yönlendirmeli hibrittir. Apple Intelligence ve Google’ın AICore’u bu modeli benimser: gizlilik-hassas ve basit görevler (metin özetleme, akıllı yanıt, bildirim sınıflandırma) cihazda; karmaşık akıl yürütme, geniş bilgi gerektiren sorgular ise güvenli bulut katmanında çalışır. Apple’ın Private Cloud Compute’u, bulut çıkarımında bile cihaz seviyesi gizlilik garantisi sunmayı hedefler. Bu hibrit yönlendirme, kullanıcı deneyimi açısından da kritiktir: cihaz modeli anlık bir taslak yanıt üretirken, gerekiyorsa bulut modeli arka planda daha zengin bir cevabı tamamlayarak algılanan gecikmeyi gizler.

Bu yönlendirme mantığı, tarayıcı tarafında WebGPU ile de uygulanabilir; istemci tarafı çıkarımın web boyutunu tarayıcıda yapay zeka ve WebGPU yazısı ele alır. Hibrit kararın özü maliyet-gizlilik-yetenek üçgenidir: cihaz ucuz ve özel ama sınırlı, bulut güçlü ama maliyetli ve gizlilik takası gerektirir.

Hibrit yönlendirmenin pratik uygulamasında karar genellikle bir eşik mantığına dayanır: gelen görev, cihaz modelinin güvenle çözebileceği bir kategoriye (özetleme, sınıflandırma, biçimlendirme, basit yanıt) giriyorsa cihazda işlenir; girmiyorsa veya cihaz modeli düşük bir güven skoru üretirse istek buluta yükseltilir (escalation). Bu tasarım, kullanıcıların büyük çoğunluğunun sık yaptığı basit işlemleri sıfır maliyetle ve anında karşılarken, yalnızca gerçekten karmaşık azınlığı bulut faturasına dönüştürür; sonuç hem maliyet hem gecikme açısından optimaldir. Apple Intelligence’ın cihaz modeli ile Private Cloud Compute arasındaki, Google AICore’un ise yerel Gemini Nano ile bulut Gemini arasındaki devirleri tam olarak bu mantığı somutlaştırır. Önemli bir tasarım inceliği de geri dönüş (fallback) deneyimidir: cihaz hızlı bir taslak yanıt gösterirken bulut arka planda zenginleştirilmiş cevabı tamamlarsa, kullanıcı hiçbir bekleme hissetmez.

Performans, Pil ve Bellek Dengeleri

Cihaz üstü çıkarımın gerçek maliyeti pil ve bellektir. Bir SLM’yi sürekli çalıştırmak NPU’yu yoğun kullanır ve pili tüketir; bu yüzden modeller talep üzerine yüklenir ve kullanım sonrası bellekten boşaltılır. Mobil bellek bütçesi kritiktir: 8 GB RAM’li bir telefonda 4 GB’lık bir model çalıştırmak diğer uygulamaları sıkıştırır. Aşağıdaki tablo cihaz-bulut dengelerini özetler.

Kriter On-Device (SLM) Bulut LLM Tercih Edilen
Gecikme (ilk token) 50-200 ms 300-1.500 ms On-Device
Gizlilik Veri cihazda kalır Veri buluta gider On-Device
Maliyet (çıkarım) Sıfır marjinal Token başına ücret On-Device
Çevrimdışı çalışma Evet Hayır On-Device
Maksimum yetenek Sınırlı (dar görev) Yüksek (genel) Bulut
Pil etkisi Yüksek (NPU yükü) Düşük (sadece ağ) Bulut
Hibrit cihaz-bulut AI mimarisi: basit görevin cihazda, karmaşık akıl yürütmenin bulutta yönlendirilmesi
Hibrit cihaz-bulut AI mimarisi: basit görevin cihazda, karmaşık akıl yürütmenin bulutta yönlendirilmesi

Tipik Sorunlar ve Çözümleri

On-device AI projelerinde ekipler genellikle cihaz sınırlarını hafife alarak aynı tuzaklara düşer. En sık karşılaşılan sorunlar ve çözümleri şunlardır:

  • Bellek aşımı (OOM): Büyük model cihaz RAM’ini doldurur, uygulama çöker. Çözüm: 4-bit nicemleme, talep üzerine yükleme, model boyutu seçimi.
  • Pil tükenmesi: Sürekli çıkarım NPU’yu ısıtır. Çözüm: Görev tabanlı çalıştırma, sonuç önbellekleme, küçük model tercihi.
  • Tutarsız donanım: Her cihazda NPU/RAM farklı. Çözüm: Cihaz yeteneğine göre model katmanı seçimi (tier’lama).
  • Doğruluk kaybı: Aşırı nicemleme kaliteyi düşürür. Çözüm: AWQ/k-quant dengeli nicemleme, kritik görevde bulut fallback.
  • Dar görev sınırı: SLM genel bilgi sorularında zayıftır. Çözüm: RAG ile yerel bağlam besleme veya hibrit bulut yönlendirme.
  • Model güncelleme dağıtımı: Büyük model dosyaları güncellemeyi zorlaştırır. Çözüm: Delta güncelleme, cihaz üstü model deposu (AICore/Foundation Models).

Sonuç

On-device AI 2026’da deneysel bir konseptten üretim gerçeğine dönüştü; güçlü NPU’lar, yetenekli küçük dil modelleri ve agresif nicemleme bu üçlüyü mümkün kıldı. SLM’ler özetleme, sınıflandırma ve yapılandırılmış çıkarım gibi dar görevlerde gizliliği koruyarak, anlık ve sıfır marjinal maliyetle çalışır; karmaşık akıl yürütme hâlâ bulutu gerektirir. Doğru strateji saf cihaz veya saf bulut değil, görev tipine göre akıllı yönlendiren hibrit mimaridir. Pratik tavsiye: Önce hangi görevlerin gerçekten cihazda çalışması gerektiğini (gizlilik veya çevrimdışı zorunluluğu) listeleyin; bu görevler için Llama 3.2 1B/3B veya Phi-3-mini’yi 4-bit nicemlemeyle prototipleyip pil ve bellek etkisini ölçün, gerisini buluta bırakın.

Sıkça Sorulan Sorular

Küçük dil modeli (SLM) ile büyük dil modeli (LLM) arasındaki fark nedir?

Temel fark parametre sayısı ve kapsamdır. SLM’ler genellikle 1-8 milyar parametre taşır ve mobil/uç cihazlarda çalışacak şekilde optimize edilir; özetleme, sınıflandırma ve yeniden yazma gibi dar görevlerde son derece etkilidir. Büyük dil modelleri (yüz milyarlarca parametre) ise geniş genel bilgi ve karmaşık akıl yürütme sunar ama bulut altyapısı gerektirir. SLM’ler gizlilik, gecikme ve maliyet avantajıyla; LLM’ler ham yetenekle öne çıkar.

Telefonum hangi büyüklükte bir modeli çalıştırabilir?

Pratik sınır cihaz RAM’i ve NPU gücüdür. 8 GB RAM’li modern bir telefonda 4-bit nicemlenmiş 1-3 milyar parametreli bir model (yaklaşık 1-2 GB) rahatça çalışır ve saniyede 20-60 token üretir. 12 GB+ RAM’li üst seviye cihazlarda 7-8 milyar parametreli modeller de mümkündür. Modelin diğer uygulamaları sıkıştırmaması için talep üzerine yüklenip kullanım sonrası bellekten boşaltılması önemlidir.

Nicemleme model kalitesini ne kadar düşürür?

Modern tekniklerle çok az. 8-bit nicemlemede kalite kaybı pratikte ölçülemeyecek kadar küçüktür. 4-bit nicemlemede AWQ, GPTQ veya k-quant gibi gelişmiş yöntemler kullanıldığında, çoğu görevde doğruluk kaybı %1-3 civarında kalır ve son kullanıcı tarafından fark edilmez. Yalnızca çok hassas akıl yürütme görevlerinde 4-bit altı agresif nicemleme belirgin kayba yol açabilir; bu durumda 8-bit veya bulut fallback tercih edilir.

On-device AI gerçekten daha mı güvenli?

Gizlilik açısından evet, kökten daha güvenlidir. Veri cihazdan hiç çıkmadığı için ağ üzerinde dinlenme, bulut tarafında saklanma veya üçüncü taraf erişimi riski ortadan kalkar; bu, sağlık, finans ve kişisel mesajlaşma gibi hassas senaryolarda KVKK/GDPR uyumunu büyük ölçüde basitleştirir. Ancak güvenlik mutlak değildir: cihaz ele geçirilirse model ve veri risk altındadır, bu yüzden cihaz şifreleme ve güvenli enclave kullanımı hâlâ gereklidir.

Hibrit cihaz-bulut mimarisi ne zaman tercih edilmeli?

Neredeyse her üretim senaryosunda. Hibrit mimari, basit ve gizlilik-hassas görevleri (özetleme, akıllı yanıt, sınıflandırma) cihazda çalıştırarak maliyet ve gecikme kazandırırken; karmaşık akıl yürütme veya geniş bilgi gerektiren sorguları buluta yönlendirerek yetenek sınırını aşar. Apple Intelligence ve Google AICore bu deseni benimser. Karar mantığı maliyet-gizlilik-yetenek üçgenine dayanır: görev cihazda yeterli kaliteyle çalışıyorsa cihazda kalır, yoksa buluta yönlendirilir.

Ömer ÖNAL

Yazılım Mimarı | Yapay Zeka LLC. Ölçeklenebilir SaaS, .NET Core altyapıları ve Otonom AI süreçleri inşa ediyorum. Kod değil, sistem tasarlarım.

Yorum (1)

  1. Ömer ÖNAL
    Haziran 14, 2026

    On-device AI’da en büyük hata her şeyi cihaza taşımaya çalışmak. Müşterilerime önce şunu listeletiyorum: hangi görev gerçekten gizlilik veya çevrimdışı zorunluluğu taşıyor? Sadece onlar cihaza gider. O görevler için Llama 3.2 1B/3B veya Phi-3-mini’yi 4-bit nicemlemeyle prototiple, pil ve bellek etkisini gerçek cihazda ölç. Gerisini buluta bırak. SLM dar görevde harika, genel bilgide zayıf; bunu kabul edip hibrit yönlendirme kur.

Yorum Yap

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir