Computer Vision Production 2026: YOLO+SAM+Edge Rehberi

Haziran 24, 2026Ömer ÖNAL1 Yorum

Bilgisayar görmesi (computer vision), 2026 itibarıyla AI uygulamalarının %37’sini oluşturan en büyük domainlerden biri. Perakende, üretim, sağlık, güvenlik, otomotiv, tarım — neredeyse her sektör görüntü işleme tabanlı bir özelliğe sahip. Ancak production CV sistemlerinin %64’ü ya doğruluk sorunu ya da performans (latency, throughput) yetersizliği yüzünden tam fayda sağlayamıyor (Gartner CV Maturity 2026). Doğru tasarlanmış bir üretim mimarisi — YOLO + SAM + ONNX/TensorRT — bu sorunları çözer. Konuyla ilişkili olarak Edge AI Deployment 2026: ONNX, TensorRT ve CoreML Üretim Pattern'leri rehberimiz detaylı incelemeyi içerir. Konuyla ilişkili olarak Distributed Training 2026: PyTorch FSDP ve DeepSpeed Stage 3 Production rehberimiz detaylı incelemeyi içerir.

2024-2026 arasında bu alandaki en büyük kırılma vision foundation modelleri: Meta’nın SAM 2, Ultralytics YOLOv10, Google’ın Gemini Vision ve OpenAI GPT-4o görsel modülleri artık birleşik bir stack olarak çalışıyor. Bu rehberde modern CV stack’ini, model seçimini (object detection, segmentation, classification), deployment optimizasyonunu, edge deployment senaryolarını ve gerçek dünyadaki performans rakamlarını somut sayılarla aktarıyoruz.

📖 8 dakikalık okuma

İçindekiler

CV Task Tipleri
Model Aileleri (2026)
Production Inference Optimizasyonu
Model Serving Platforms
Yaygın Üretim Senaryoları
Data ve Annotation
Edge Deployment
MLOps ve Monitoring
Maliyet ve Süre
Sık Sorulan Sorular
Sonuç

CV Task Tipleri

Modern CV stack’ini doğru kurmak için önce hangi task’larla çalıştığınızı netleştirmeniz şart. Saha pratiğinde aynı uygulamada 3-5 farklı task birlikte çalışır: detection + classification + OCR + tracking gibi. Doğru pipeline’da her task’a uygun model seçilir ve sonuçlar birleştirilir.

Image classification: Görüntünün bütünü için tek etiket (örn. “kedi”, “köpek”). ConvNeXt, EfficientNet, ViT.
Object detection: Bounding box + class. YOLO, RT-DETR, DETR.
Semantic segmentation: Her pixel’in class’ı. DeepLab, SegFormer, Mask2Former.
Instance segmentation: Her object’in pixel maskesi. Mask R-CNN, YOLOv8-seg.
Pose estimation: İnsan vücudu landmark’ları. MediaPipe, OpenPose, ViTPose.
Optical Character Recognition (OCR): Metin tanıma. Tesseract, EasyOCR, TrOCR, PaddleOCR.
Face recognition: Kimlik doğrulama. ArcFace, FaceNet, InsightFace.
Image generation: Diffusion model (Stable Diffusion, FLUX).
Multi-modal: Vision-language (LLaVA, GPT-4o, Gemini Vision).

Model Aileleri (2026)

Aile	Task	Speed	Accuracy
YOLOv9 / YOLOv10	Object detection	Çok hızlı (150+ FPS)	Üst seviye
RT-DETR	Object detection	Hızlı (80 FPS)	SOTA
SAM 2 (Segment Anything)	Promptable segmentation	Orta (15-40 FPS)	SOTA
SegFormer / DeepLabV3+	Semantic segmentation	Orta	Çok iyi
EfficientNet / ConvNeXt	Classification	Çok hızlı	İyi
ViT (Vision Transformer)	Classification	Orta	SOTA
FLUX / SD 3.5	Generation	2-5 saniye/image	SOTA
GroundingDINO + SAM	Text-guided segmentation	Yavaş	Çok güçlü
DINOv2 / DINOv3	Self-supervised features	Orta	Transfer için ideal

Computer vision uretim dashboard YOLO detection inference latency throughput

Production Inference Optimizasyonu

CV modellerinin üretimde verimli çalışması için inference optimization şart. PyTorch eager mode ile geliştirme yapıp prod’a aynı şekilde deploy etmek tipik bir Türkiye pazarı hatası — TensorRT veya ONNX Runtime kullanılmadığında latency 3-5x daha yüksek, GPU maliyeti orantılı yüksek. NVIDIA’nın yayınladığı TensorRT inference optimization guide bu konuda referans kaynak.

1. Model Quantization

FP32 → FP16: Bellek %50, hız 1.5-2x. Doğruluk kaybı minimal.
FP16 → INT8: Bellek %75, hız 2-4x. <%1 doğruluk kaybı (post-training quant).
QAT (Quantization Aware Training): INT8’de daha az doğruluk kaybı.
Pratik: NVIDIA TensorRT INT8 ile en iyi sonuç (GPU).
FP4 / INT4: 2025 sonrası NVIDIA Hopper/Blackwell GPU’larda destekli.

2. ONNX Runtime / TensorRT

PyTorch model → ONNX export → TensorRT engine.
YOLO için TensorRT INT8: 3-5x daha hızlı bare PyTorch’a göre.
CPU için ONNX Runtime + OpenVINO (Intel).
Edge için TFLite veya CoreML.
Apple Silicon için CoreML INT8: M-series Neural Engine’i tam kullanır.

3. Batch Processing

Tek görüntü inference’ı: 30 ms (V100).
8 görüntü batch: toplam 50 ms = 6,25 ms/img.
32 görüntü batch: toplam 120 ms = 3,75 ms/img.
Dynamic batching (NVIDIA Triton Server) ile bekleyen istekler birleştirilir.
Latency-throughput tradeoff: max queue delay ayarı kritik.

Model Serving Platforms

Platform	Best for	Throughput
NVIDIA Triton Inference Server	Yüksek throughput, multi-model	1.000-5.000 req/s
BentoML	Python-first, MLOps	200-1.000 req/s
TorchServe	PyTorch native	300-1.500 req/s
KServe (Kubernetes)	Kubernetes native	Scaled by replica
Modal / Replicate	Serverless	0-2 saniye cold start
RunPod / Vast.ai	Cheap GPU rent	Tüm yelpaze
Ray Serve	Multi-model + Python ecosystem	500-2.000 req/s

Neural network mimari diagram CNN transformer vision model katmanlari

Yaygın Üretim Senaryoları

CV modellerinin gerçek iş etkisi sektör-bağlamlı. Aynı YOLO modeli perakende rafında ürün sayar, üretim hattında defekt yakalar, tarımda hastalık tespit eder. Pipeline tasarımı task’tan çok deployment ortamına ve maliyet kısıtına göre değişir. Anomaly detection rehberimiz CV ile birleşen kalite kontrol senaryolarını detaylandırıyor.

1. Perakende: Raf Analizi

Mağaza içi kameralardan görüntü.
YOLO ile ürün sayımı + stok eksiklik.
OCR ile fiyat etiketi doğrulama.
Tipik dağıtım: 100-500 mağaza × 5-20 kamera = 5.000+ cihaz.
Edge inference (Jetson Orin) + bulut analiz.
İş etkisi: stockout süresi %35-50 azalır, planogram uyumu %20+ artar.

2. Üretim: Kalite Kontrol

Üretim hattında 30-60 FPS kamera.
Defekt sınıflandırma + lokasyon.
Tipik doğruluk hedefi: %99,5+ recall (geç kaçırılan hata pahalı).
Active learning ile sürekli model iyileştirme.
Anomaly detection (autoencoder) ile bilinmeyen defekt tipi yakalama.

3. Tarım: NDVI ve Hastalık Tespiti

Drone multispektral görüntü.
NDVI hesaplama (Red + NIR).
CNN ile hastalık tespiti.
Tile-based processing (50+ MB ortomozaik).
SAM 2 ile parsel sınırı segmentation otomatik.

4. Sağlık: Radyoloji Asistanı

DICOM görüntü (CT, MRI, X-ray).
Lezyon detection + segmentation.
FDA/CE onayı süreci.
Radyoloğun karar destek aracı, asla “tek karar verici”.
Açıklanabilirlik (Grad-CAM, attention maps) zorunlu.

Data ve Annotation

Annotation tools: Label Studio (open source), CVAT, Roboflow.
Pre-label: SAM 2 ile otomatik segment, insan düzeltir. %80 daha hızlı.
Synthetic data: Unity Perception, NVIDIA Omniverse — rare event’ler için.
Quality assurance: Inter-annotator agreement (Cohen’s kappa).
Active learning: Modelin emin olmadığı örnekleri öncelikli etiket.
Foundation model embedding: DINOv2 ile feature extraction → benzer örnekleri otomatik bul.

Bilgisayar gormesi muhendislik ekibi annotation ve model gelisitirme

Edge Deployment

Edge CV deployment, bulut maliyetini ve latency’yi kritik düşürür. Saha pratiğinde 1.000+ kameralı dağıtımlarda bulut inference yıllık 8-15M TL ek maliyet getirirken Jetson Orin tabanlı edge çözüm bu maliyetin %20-30’una iniyor. Hibrit mimari (edge’de detection, bulut’ta detaylı analiz + retrain) artık standart.

Donanım	Performans	Maliyet
NVIDIA Jetson Orin Nano	40 TOPS	500 USD
NVIDIA Jetson Orin NX	100 TOPS	900 USD
NVIDIA Jetson AGX Orin	275 TOPS	2.000 USD
Google Coral (Edge TPU)	4 TOPS	60 USD
Hailo-15M	26 TOPS	120 USD
Apple Neural Engine (M1+)	15-30 TOPS	iOS/macOS dahil
Raspberry Pi 5 + AI HAT	13 TOPS	180 USD

MLOps ve Monitoring

Drift detection: Image distribution drift (FID, KID), prediction drift (confidence dağılımı kayması).
Shadow deployment: Yeni model üretim verisi üzerinde sessiz çalışsın, performans karşılaştırılsın.
A/B testing: Canary release ile %10 trafiğe yeni model.
Continuous training: Yeni labeled data ile haftalık/aylık retrain.
Model registry: MLflow, Weights & Biases — versiyonlama ve rollback.
Edge fleet management: AWS Greengrass, Azure IoT Edge, NVIDIA Fleet Command.

Maliyet ve Süre

Kapsam	Süre	Maliyet (TL)
MVP: tek model (YOLO) + REST API	2-4 ay	350.000-650.000
Orta: + segmentation + custom training	5-8 ay	900.000-1.700.000
Enterprise: edge dağıtım + monitoring	10-14 ay	2.200.000-4.500.000
Aylık GPU operasyon	—	30.000-180.000
1.000 cihaz edge fleet management	—	45.000-120.000/ay

Sık Sorulan Sorular

YOLOv8 mi yoksa v9/v10 mu?

v8 hâlâ en stabil ve dökümante. v10 daha hızlı + license sorunsuz (AGPL yerine). Yeni proje için v9 veya v10 önerilir. Türkiye’de kurumsal projelerde AGPL şartı tedirginlik yarattığı için v10’un Apache 2.0 lisansı tercih ediliyor.

Bulut mu yoksa edge mi?

Latency < 100 ms kritikse edge (Jetson). Maliyet hassasiyet ve yüksek throughput için bulut (Triton + L4 GPU). Hibrit en yaygın: edge’de detection, bulut’ta detaylı analiz. Bağlantı zayıf veya offline çalışması gereken senaryolarda edge zorunlu.

SAM nasıl pratik kullanılır?

Promptable: tıklama veya bbox ile segmentation. Annotation hızlandırma, içerik düzenleme, e-ticaret arka plan kaldırma için ideal. SAM 2 video desteği ile gerçek zamanlı tracking yapabiliyor. Saha pratiğinde GroundingDINO + SAM kombinasyonu metin promptu ile segmentation veriyor.

OCR için Tesseract yeterli mi?

Basit Latin metin için evet. Çok dilli, el yazısı, kötü kalite görüntüde TrOCR veya Google Document AI daha iyi. Türkçe için EasyOCR sıkça tercih ediliyor; fatura/belge işleme için PaddleOCR de güçlü bir alternatif.

Custom CV model eğitmek ne kadar süre alır?

Veri toplama + annotation 4-8 hafta (1K-10K image), training 1-2 hafta GPU üzerinde, validation + iteration 2-4 hafta. Toplam tipik 3-5 ay. Pre-label + SAM 2 + active learning ile bu süre %40 kısalabilir.

Ömer Önal’dan pratik not: Üretim CV projelerinde gözlemlediğim en kritik karar, “edge mi bulut mu” sorusundan önce gelir: hangi kameralarla hangi açıdan veri topluyorsunuz? Saha pratiğinde modelin doğruluk problemi %70 oranında data quality kaynaklı oluyor — kamera açısı, aydınlatma, lens distortion, frame rate. Veri toplama protokolünü ilk haftada netleştirmeden modele bütçe ayırmak, sonradan %25-40 doğruluk farkı yaratan bir hata. Türkiye’de raf analizi, üretim hattı kalite kontrol projelerinde “önce 50 örnek annotate et + baseline kur” felsefesi 4-6 hafta zaman + 200-400K TL bütçe kazandırıyor. Sizin projenizde annotation pipeline’ı pre-label destekli mi yoksa hâlâ manuel mi yapılıyor?

Sonuç

Production computer vision, doğru model + optimizasyon (TensorRT + INT8) + ölçeklenebilir serving (Triton) + monitoring kombinasyonuyla teknolojik istisnadan iş kuralına dönüştü. Doğru tasarım ile inference latency 3-5x azalır, GPU maliyeti %60-70 düşer, doğruluk SOTA seviyelere ulaşır. CV pipeline’ınızı time-series forecasting ile birleştirip kamera-bazlı anomali tahmini yapabilir, anomaly detection rehberimizdeki autoencoder pattern’ları ile bilinmeyen defekt tespiti kurabilir, MLOps canary deployment ile yeni model versiyonlarını güvenli yayınlayabilirsiniz. İletişim formundan projeniz için CV mimari değerlendirme talep edebilirsiniz.

Dış otorite kaynaklar: YOLO Ultralytics · Segment Anything · NVIDIA TensorRT Guide · Hugging Face Vision Models

Ömer ÖNAL

Yazılım Mimarı | Yapay Zeka LLC. Ölçeklenebilir SaaS, .NET Core altyapıları ve Otonom AI süreçleri inşa ediyorum. Kod değil, sistem tasarlarım.

Yorum (1)

Ömer ÖNAL
Mayıs 17, 2026
Yanıtla

Türkiye’de üretim hattı kalite kontrol ve perakende raf analizi projelerinde gözlemlediğim en kritik kırılma, “model doğruluğu” sorununun aslında “data quality” sorunu olduğunun fark edilmesi. Saha pratiğinde modelin %95’ten %99’a çıkması çoğu zaman 6 ay GPU eğitim değil, 4 hafta kamera açısı + aydınlatma + frame rate protokolü düzeltme ile geliyor. Bir diğer detay: TensorRT INT8 quantization’ı atlayan ekipler GPU maliyetini 3-5x fazla ödüyor — saatte 10K resim işleyen bir pipeline için bu yıllık 2-4M TL fark anlamına geliyor. SAM 2 pre-label + active learning kombinasyonu annotation maliyetini %60-80 düşürüyor, bu pattern 2026’da artık standart. Sizin CV projenizde annotation pipeline pre-label destekli mi, yoksa hâlâ manuel mi yapılıyor?

Our Gallery

Contact Info

Computer Vision Production 2026: YOLO, SAM, TensorRT ile Üretim Mimarisi

CV Task Tipleri

Model Aileleri (2026)