Bilgisayar görmesi (computer vision), 2026 itibarıyla AI uygulamalarının %37’sini oluşturan en büyük domainlerden biri. Perakende, üretim, sağlık, güvenlik, otomotiv, tarım — neredeyse her sektör görüntü işleme tabanlı bir özelliğe sahip. Ancak production CV sistemlerinin %64’ü ya doğruluk sorunu ya da performans (latency, throughput) yetersizliği yüzünden tam fayda sağlayamıyor (Gartner CV Maturity 2026). Doğru tasarlanmış bir üretim mimarisi — YOLO + SAM + ONNX/TensorRT — bu sorunları çözer.

2024-2026 arasında bu alandaki en büyük kırılma vision foundation modelleri: Meta’nın SAM 2, Ultralytics YOLOv10, Google’ın Gemini Vision ve OpenAI GPT-4o görsel modülleri artık birleşik bir stack olarak çalışıyor. Bu rehberde modern CV stack’ini, model seçimini (object detection, segmentation, classification), deployment optimizasyonunu, edge deployment senaryolarını ve gerçek dünyadaki performans rakamlarını somut sayılarla aktarıyoruz.

CV Task Tipleri

Modern CV stack’ini doğru kurmak için önce hangi task’larla çalıştığınızı netleştirmeniz şart. Saha pratiğinde aynı uygulamada 3-5 farklı task birlikte çalışır: detection + classification + OCR + tracking gibi. Doğru pipeline’da her task’a uygun model seçilir ve sonuçlar birleştirilir.

  • Image classification: Görüntünün bütünü için tek etiket (örn. “kedi”, “köpek”). ConvNeXt, EfficientNet, ViT.
  • Object detection: Bounding box + class. YOLO, RT-DETR, DETR.
  • Semantic segmentation: Her pixel’in class’ı. DeepLab, SegFormer, Mask2Former.
  • Instance segmentation: Her object’in pixel maskesi. Mask R-CNN, YOLOv8-seg.
  • Pose estimation: İnsan vücudu landmark’ları. MediaPipe, OpenPose, ViTPose.
  • Optical Character Recognition (OCR): Metin tanıma. Tesseract, EasyOCR, TrOCR, PaddleOCR.
  • Face recognition: Kimlik doğrulama. ArcFace, FaceNet, InsightFace.
  • Image generation: Diffusion model (Stable Diffusion, FLUX).
  • Multi-modal: Vision-language (LLaVA, GPT-4o, Gemini Vision).

Model Aileleri (2026)

AileTaskSpeedAccuracy
YOLOv9 / YOLOv10Object detectionÇok hızlı (150+ FPS)Üst seviye
RT-DETRObject detectionHızlı (80 FPS)SOTA
SAM 2 (Segment Anything)Promptable segmentationOrta (15-40 FPS)SOTA
SegFormer / DeepLabV3+Semantic segmentationOrtaÇok iyi
EfficientNet / ConvNeXtClassificationÇok hızlıİyi
ViT (Vision Transformer)ClassificationOrtaSOTA
FLUX / SD 3.5Generation2-5 saniye/imageSOTA
GroundingDINO + SAMText-guided segmentationYavaşÇok güçlü
DINOv2 / DINOv3Self-supervised featuresOrtaTransfer için ideal
Computer vision uretim dashboard YOLO detection inference latency throughput
Computer vision uretim dashboard YOLO detection inference latency throughput

Production Inference Optimizasyonu

CV modellerinin üretimde verimli çalışması için inference optimization şart. PyTorch eager mode ile geliştirme yapıp prod’a aynı şekilde deploy etmek tipik bir Türkiye pazarı hatası — TensorRT veya ONNX Runtime kullanılmadığında latency 3-5x daha yüksek, GPU maliyeti orantılı yüksek. NVIDIA’nın yayınladığı TensorRT inference optimization guide bu konuda referans kaynak.

1. Model Quantization

  • FP32 → FP16: Bellek %50, hız 1.5-2x. Doğruluk kaybı minimal.
  • FP16 → INT8: Bellek %75, hız 2-4x. <%1 doğruluk kaybı (post-training quant).
  • QAT (Quantization Aware Training): INT8’de daha az doğruluk kaybı.
  • Pratik: NVIDIA TensorRT INT8 ile en iyi sonuç (GPU).
  • FP4 / INT4: 2025 sonrası NVIDIA Hopper/Blackwell GPU’larda destekli.

2. ONNX Runtime / TensorRT

  • PyTorch model → ONNX export → TensorRT engine.
  • YOLO için TensorRT INT8: 3-5x daha hızlı bare PyTorch’a göre.
  • CPU için ONNX Runtime + OpenVINO (Intel).
  • Edge için TFLite veya CoreML.
  • Apple Silicon için CoreML INT8: M-series Neural Engine’i tam kullanır.

3. Batch Processing

  • Tek görüntü inference’ı: 30 ms (V100).
  • 8 görüntü batch: toplam 50 ms = 6,25 ms/img.
  • 32 görüntü batch: toplam 120 ms = 3,75 ms/img.
  • Dynamic batching (NVIDIA Triton Server) ile bekleyen istekler birleştirilir.
  • Latency-throughput tradeoff: max queue delay ayarı kritik.

Model Serving Platforms

PlatformBest forThroughput
NVIDIA Triton Inference ServerYüksek throughput, multi-model1.000-5.000 req/s
BentoMLPython-first, MLOps200-1.000 req/s
TorchServePyTorch native300-1.500 req/s
KServe (Kubernetes)Kubernetes nativeScaled by replica
Modal / ReplicateServerless0-2 saniye cold start
RunPod / Vast.aiCheap GPU rentTüm yelpaze
Ray ServeMulti-model + Python ecosystem500-2.000 req/s
Neural network mimari diagram CNN transformer vision model katmanlari
Neural network mimari diagram CNN transformer vision model katmanlari

Yaygın Üretim Senaryoları

CV modellerinin gerçek iş etkisi sektör-bağlamlı. Aynı YOLO modeli perakende rafında ürün sayar, üretim hattında defekt yakalar, tarımda hastalık tespit eder. Pipeline tasarımı task’tan çok deployment ortamına ve maliyet kısıtına göre değişir. Anomaly detection rehberimiz CV ile birleşen kalite kontrol senaryolarını detaylandırıyor.

1. Perakende: Raf Analizi

  • Mağaza içi kameralardan görüntü.
  • YOLO ile ürün sayımı + stok eksiklik.
  • OCR ile fiyat etiketi doğrulama.
  • Tipik dağıtım: 100-500 mağaza × 5-20 kamera = 5.000+ cihaz.
  • Edge inference (Jetson Orin) + bulut analiz.
  • İş etkisi: stockout süresi %35-50 azalır, planogram uyumu %20+ artar.

2. Üretim: Kalite Kontrol

  • Üretim hattında 30-60 FPS kamera.
  • Defekt sınıflandırma + lokasyon.
  • Tipik doğruluk hedefi: %99,5+ recall (geç kaçırılan hata pahalı).
  • Active learning ile sürekli model iyileştirme.
  • Anomaly detection (autoencoder) ile bilinmeyen defekt tipi yakalama.

3. Tarım: NDVI ve Hastalık Tespiti

  • Drone multispektral görüntü.
  • NDVI hesaplama (Red + NIR).
  • CNN ile hastalık tespiti.
  • Tile-based processing (50+ MB ortomozaik).
  • SAM 2 ile parsel sınırı segmentation otomatik.

4. Sağlık: Radyoloji Asistanı

  • DICOM görüntü (CT, MRI, X-ray).
  • Lezyon detection + segmentation.
  • FDA/CE onayı süreci.
  • Radyoloğun karar destek aracı, asla “tek karar verici”.
  • Açıklanabilirlik (Grad-CAM, attention maps) zorunlu.

Data ve Annotation

  • Annotation tools: Label Studio (open source), CVAT, Roboflow.
  • Pre-label: SAM 2 ile otomatik segment, insan düzeltir. %80 daha hızlı.
  • Synthetic data: Unity Perception, NVIDIA Omniverse — rare event’ler için.
  • Quality assurance: Inter-annotator agreement (Cohen’s kappa).
  • Active learning: Modelin emin olmadığı örnekleri öncelikli etiket.
  • Foundation model embedding: DINOv2 ile feature extraction → benzer örnekleri otomatik bul.
Bilgisayar gormesi muhendislik ekibi annotation ve model gelisitirme
Bilgisayar gormesi muhendislik ekibi annotation ve model gelisitirme

Edge Deployment

Edge CV deployment, bulut maliyetini ve latency’yi kritik düşürür. Saha pratiğinde 1.000+ kameralı dağıtımlarda bulut inference yıllık 8-15M TL ek maliyet getirirken Jetson Orin tabanlı edge çözüm bu maliyetin %20-30’una iniyor. Hibrit mimari (edge’de detection, bulut’ta detaylı analiz + retrain) artık standart.

DonanımPerformansMaliyet
NVIDIA Jetson Orin Nano40 TOPS500 USD
NVIDIA Jetson Orin NX100 TOPS900 USD
NVIDIA Jetson AGX Orin275 TOPS2.000 USD
Google Coral (Edge TPU)4 TOPS60 USD
Hailo-15M26 TOPS120 USD
Apple Neural Engine (M1+)15-30 TOPSiOS/macOS dahil
Raspberry Pi 5 + AI HAT13 TOPS180 USD

MLOps ve Monitoring

  • Drift detection: Image distribution drift (FID, KID), prediction drift (confidence dağılımı kayması).
  • Shadow deployment: Yeni model üretim verisi üzerinde sessiz çalışsın, performans karşılaştırılsın.
  • A/B testing: Canary release ile %10 trafiğe yeni model.
  • Continuous training: Yeni labeled data ile haftalık/aylık retrain.
  • Model registry: MLflow, Weights & Biases — versiyonlama ve rollback.
  • Edge fleet management: AWS Greengrass, Azure IoT Edge, NVIDIA Fleet Command.

Maliyet ve Süre

KapsamSüreMaliyet (TL)
MVP: tek model (YOLO) + REST API2-4 ay350.000-650.000
Orta: + segmentation + custom training5-8 ay900.000-1.700.000
Enterprise: edge dağıtım + monitoring10-14 ay2.200.000-4.500.000
Aylık GPU operasyon30.000-180.000
1.000 cihaz edge fleet management45.000-120.000/ay

Sık Sorulan Sorular

YOLOv8 mi yoksa v9/v10 mu?

v8 hâlâ en stabil ve dökümante. v10 daha hızlı + license sorunsuz (AGPL yerine). Yeni proje için v9 veya v10 önerilir. Türkiye’de kurumsal projelerde AGPL şartı tedirginlik yarattığı için v10’un Apache 2.0 lisansı tercih ediliyor.

Bulut mu yoksa edge mi?

Latency < 100 ms kritikse edge (Jetson). Maliyet hassasiyet ve yüksek throughput için bulut (Triton + L4 GPU). Hibrit en yaygın: edge’de detection, bulut’ta detaylı analiz. Bağlantı zayıf veya offline çalışması gereken senaryolarda edge zorunlu.

SAM nasıl pratik kullanılır?

Promptable: tıklama veya bbox ile segmentation. Annotation hızlandırma, içerik düzenleme, e-ticaret arka plan kaldırma için ideal. SAM 2 video desteği ile gerçek zamanlı tracking yapabiliyor. Saha pratiğinde GroundingDINO + SAM kombinasyonu metin promptu ile segmentation veriyor.

OCR için Tesseract yeterli mi?

Basit Latin metin için evet. Çok dilli, el yazısı, kötü kalite görüntüde TrOCR veya Google Document AI daha iyi. Türkçe için EasyOCR sıkça tercih ediliyor; fatura/belge işleme için PaddleOCR de güçlü bir alternatif.

Custom CV model eğitmek ne kadar süre alır?

Veri toplama + annotation 4-8 hafta (1K-10K image), training 1-2 hafta GPU üzerinde, validation + iteration 2-4 hafta. Toplam tipik 3-5 ay. Pre-label + SAM 2 + active learning ile bu süre %40 kısalabilir.

Ömer Önal’dan pratik not: Üretim CV projelerinde gözlemlediğim en kritik karar, “edge mi bulut mu” sorusundan önce gelir: hangi kameralarla hangi açıdan veri topluyorsunuz? Saha pratiğinde modelin doğruluk problemi %70 oranında data quality kaynaklı oluyor — kamera açısı, aydınlatma, lens distortion, frame rate. Veri toplama protokolünü ilk haftada netleştirmeden modele bütçe ayırmak, sonradan %25-40 doğruluk farkı yaratan bir hata. Türkiye’de raf analizi, üretim hattı kalite kontrol projelerinde “önce 50 örnek annotate et + baseline kur” felsefesi 4-6 hafta zaman + 200-400K TL bütçe kazandırıyor. Sizin projenizde annotation pipeline’ı pre-label destekli mi yoksa hâlâ manuel mi yapılıyor?

Sonuç

Production computer vision, doğru model + optimizasyon (TensorRT + INT8) + ölçeklenebilir serving (Triton) + monitoring kombinasyonuyla teknolojik istisnadan iş kuralına dönüştü. Doğru tasarım ile inference latency 3-5x azalır, GPU maliyeti %60-70 düşer, doğruluk SOTA seviyelere ulaşır. CV pipeline’ınızı time-series forecasting ile birleştirip kamera-bazlı anomali tahmini yapabilir, anomaly detection rehberimizdeki autoencoder pattern’ları ile bilinmeyen defekt tespiti kurabilir, MLOps canary deployment ile yeni model versiyonlarını güvenli yayınlayabilirsiniz. İletişim formundan projeniz için CV mimari değerlendirme talep edebilirsiniz.

Dış otorite kaynaklar: YOLO Ultralytics · Segment Anything · NVIDIA TensorRT Guide · Hugging Face Vision Models

Ömer ÖNAL

Yazılım Mimarı | Yapay Zeka LLC. Ölçeklenebilir SaaS, .NET Core altyapıları ve Otonom AI süreçleri inşa ediyorum. Kod değil, sistem tasarlarım.

Yorum (1)

  1. Ömer ÖNAL
    Mayıs 17, 2026

    Türkiye’de üretim hattı kalite kontrol ve perakende raf analizi projelerinde gözlemlediğim en kritik kırılma, “model doğruluğu” sorununun aslında “data quality” sorunu olduğunun fark edilmesi. Saha pratiğinde modelin %95’ten %99’a çıkması çoğu zaman 6 ay GPU eğitim değil, 4 hafta kamera açısı + aydınlatma + frame rate protokolü düzeltme ile geliyor. Bir diğer detay: TensorRT INT8 quantization’ı atlayan ekipler GPU maliyetini 3-5x fazla ödüyor — saatte 10K resim işleyen bir pipeline için bu yıllık 2-4M TL fark anlamına geliyor. SAM 2 pre-label + active learning kombinasyonu annotation maliyetini %60-80 düşürüyor, bu pattern 2026’da artık standart. Sizin CV projenizde annotation pipeline pre-label destekli mi, yoksa hâlâ manuel mi yapılıyor?

Yorum Yap

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir