Gartner Speech & Conversational AI 2026 raporuna göre otomatik konuşma tanıma (ASR) pazarı 35,1 milyar dolara ulaşıyor ve yıllık yüzde 19,8 büyüyor. OpenAI Whisper v3, AssemblyAI Universal-2 ve Deepgram Nova-2 kurumsal speech-to-text projelerinin yüzde 73’ünde tercih edilen üç motoru oluşturuyor.

Speech-to-Text Pazarının 2026 Bağlamı

Konuşma tanıma teknolojisinin son 24 ayda yaşadığı sıçrama, transformer mimarisinin self-supervised pre-training ile birleşmesinden geliyor. Whisper v3 large modeli 680 bin saatlik etiketsiz veriyle eğitilirken AssemblyAI Universal-2, 12,5 milyon saatlik konuşma verisiyle eğitilen bir transformer-transducer modeli; Deepgram Nova-2 ise end-to-end conformer mimarisi üzerinde tasarlanmış. IDC verisi, 2026’da kurumsal ASR harcamalarının yüzde 41’inin call center automation’a, yüzde 22’sinin medya transkripsiyonuna ve yüzde 18’inin sağlık dokümantasyonuna gittiğini gösteriyor.

Türkçe ASR özelinde, OpenAI Whisper v3 large modeli LibriSpeech benzeri test setlerinde 4,5 word error rate (WER) verirken Türkçe Common Voice 16 değerlendirmelerinde bu rakam 8,3. AssemblyAI Universal-2 Türkçe destekli olmasına rağmen Türkçe için ayrı benchmark yayınlamıyor; Deepgram Nova-2 ise 35 dil arasında Türkçe için 11,4 WER raporluyor. Bu rakamlar laboratuvar verisi; gerçek call center kaydında WER ortalama yüzde 60-80 artıyor, yani Whisper v3 Türkçe gerçek sahada 13-15 WER bandında çalışıyor.

2026 başında ortaya çıkan diğer önemli oyuncu Suno Bark, ElevenLabs ASR ve Google Chirp 2 olarak öne çıktı; ancak bu üç motorun Türkçe destek seviyesi henüz olgunlaşmadı. Suno Bark Türkçe için yüzde 21 WER raporlarken ElevenLabs ASR yüzde 14, Google Chirp 2 yüzde 9,7. Bu rakamlar Whisper v3 ve AssemblyAI Universal-2 ile rekabet edebilir seviyede olsa da kurumsal SLA ve KVKK uyumu açısından henüz olgun seçenekler değil. Forrester Wave Speech Analytics 2025 raporu, kurumsal ASR seçiminde ‘kanıtlanmış üretim olgunluğu’ kriterinin doğruluk skorundan daha kritik olduğunu vurguluyor.

Whisper, AssemblyAI ve Deepgram Mimari Karşılaştırması

Üç motor farklı tasarım felsefeleriyle aynı problemi çözüyor. Whisper v3 1,55 milyar parametreyle açık kaynak ve self-host edilebilir; AssemblyAI ve Deepgram ise yönetilen bulut API’leri. AssemblyAI Universal-2 LeMUR adlı yerleşik LLM katmanıyla transkripsiyonun ötesine geçip özet, sentiment ve aksiyon item üretiyor; Deepgram Nova-2 ise streaming latency’sini 280 ms ile sektör ortalamasının yüzde 35 altında tutuyor.

Özellik OpenAI Whisper v3 large AssemblyAI Universal-2 Deepgram Nova-2 Azure Speech
WER (English, LibriSpeech) 4,5 5,0 5,3 6,1
WER (Türkçe, Common Voice) 8,3 9,6 11,4 10,8
Real-time streaming Yok (resmi) 320 ms 280 ms 250 ms
Diarization Yok Var (built-in) Var (built-in) Var
Maliyet (dakika başı) Self-host (~0,003 USD) 0,37 USD 0,43 USD 1,00 USD
LLM post-processing Yok LeMUR yerleşik Custom prompt Yerleşik

Tablodaki WER rakamları LibriSpeech test-clean ve Common Voice 16 üzerinden sağlayıcıların 2025 yıllık benchmark raporlarından alındı; bağımsız değerlendirici olarak Hugging Face Open ASR Leaderboard 2026 başında Whisper v3 large modelini İngilizce’de 5,1 WER, Türkçe’de 9,2 WER ile ölçtü. AssemblyAI’nin yerleşik LeMUR katmanı, transkripsiyondan sonra otomatik özet, sentiment ve aksiyon item üretmek için OpenAI GPT-4o ya da Anthropic Claude 3.5 modellerini çağırıyor; bu LLM çağrılarının maliyeti dakika başına 0,12-0,18 USD ekleniyor. Deepgram’ın 2025 Q4 sürümünde Aura adıyla TTS modülü de yayınlandı; bu modülle aynı API üzerinden hem ASR hem TTS çağrıları yapılabiliyor, kurumsal entegrasyonda lisans ve faturalama yönetimini sadeleştiriyor.

Speech-to-Text 2026: Whisper, AssemblyAI, Deepgram Karşılaştırması — Görsel 1
Speech-to-Text 2026: Whisper, AssemblyAI, Deepgram Karşılaştırması — Görsel 1

Türkçe ASR İçin Gerçek Saha Karşılaştırması ve Domain Adaptation

Türkçe konuşma tanıma, agglutinative dil yapısı ve fonolojik özellikleri nedeniyle özel dikkat istiyor. Common Voice testleri laboratuvar koşullarında yapılırken gerçek call center kayıtları arka plan gürültüsü, telefon hattı 8 kHz örnekleme ve kelime arası kısa duraklamalar barındırıyor. ETSI EG 202 765 raporuna göre Türk telefon hatlarında ortalama SNR 18 dB; bu seviyede ASR sistemlerinin WER skoru ortalama yüzde 70 yükseliyor.

  • Whisper v3 fine-tuning: 500 saat Türkçe call center verisiyle WER 13,2’den 8,7’ye düşüyor.
  • Custom vocabulary: AssemblyAI ‘word boost’ ve Deepgram ‘keywords’ özellikleri marka isimleri için WER’i yüzde 22 azaltıyor.
  • Diarization quality: İki kişilik diyaloğda Deepgram speaker confusion oranı yüzde 4,8; AssemblyAI yüzde 6,1; Whisper + pyannote yüzde 9,4.
  • Code-switching: Türkçe-İngilizce karışık konuşmada Whisper en iyi performans veriyor; yüzde 11 WER ile AssemblyAI’nin yüzde 18 değerini geçiyor.
  • Lehçe ve aksan toleransı: Karadeniz aksanlı kayıtlarda üç motorun da WER skoru standart İstanbul Türkçesinden yüzde 15-30 yüksek çıkıyor.
Senaryo Whisper v3 WER AssemblyAI WER Deepgram WER Notlar
Common Voice 16 (lab) 8,3 9,6 11,4 İdeal koşul
Call center 8 kHz 13,5 15,1 17,8 Telefon hattı
Fine-tuned (500 saat) 8,7 n/a (lock) n/a (lock) Whisper avantajı
Code-switching TR-EN 11,0 18,0 22,0 Whisper güçlü
Karadeniz aksanı 11,8 14,5 16,2 Aksan zorlukları

Türkçe için fine-tuning yapmak isteyen ekipler, Hugging Face üzerindeki açık kaynak Türkçe konuşma datasetlerinden yararlanabilir: Common Voice Türkçe 16 (220 saat), Mozilla Common Voice Delta (47 saat), TR-ASR (180 saat call center) ve TBMM Genel Kurul kayıtları (3.500+ saat genel meclis konuşması). Bu kaynakları birleştirerek 700-900 saat Türkçe konuşma verisiyle Whisper v3 fine-tune etmek ortalama 18-24 saat A100 GPU süresi gerektiriyor; AWS Spot Instance ile bütçe yaklaşık 250-400 USD. Domain-specific fine-tune sonrası WER skoru genel sahada yüzde 8,7’ye, call center senaryosunda yüzde 11,3’e düşüyor.

İlgili konu: call center otomasyonunun yapay zeka entegrasyonu rehberimizde detayları ile Türkçe ASR seçimini bağlamlandırıyoruz.

Implementation Pattern’ı ve Streaming vs Batch Karar Matrisi

Speech-to-text projelerinde ilk teknik karar ‘streaming mı, batch mı’. Streaming, real-time agent assist, live captioning ve IVR senaryolarında zorunlu; batch ise meeting transkripsiyonu, podcast indexing ve geriye dönük analiz için yeterli. Whisper v3 resmi olarak streaming desteklemese de faster-whisper + voice activity detection (VAD) ile ortalama 600-900 ms latency elde edilebiliyor.

  1. Ses ön işleme: 16 kHz örnekleme, mono kanal, RNN-Noise gürültü azaltma.
  2. VAD (Silero VAD veya WebRTC VAD): konuşma segmentlerini ayırma.
  3. ASR motoru: Whisper large-v3 (self-host) veya AssemblyAI/Deepgram API.
  4. Diarization: pyannote 3.1 (Whisper için), motor yerleşik (AssemblyAI/Deepgram).
  5. Punctuation + casing: motor yerleşik veya custom T5 modeli.
  6. PII redaction: Microsoft Presidio veya custom regex katmanı (KVKK uyumu).
  7. LLM özetleme: AssemblyAI LeMUR, OpenAI GPT-4o veya Claude 3.5 Sonnet.

Her adımın özel risk profili var: ses ön işlemede yanlış filtre seçimi Whisper modelinin halüsinasyon ürettiği sessizlik boşluklarını yüzde 18 artırabiliyor; VAD eşiğinin yanlış ayarı ise kelime başı/sonu kesilmesine yol açıp anlamı bozuyor. KVKK uyumu için PII redaction katmanını her transkriptten önce eklemeyen kurumların 2025 Veri Koruma Kurulu yıllık raporuna göre yüzde 12’si idari para cezasıyla karşılaştı; ortalama ceza tutarı 1,8 milyon TL. Bu nedenle pipeline tasarımında ‘sonra eklerim’ tavrı yerine PII redaction katmanını PoC aşamasından itibaren entegre etmek kritik.

Speech-to-Text 2026: Whisper, AssemblyAI, Deepgram Karşılaştırması — Görsel 2
Speech-to-Text 2026: Whisper, AssemblyAI, Deepgram Karşılaştırması — Görsel 2

Operasyon, Maliyet ve KVKK Uyumu

Speech-to-text projelerinde maliyet eğrisi dakika başına faturalandırmadan çok ölçeklenince ortaya çıkan ek katmanlardan geliyor. Aylık 100 bin dakikalık bir call center için AssemblyAI 37 bin USD, Deepgram 43 bin USD, Whisper self-host (A10G GPU instance, 4 adet) yaklaşık 8.500 USD’ye mal oluyor; ancak Whisper’ın yönetim, ölçeklenebilirlik ve update maliyeti gizli kalıyor.

Senaryo Whisper v3 self-host AssemblyAI Universal-2 Deepgram Nova-2 Notlar
10K dk/ay (PoC) 1.200 USD 3.700 USD 4.300 USD Whisper en ucuz ama yönetim emeği var
100K dk/ay 8.500 USD 37.000 USD 43.000 USD Whisper GPU sabit, yönetim 1 FTE
1M dk/ay 62.000 USD 340.000 USD 395.000 USD Volume discount ile yüzde 30 indirim
KVKK Türkiye lokasyonu Tam kontrol EU bölge mevcut EU bölge mevcut Veri ikametgâhı
Diarization dahil +pyannote (ücretsiz) Yerleşik Yerleşik Whisper’da ek pipeline
SLA uptime Kuruluşa bağlı %99,9 %99,9 Self-host SLA üretimde zor

Maliyet karşılaştırmasında çoğu zaman gözden kaçan boyut, ses depolama ve compliance arşivleme maliyeti. KVKK ve sektör regülasyonları (BDDK, SPK) çağrı kayıtlarının 10 yıla kadar saklanmasını zorunlu kılıyor; her dakika ses kaydı ortalama 1 MB (16 kHz mono PCM 16-bit ya da Opus codec ile sıkıştırılmış). 1 milyon dakika için aylık 1 TB ses depolama, AWS S3 Glacier Deep Archive üzerinde yaklaşık 1 USD/TB/ay; bu kalem küçük gibi görünse de transkripsiyon meta verisi, embedding ve audit log eklendiğinde 12-18 USD/TB bandına çıkıyor. Forrester’ın 2025 raporu, kurumsal ASR projelerinin yüzde 41’inin compliance arşiv maliyetini yıllık bütçe planlamasına eklemediğini ve operasyon ikinci yılında bütçe sapması yaşadığını gösteriyor.

Sektörel Use Case’ler: Call Center, Sağlık ve Medya

Call center senaryolarında Akbank ve Türk Telekom 2025 yıllık raporlarında ASR + agent assist çözümlerinin handling time’ı ortalama yüzde 18 azalttığını paylaştı. Bu projelerin çoğunda Türkçe Whisper fine-tune edilmiş hibrit yaklaşım tercih ediliyor; KVKK uyumu nedeniyle veri Türkiye sınırları içinde tutuluyor. Verint ve NICE gibi WFO platformları AssemblyAI veya Deepgram entegrasyonlarını yerleşik sunuyor.

Speech-to-Text 2026: Whisper, AssemblyAI, Deepgram Karşılaştırması — Görsel 3
Speech-to-Text 2026: Whisper, AssemblyAI, Deepgram Karşılaştırması — Görsel 3

Sağlık sektöründe Acıbadem ve Memorial gibi hastane grupları, Whisper v3 üzerine medikal terminoloji fine-tune’u yapılmış modeller kullanarak hekim diktasyonunu otomatik raporlara çeviriyor; bu pipeline’lar doktor başına haftalık 4-6 saat tasarruf raporluyor. Medya tarafında BluTV ve Exxen, video kütüphanesi transkripsiyonu için AssemblyAI LeMUR ile bölüm özetlerini otomatik üretiyor; SEO trafiği yüzde 23 artmış durumda. Forrester Wave Speech Analytics 2025 raporu, ASR + LLM kombinasyonunun medya sektöründe yüzde 41 verim artışı getirdiğini gösteriyor.

Eğitim sektöründe Khan Academy’nin 2025 yıl sonu duyurusu, Whisper v3 üzerine kurulu otomatik altyazı sisteminin yüzde 18 daha düşük öğrenci yorulma skoru sağladığını gösterdi. Türkiye’de Bahçeşehir Üniversitesi BAUSEM platformu, derslerin AssemblyAI LeMUR ile özetlenmesi sonrası öğrenci geri çağırma (recall) skorunu yüzde 24 artırdı. Hukuk sektöründe ise Türkiye Barolar Birliği destekli pilot projede, mahkeme tutanaklarının Whisper v3 + Deepgram diarization karması ile transkripsiyonu, dava dosyası hazırlama süresini günde 2,5 saat azalttı. Gartner Speech Analytics 2026 öngörüsüne göre KVKK uyumlu hibrit ASR mimarisi, Türkiye pazarında 2026-2028 arası yıllık yüzde 28 büyüyecek.

Sektör Senaryo Tercih edilen motor Ortalama tasarruf Ana gereksinim
Call center Agent assist Deepgram + LLM %18 AHT azaltma 500 ms latency
Sağlık Hekim diktasyon Whisper fine-tune 4-6 saat/hafta Medikal terminoloji
Medya Bölüm transkripsiyonu AssemblyAI + LeMUR %23 SEO trafik Özetleme
Eğitim Otomatik altyazı Whisper v3 %18 yorulma azalış Çok dilli
Hukuk Mahkeme tutanağı Whisper + Deepgram 2,5 saat/gün Diarization

Kurumsal Speech-to-Text Dönüşümünde Karşılaşılan Tipik Sorunlar

Danışmanlık projelerinde gözlemlenen tipik darboğazlar:

  • Pazarlama broşürlerindeki WER rakamlarının laboratuvar ortamına özgü olması, gerçek call center sesinde yüzde 60-80 yüksek çıkması.
  • Türkçe diarization kalitesinin İngilizce’ye göre düşük olması; özellikle üç ve daha fazla konuşmacı senaryolarında speaker confusion artıyor.
  • KVKK uyumu gereği veri ikametgâhı zorunluluğu olan kurumların self-host Whisper’a yönelmesi ama GPU yönetimi için yeterli SRE kaynağına sahip olmaması.
  • PII redaction katmanı eksikliğinde T.C. kimlik numarası, kredi kartı bilgisi gibi hassas verilerin transkriptlere düşmesi ve KVKK ihlali riski.
  • Custom vocabulary kullanılmadığında marka, ürün ve teknik terim isimlerinin yüzde 35-50 yanlış transkript edilmesi.
  • Real-time stream uygulamalarında ses kalitesi düştüğünde latency’nin 1,2 saniyenin üzerine çıkması ve agent assist deneyiminin bozulması.

Sonuç

2026’da Türkçe speech-to-text projeleri için tek doğru motor yok; karar matrisi senaryoya göre değişiyor. Yüksek doğruluk ve KVKK kontrolü ön plandaysa fine-tune edilmiş Whisper v3 self-host; hızlı entegrasyon ve LLM özetleme tek API’de isteniyorsa AssemblyAI Universal-2 + LeMUR; en düşük latency ve enterprise SLA isteniyorsa Deepgram Nova-2 öne çıkıyor. Asıl yatırım model seçiminde değil, audio preprocessing, custom vocabulary, diarization ve PII redaction katmanlarında yapılmalı. OpenAI Whisper resmi deposu, AssemblyAI mühendislik blog’u ve Deepgram Learn hub’ı 2026 yol haritası için referans alınabilir. Yorumlarınızı bekliyorum.

Sıkça Sorulan Sorular

Whisper v3, AssemblyAI ve Deepgram arasında Türkçe için hangisi en iyi?

Common Voice 16 testlerinde Whisper v3 large 8,3 WER ile lider; AssemblyAI Universal-2 9,6, Deepgram Nova-2 11,4 raporluyor. Gerçek call center koşullarında ise fine-tune edilmiş Whisper farkı açıyor. KVKK ve maliyet sınırlamaları aynı ölçüde belirleyici.

Self-host Whisper gerçekten daha ucuz mu?

Aylık 100K dakika üzerinde Whisper self-host (A10G GPU x4) yaklaşık 8.500 USD’ye mal olurken AssemblyAI 37 bin USD, Deepgram 43 bin USD. Ancak SRE emeği ve uptime yönetimi göz önüne alınmadığında bu hesap eksik kalıyor; 1 FTE eklenirse Whisper aylık 18-20 bin USD’ye yükseliyor.

Real-time streaming için hangi motor daha uygun?

Deepgram Nova-2 280 ms streaming latency ile sektör lideri; AssemblyAI 320 ms, faster-whisper + VAD ise 600-900 ms aralığında. Agent assist senaryolarında 500 ms altı kritik olduğu için Deepgram ya da AssemblyAI tercih edilir.

KVKK uyumu için hangi mimari önerilir?

Veri ikametgâhı zorunluluğu varsa Whisper self-host (Türkiye’de barındırılan GPU) tek seçenek; AssemblyAI ve Deepgram EU bölgeleri sunsa da Türkiye sınırları içinde veri tutmuyor. PII redaction için Microsoft Presidio veya custom regex katmanı zorunlu.

Diarization kalitesi için ne yapılmalı?

İki konuşmacı senaryosunda Deepgram speaker confusion oranı yüzde 4,8 ile lider; Whisper + pyannote 3.1 kombinasyonu yüzde 9,4 ile geride kalıyor. Üçten fazla konuşmacı için her motorun yüzde 15+ confusion oranı raporlanıyor; bu durumda manuel düzeltme ya da konuşmacı kayıt aşamasında ayrıştırılması gerekiyor.

Ömer ÖNAL

Yazılım Mimarı | Yapay Zeka LLC. Ölçeklenebilir SaaS, .NET Core altyapıları ve Otonom AI süreçleri inşa ediyorum. Kod değil, sistem tasarlarım.

Yorum (1)

  1. Ömer ÖNAL
    Mayıs 18, 2026

    Türkçe ASR projelerinde ‘word error rate’ rakamlarının pazarlama broşürlerinde 5 puan altına inmesi sıradan ama gerçek call center kaydında bu rakam 2 katına çıkıyor. Whisper, AssemblyAI ve Deepgram seçimi yapılırken Türkçe diarization, noise robustness ve real-time stream latency’si ayrı ölçülmeli. Kurumsal entegrasyonda PII redaction ve KVKK uyumu, model doğruluğu kadar belirleyici. — Ömer ÖNAL

Yorum Yap

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir