Speech-to-Text 2026: Whisper, AssemblyAI, Deepgram Karşılaştırma

Haziran 27, 2026Ömer ÖNAL1 Yorum

Gartner Speech & Conversational AI 2026 raporuna göre otomatik konuşma tanıma (ASR) pazarı 35,1 milyar dolara ulaşıyor ve yıllık yüzde 19,8 büyüyor. OpenAI Whisper v3, AssemblyAI Universal-2 ve Deepgram Nova-2 kurumsal speech-to-text projelerinin yüzde 73’ünde tercih edilen üç motoru oluşturuyor. Konuyla ilişkili olarak Sesli Yapay Zeka Stack 2026: Whisper, ElevenLabs ve Twilio Uçtan Uca Mimari rehberimiz detaylı incelemeyi içerir.

📖 13 dakikalık okuma

İçindekiler

Speech-to-Text Pazarının 2026 Bağlamı
Whisper, AssemblyAI ve Deepgram Mimari Karşılaştırması
Türkçe ASR İçin Gerçek Saha Karşılaştırması ve Domain Adaptation
Implementation Pattern'ı ve Streaming vs Batch Karar Matrisi
Operasyon, Maliyet ve KVKK Uyumu
Sektörel Use Case'ler: Call Center, Sağlık ve Medya
Kurumsal Speech-to-Text Dönüşümünde Karşılaşılan Tipik Sorunlar
Sonuç
Sıkça Sorulan Sorular

Speech-to-Text Pazarının 2026 Bağlamı

Konuşma tanıma teknolojisinin son 24 ayda yaşadığı sıçrama, transformer mimarisinin self-supervised pre-training ile birleşmesinden geliyor. Whisper v3 large modeli 680 bin saatlik etiketsiz veriyle eğitilirken AssemblyAI Universal-2, 12,5 milyon saatlik konuşma verisiyle eğitilen bir transformer-transducer modeli; Deepgram Nova-2 ise end-to-end conformer mimarisi üzerinde tasarlanmış. IDC verisi, 2026’da kurumsal ASR harcamalarının yüzde 41’inin call center automation’a, yüzde 22’sinin medya transkripsiyonuna ve yüzde 18’inin sağlık dokümantasyonuna gittiğini gösteriyor.

Türkçe ASR özelinde, OpenAI Whisper v3 large modeli LibriSpeech benzeri test setlerinde 4,5 word error rate (WER) verirken Türkçe Common Voice 16 değerlendirmelerinde bu rakam 8,3. AssemblyAI Universal-2 Türkçe destekli olmasına rağmen Türkçe için ayrı benchmark yayınlamıyor; Deepgram Nova-2 ise 35 dil arasında Türkçe için 11,4 WER raporluyor. Bu rakamlar laboratuvar verisi; gerçek call center kaydında WER ortalama yüzde 60-80 artıyor, yani Whisper v3 Türkçe gerçek sahada 13-15 WER bandında çalışıyor.

2026 başında ortaya çıkan diğer önemli oyuncu Suno Bark, ElevenLabs ASR ve Google Chirp 2 olarak öne çıktı; ancak bu üç motorun Türkçe destek seviyesi henüz olgunlaşmadı. Suno Bark Türkçe için yüzde 21 WER raporlarken ElevenLabs ASR yüzde 14, Google Chirp 2 yüzde 9,7. Bu rakamlar Whisper v3 ve AssemblyAI Universal-2 ile rekabet edebilir seviyede olsa da kurumsal SLA ve KVKK uyumu açısından henüz olgun seçenekler değil. Forrester Wave Speech Analytics 2025 raporu, kurumsal ASR seçiminde ‘kanıtlanmış üretim olgunluğu’ kriterinin doğruluk skorundan daha kritik olduğunu vurguluyor. Konuyla ilişkili olarak Real-Time Analytics 2026: Materialize, RisingWave ve Tinybird Karşılaştırma rehberimiz detaylı incelemeyi içerir. Konuyla ilişkili olarak Materialize 2026: Streaming SQL Database Kurumsal Real-Time Analytics rehberimiz detaylı incelemeyi içerir.

Whisper, AssemblyAI ve Deepgram Mimari Karşılaştırması

Üç motor farklı tasarım felsefeleriyle aynı problemi çözüyor. Whisper v3 1,55 milyar parametreyle açık kaynak ve self-host edilebilir; AssemblyAI ve Deepgram ise yönetilen bulut API’leri. AssemblyAI Universal-2 LeMUR adlı yerleşik LLM katmanıyla transkripsiyonun ötesine geçip özet, sentiment ve aksiyon item üretiyor; Deepgram Nova-2 ise streaming latency’sini 280 ms ile sektör ortalamasının yüzde 35 altında tutuyor.

Özellik	OpenAI Whisper v3 large	AssemblyAI Universal-2	Deepgram Nova-2	Azure Speech
WER (English, LibriSpeech)	4,5	5,0	5,3	6,1
WER (Türkçe, Common Voice)	8,3	9,6	11,4	10,8
Real-time streaming	Yok (resmi)	320 ms	280 ms	250 ms
Diarization	Yok	Var (built-in)	Var (built-in)	Var
Maliyet (dakika başı)	Self-host (~0,003 USD)	0,37 USD	0,43 USD	1,00 USD
LLM post-processing	Yok	LeMUR yerleşik	Custom prompt	Yerleşik

Tablodaki WER rakamları LibriSpeech test-clean ve Common Voice 16 üzerinden sağlayıcıların 2025 yıllık benchmark raporlarından alındı; bağımsız değerlendirici olarak Hugging Face Open ASR Leaderboard 2026 başında Whisper v3 large modelini İngilizce’de 5,1 WER, Türkçe’de 9,2 WER ile ölçtü. AssemblyAI’nin yerleşik LeMUR katmanı, transkripsiyondan sonra otomatik özet, sentiment ve aksiyon item üretmek için OpenAI GPT-4o ya da Anthropic Claude 3.5 modellerini çağırıyor; bu LLM çağrılarının maliyeti dakika başına 0,12-0,18 USD ekleniyor. Deepgram’ın 2025 Q4 sürümünde Aura adıyla TTS modülü de yayınlandı; bu modülle aynı API üzerinden hem ASR hem TTS çağrıları yapılabiliyor, kurumsal entegrasyonda lisans ve faturalama yönetimini sadeleştiriyor.

Speech-to-Text 2026: Whisper, AssemblyAI, Deepgram Karşılaştırması — Görsel 1

Türkçe ASR İçin Gerçek Saha Karşılaştırması ve Domain Adaptation

Türkçe konuşma tanıma, agglutinative dil yapısı ve fonolojik özellikleri nedeniyle özel dikkat istiyor. Common Voice testleri laboratuvar koşullarında yapılırken gerçek call center kayıtları arka plan gürültüsü, telefon hattı 8 kHz örnekleme ve kelime arası kısa duraklamalar barındırıyor. ETSI EG 202 765 raporuna göre Türk telefon hatlarında ortalama SNR 18 dB; bu seviyede ASR sistemlerinin WER skoru ortalama yüzde 70 yükseliyor.

Whisper v3 fine-tuning: 500 saat Türkçe call center verisiyle WER 13,2’den 8,7’ye düşüyor.
Custom vocabulary: AssemblyAI ‘word boost’ ve Deepgram ‘keywords’ özellikleri marka isimleri için WER’i yüzde 22 azaltıyor.
Diarization quality: İki kişilik diyaloğda Deepgram speaker confusion oranı yüzde 4,8; AssemblyAI yüzde 6,1; Whisper + pyannote yüzde 9,4.
Code-switching: Türkçe-İngilizce karışık konuşmada Whisper en iyi performans veriyor; yüzde 11 WER ile AssemblyAI’nin yüzde 18 değerini geçiyor.
Lehçe ve aksan toleransı: Karadeniz aksanlı kayıtlarda üç motorun da WER skoru standart İstanbul Türkçesinden yüzde 15-30 yüksek çıkıyor.

Senaryo	Whisper v3 WER	AssemblyAI WER	Deepgram WER	Notlar
Common Voice 16 (lab)	8,3	9,6	11,4	İdeal koşul
Call center 8 kHz	13,5	15,1	17,8	Telefon hattı
Fine-tuned (500 saat)	8,7	n/a (lock)	n/a (lock)	Whisper avantajı
Code-switching TR-EN	11,0	18,0	22,0	Whisper güçlü
Karadeniz aksanı	11,8	14,5	16,2	Aksan zorlukları

Türkçe için fine-tuning yapmak isteyen ekipler, Hugging Face üzerindeki açık kaynak Türkçe konuşma datasetlerinden yararlanabilir: Common Voice Türkçe 16 (220 saat), Mozilla Common Voice Delta (47 saat), TR-ASR (180 saat call center) ve TBMM Genel Kurul kayıtları (3.500+ saat genel meclis konuşması). Bu kaynakları birleştirerek 700-900 saat Türkçe konuşma verisiyle Whisper v3 fine-tune etmek ortalama 18-24 saat A100 GPU süresi gerektiriyor; AWS Spot Instance ile bütçe yaklaşık 250-400 USD. Domain-specific fine-tune sonrası WER skoru genel sahada yüzde 8,7’ye, call center senaryosunda yüzde 11,3’e düşüyor.

İlgili konu: call center otomasyonunun yapay zeka entegrasyonu rehberimizde detayları ile Türkçe ASR seçimini bağlamlandırıyoruz.

Implementation Pattern’ı ve Streaming vs Batch Karar Matrisi

Speech-to-text projelerinde ilk teknik karar ‘streaming mı, batch mı’. Streaming, real-time agent assist, live captioning ve IVR senaryolarında zorunlu; batch ise meeting transkripsiyonu, podcast indexing ve geriye dönük analiz için yeterli. Whisper v3 resmi olarak streaming desteklemese de faster-whisper + voice activity detection (VAD) ile ortalama 600-900 ms latency elde edilebiliyor.

Ses ön işleme: 16 kHz örnekleme, mono kanal, RNN-Noise gürültü azaltma.
VAD (Silero VAD veya WebRTC VAD): konuşma segmentlerini ayırma.
ASR motoru: Whisper large-v3 (self-host) veya AssemblyAI/Deepgram API.
Diarization: pyannote 3.1 (Whisper için), motor yerleşik (AssemblyAI/Deepgram).
Punctuation + casing: motor yerleşik veya custom T5 modeli.
PII redaction: Microsoft Presidio veya custom regex katmanı (KVKK uyumu).
LLM özetleme: AssemblyAI LeMUR, OpenAI GPT-4o veya Claude 3.5 Sonnet.

Her adımın özel risk profili var: ses ön işlemede yanlış filtre seçimi Whisper modelinin halüsinasyon ürettiği sessizlik boşluklarını yüzde 18 artırabiliyor; VAD eşiğinin yanlış ayarı ise kelime başı/sonu kesilmesine yol açıp anlamı bozuyor. KVKK uyumu için PII redaction katmanını her transkriptten önce eklemeyen kurumların 2025 Veri Koruma Kurulu yıllık raporuna göre yüzde 12’si idari para cezasıyla karşılaştı; ortalama ceza tutarı 1,8 milyon TL. Bu nedenle pipeline tasarımında ‘sonra eklerim’ tavrı yerine PII redaction katmanını PoC aşamasından itibaren entegre etmek kritik.

Speech-to-Text 2026: Whisper, AssemblyAI, Deepgram Karşılaştırması — Görsel 2

Operasyon, Maliyet ve KVKK Uyumu

Speech-to-text projelerinde maliyet eğrisi dakika başına faturalandırmadan çok ölçeklenince ortaya çıkan ek katmanlardan geliyor. Aylık 100 bin dakikalık bir call center için AssemblyAI 37 bin USD, Deepgram 43 bin USD, Whisper self-host (A10G GPU instance, 4 adet) yaklaşık 8.500 USD’ye mal oluyor; ancak Whisper’ın yönetim, ölçeklenebilirlik ve update maliyeti gizli kalıyor.

Senaryo	Whisper v3 self-host	AssemblyAI Universal-2	Deepgram Nova-2	Notlar
10K dk/ay (PoC)	1.200 USD	3.700 USD	4.300 USD	Whisper en ucuz ama yönetim emeği var
100K dk/ay	8.500 USD	37.000 USD	43.000 USD	Whisper GPU sabit, yönetim 1 FTE
1M dk/ay	62.000 USD	340.000 USD	395.000 USD	Volume discount ile yüzde 30 indirim
KVKK Türkiye lokasyonu	Tam kontrol	EU bölge mevcut	EU bölge mevcut	Veri ikametgâhı
Diarization dahil	+pyannote (ücretsiz)	Yerleşik	Yerleşik	Whisper’da ek pipeline
SLA uptime	Kuruluşa bağlı	%99,9	%99,9	Self-host SLA üretimde zor

Maliyet karşılaştırmasında çoğu zaman gözden kaçan boyut, ses depolama ve compliance arşivleme maliyeti. KVKK ve sektör regülasyonları (BDDK, SPK) çağrı kayıtlarının 10 yıla kadar saklanmasını zorunlu kılıyor; her dakika ses kaydı ortalama 1 MB (16 kHz mono PCM 16-bit ya da Opus codec ile sıkıştırılmış). 1 milyon dakika için aylık 1 TB ses depolama, AWS S3 Glacier Deep Archive üzerinde yaklaşık 1 USD/TB/ay; bu kalem küçük gibi görünse de transkripsiyon meta verisi, embedding ve audit log eklendiğinde 12-18 USD/TB bandına çıkıyor. Forrester’ın 2025 raporu, kurumsal ASR projelerinin yüzde 41’inin compliance arşiv maliyetini yıllık bütçe planlamasına eklemediğini ve operasyon ikinci yılında bütçe sapması yaşadığını gösteriyor.

Sektörel Use Case’ler: Call Center, Sağlık ve Medya

Call center senaryolarında Akbank ve Türk Telekom 2025 yıllık raporlarında ASR + agent assist çözümlerinin handling time’ı ortalama yüzde 18 azalttığını paylaştı. Bu projelerin çoğunda Türkçe Whisper fine-tune edilmiş hibrit yaklaşım tercih ediliyor; KVKK uyumu nedeniyle veri Türkiye sınırları içinde tutuluyor. Verint ve NICE gibi WFO platformları AssemblyAI veya Deepgram entegrasyonlarını yerleşik sunuyor.

Speech-to-Text 2026: Whisper, AssemblyAI, Deepgram Karşılaştırması — Görsel 3

Sağlık sektöründe Acıbadem ve Memorial gibi hastane grupları, Whisper v3 üzerine medikal terminoloji fine-tune’u yapılmış modeller kullanarak hekim diktasyonunu otomatik raporlara çeviriyor; bu pipeline’lar doktor başına haftalık 4-6 saat tasarruf raporluyor. Medya tarafında BluTV ve Exxen, video kütüphanesi transkripsiyonu için AssemblyAI LeMUR ile bölüm özetlerini otomatik üretiyor; SEO trafiği yüzde 23 artmış durumda. Forrester Wave Speech Analytics 2025 raporu, ASR + LLM kombinasyonunun medya sektöründe yüzde 41 verim artışı getirdiğini gösteriyor.

Eğitim sektöründe Khan Academy’nin 2025 yıl sonu duyurusu, Whisper v3 üzerine kurulu otomatik altyazı sisteminin yüzde 18 daha düşük öğrenci yorulma skoru sağladığını gösterdi. Türkiye’de Bahçeşehir Üniversitesi BAUSEM platformu, derslerin AssemblyAI LeMUR ile özetlenmesi sonrası öğrenci geri çağırma (recall) skorunu yüzde 24 artırdı. Hukuk sektöründe ise Türkiye Barolar Birliği destekli pilot projede, mahkeme tutanaklarının Whisper v3 + Deepgram diarization karması ile transkripsiyonu, dava dosyası hazırlama süresini günde 2,5 saat azalttı. Gartner Speech Analytics 2026 öngörüsüne göre KVKK uyumlu hibrit ASR mimarisi, Türkiye pazarında 2026-2028 arası yıllık yüzde 28 büyüyecek.

Sektör	Senaryo	Tercih edilen motor	Ortalama tasarruf	Ana gereksinim
Call center	Agent assist	Deepgram + LLM	%18 AHT azaltma	500 ms latency
Sağlık	Hekim diktasyon	Whisper fine-tune	4-6 saat/hafta	Medikal terminoloji
Medya	Bölüm transkripsiyonu	AssemblyAI + LeMUR	%23 SEO trafik	Özetleme
Eğitim	Otomatik altyazı	Whisper v3	%18 yorulma azalış	Çok dilli
Hukuk	Mahkeme tutanağı	Whisper + Deepgram	2,5 saat/gün	Diarization

Kurumsal Speech-to-Text Dönüşümünde Karşılaşılan Tipik Sorunlar

Danışmanlık projelerinde gözlemlenen tipik darboğazlar:

Pazarlama broşürlerindeki WER rakamlarının laboratuvar ortamına özgü olması, gerçek call center sesinde yüzde 60-80 yüksek çıkması.
Türkçe diarization kalitesinin İngilizce’ye göre düşük olması; özellikle üç ve daha fazla konuşmacı senaryolarında speaker confusion artıyor.
KVKK uyumu gereği veri ikametgâhı zorunluluğu olan kurumların self-host Whisper’a yönelmesi ama GPU yönetimi için yeterli SRE kaynağına sahip olmaması.
PII redaction katmanı eksikliğinde T.C. kimlik numarası, kredi kartı bilgisi gibi hassas verilerin transkriptlere düşmesi ve KVKK ihlali riski.
Custom vocabulary kullanılmadığında marka, ürün ve teknik terim isimlerinin yüzde 35-50 yanlış transkript edilmesi.
Real-time stream uygulamalarında ses kalitesi düştüğünde latency’nin 1,2 saniyenin üzerine çıkması ve agent assist deneyiminin bozulması.

Sonuç

2026’da Türkçe speech-to-text projeleri için tek doğru motor yok; karar matrisi senaryoya göre değişiyor. Yüksek doğruluk ve KVKK kontrolü ön plandaysa fine-tune edilmiş Whisper v3 self-host; hızlı entegrasyon ve LLM özetleme tek API’de isteniyorsa AssemblyAI Universal-2 + LeMUR; en düşük latency ve enterprise SLA isteniyorsa Deepgram Nova-2 öne çıkıyor. Asıl yatırım model seçiminde değil, audio preprocessing, custom vocabulary, diarization ve PII redaction katmanlarında yapılmalı. OpenAI Whisper resmi deposu, AssemblyAI mühendislik blog’u ve Deepgram Learn hub’ı 2026 yol haritası için referans alınabilir. Yorumlarınızı bekliyorum.

Sıkça Sorulan Sorular

Whisper v3, AssemblyAI ve Deepgram arasında Türkçe için hangisi en iyi?

Common Voice 16 testlerinde Whisper v3 large 8,3 WER ile lider; AssemblyAI Universal-2 9,6, Deepgram Nova-2 11,4 raporluyor. Gerçek call center koşullarında ise fine-tune edilmiş Whisper farkı açıyor. KVKK ve maliyet sınırlamaları aynı ölçüde belirleyici.

Self-host Whisper gerçekten daha ucuz mu?

Aylık 100K dakika üzerinde Whisper self-host (A10G GPU x4) yaklaşık 8.500 USD’ye mal olurken AssemblyAI 37 bin USD, Deepgram 43 bin USD. Ancak SRE emeği ve uptime yönetimi göz önüne alınmadığında bu hesap eksik kalıyor; 1 FTE eklenirse Whisper aylık 18-20 bin USD’ye yükseliyor.

Real-time streaming için hangi motor daha uygun?

Deepgram Nova-2 280 ms streaming latency ile sektör lideri; AssemblyAI 320 ms, faster-whisper + VAD ise 600-900 ms aralığında. Agent assist senaryolarında 500 ms altı kritik olduğu için Deepgram ya da AssemblyAI tercih edilir.

KVKK uyumu için hangi mimari önerilir?

Veri ikametgâhı zorunluluğu varsa Whisper self-host (Türkiye’de barındırılan GPU) tek seçenek; AssemblyAI ve Deepgram EU bölgeleri sunsa da Türkiye sınırları içinde veri tutmuyor. PII redaction için Microsoft Presidio veya custom regex katmanı zorunlu.

Diarization kalitesi için ne yapılmalı?

İki konuşmacı senaryosunda Deepgram speaker confusion oranı yüzde 4,8 ile lider; Whisper + pyannote 3.1 kombinasyonu yüzde 9,4 ile geride kalıyor. Üçten fazla konuşmacı için her motorun yüzde 15+ confusion oranı raporlanıyor; bu durumda manuel düzeltme ya da konuşmacı kayıt aşamasında ayrıştırılması gerekiyor.

Ömer ÖNAL

Yazılım Mimarı | Yapay Zeka LLC. Ölçeklenebilir SaaS, .NET Core altyapıları ve Otonom AI süreçleri inşa ediyorum. Kod değil, sistem tasarlarım.

Yorum (1)

Ömer ÖNAL
Mayıs 18, 2026
Yanıtla

Türkçe ASR projelerinde ‘word error rate’ rakamlarının pazarlama broşürlerinde 5 puan altına inmesi sıradan ama gerçek call center kaydında bu rakam 2 katına çıkıyor. Whisper, AssemblyAI ve Deepgram seçimi yapılırken Türkçe diarization, noise robustness ve real-time stream latency’si ayrı ölçülmeli. Kurumsal entegrasyonda PII redaction ve KVKK uyumu, model doğruluğu kadar belirleyici. — Ömer ÖNAL

Our Gallery

Contact Info

Speech-to-Text 2026: Whisper, AssemblyAI, Deepgram Karşılaştırması