OpenAI’nin 2025 Whisper Large v3 raporu STT doğruluğunun İngilizce’de %94,2, Türkçe’de %88,7 olduğunu gösteriyor. ElevenLabs Turbo v2.5 TTS gecikmesini 275 ms’ye indirdi. Doğru voice AI mimarisi Deepgram 2025 araştırmasına göre call center maliyetlerini %53 düşürüyor. Konuyla ilişkili olarak Sesli AI Asistan Geliştirme: Whisper ElevenLabs Rehberi rehberimiz detaylı incelemeyi içerir. Konuyla ilişkili olarak Speech-to-Text 2026: Whisper, AssemblyAI, Deepgram Karşılaştırması rehberimiz detaylı incelemeyi içerir.
Voice AI Stack 2026 Pazar Bağlamı
Sesli yapay zeka uygulamaları üç ana bileşenden oluşur: Speech-to-Text (STT), LLM (akıl yürütme), Text-to-Speech (TTS). Real-time senaryolarda bu üçü streaming pipeline’da çalışıyor; toplam gecikme bütçesi 800 ms altında tutulmalı. İnsan algısı bu eşiğin üstüne çıktığında konuşmayı “robotvari” olarak değerlendiriyor.
2026’da voice AI pazarı 4,8 milyar USD; 2028’de 9,2 milyar USD beklentisi. Call center otomasyonu, voice assistant’lar, dictation servisleri, podcast/video üretimi, accessibility uygulamaları ana use case’ler. OpenAI Whisper, Deepgram Nova, Azure Speech ana STT seçenekleri; ElevenLabs, OpenAI TTS, Azure Neural Voice ana TTS seçenekleri.
Twilio Media Streams API real-time telefoni entegrasyonu için lider; WebSocket üzerinden 20ms’lik chunk’lar ile streaming. Detaylar için Twilio Media Streams ve OpenAI Whisper referans niteliğindedir.
STT, LLM, TTS Bileşen Karşılaştırması
Her bileşen ayrı seçim kararı. STT için Whisper Large v3 İngilizce’de lider; Deepgram Nova-2 Türkçe’de daha iyi (%92,1 vs %88,7). LLM için Claude 3.5 Sonnet veya GPT-4o, streaming için Groq + Llama 3 hızlı alternatif. TTS için ElevenLabs Turbo v2.5 ses kalitesi ve gecikme dengesinde lider.
| Bileşen | Lider Seçenek | Alternatif | TR Performansı | Gecikme |
|---|---|---|---|---|
| STT (TR) | Deepgram Nova-2 | Whisper Large v3 | %92,1 / %88,7 | 180-320 ms |
| LLM (Hızlı) | Groq + Llama 3 70B | GPT-4o-mini | İyi | 120-280 ms |
| LLM (Kaliteli) | Claude 3.5 Sonnet | GPT-4o | Mükemmel | 420-680 ms |
| TTS (TR) | ElevenLabs Turbo v2.5 | Azure Neural Voice | Mükemmel | 275-450 ms |
| Telefoni | Twilio Media Streams | Vonage Voice API | N/A | 40-80 ms |

Karar Matrisi: 800 ms Gecikme Bütçesi
End-to-end gecikme bütçesi telefoni senaryosunda 800 ms altı zorunlu. Bu bütçenin dağıtımı kritik. Aşağıdaki dağıtım 2025-2026 saha pratiğinde production-grade pattern:
- STT streaming (chunked): 180 ms (Deepgram veya Whisper-Streaming)
- LLM first token: 280 ms (Groq Llama 3 70B veya GPT-4o-mini)
- LLM token streaming: 100 ms (ilk cümle için)
- TTS streaming başlangıç: 240 ms (ElevenLabs Turbo)
- Network + protokol overhead: 80 ms
- Toplam end-to-end: 880 ms (ilk ses), sonrası streaming akış
İlgili konu: LLM FinOps rehberimizde voice AI maliyetlerinin nasıl izleneceğini anlattık.
Streaming Pipeline Implementation
Real-time pipeline streaming protokolü kritik. Twilio Media Streams 20 ms chunk’lar ile mulaw kodek üzerinden audio gönderiyor; WebSocket bağlantısı bidirectional. Deepgram Whisper-Streaming ise interim transcript pattern’i ile her 100-200 ms’de bir partial result veriyor. LLM tarafında streaming response (Server-Sent Events veya stream chunks) ilk token’dan sonra TTS’i tetikliyor.
Sentence-level streaming pattern’i yaygın: LLM çıkışı cümle sonlarına bölünüyor (“,”, “.”, “?”, “!”), her cümle TTS’e gönderiliyor. Bu yaklaşım toplam gecikmeyi sabit token bekleme yerine 3-5x düşürüyor. ElevenLabs websocket API native destek sunuyor; detaylar için ElevenLabs WebSocket API referans niteliğindedir.

Operasyon, Maliyet ve Ses Kalitesi
Voice AI uygulamasının saatlik maliyeti dakika başına hesaplanır. Ortalama 5 dakikalık müşteri görüşmesi için maliyet: STT 0,025 USD (Deepgram 0,0043/dk × 5), LLM 0,15 USD (8K input + 2K output GPT-4o), TTS 0,06 USD (ElevenLabs 200 char/min × 5), telefoni 0,025 USD. Toplam 0,26 USD/görüşme; insan ajan 7,80 USD/saat (geleneksel) ile karşılaştırıldığında ROI net.
| Maliyet Kalemi | 5 dk Görüşme | Aylık 100K Görüşme | Yıllık |
|---|---|---|---|
| STT (Deepgram) | 0,025 USD | 2.500 USD | 30.000 USD |
| LLM (GPT-4o) | 0,15 USD | 15.000 USD | 180.000 USD |
| TTS (ElevenLabs) | 0,06 USD | 6.000 USD | 72.000 USD |
| Twilio telefoni | 0,025 USD | 2.500 USD | 30.000 USD |
| Toplam | 0,26 USD | 26.000 USD | 312.000 USD |
Sektörel Use Case’ler
Call center otomasyonunda voice AI, %62 inbound çağrıyı insan ajan müdahalesi olmadan çözüyor; bu pay 2024’te %18 idi. Sağlıkta randevu alma, sigorta hasarı bildirimi, fatura bilgisi gibi senaryolarda voice AI standart. Otomotiv in-car asistanlarında Whisper + on-device LLM kombinasyonu (offline çalışıyor) yaygın.
Forrester’ın 2025 araştırması, voice AI deployment’ı yapan kurumların müşteri memnuniyetini ortalama %18 artırdığını ortaya koyuyor; ana sebep 24/7 erişilebilirlik ve dil tutarlılığı. 2026’da voice AI artık premium özellik değil; kurumsal customer experience’ın temel bileşeni. Twilio’nun 2025 State of Customer Engagement raporu bu trendi sayısal olarak doğruluyor.

Kurumsal Voice AI Dönüşümünde Karşılaşılan Tipik Sorunlar
Danışmanlık projelerinde gözlemlenen tipik darboğazlar:
- End-to-end gecikme bütçesini test etmeden production; 1500 ms gecikme robotvari hissettiriyor
- Sentence-level streaming yapmama; tam token bekleyince ilk ses 3-5 saniye geç çıkıyor
- Türkçe STT için Whisper kullanma; Deepgram Nova-2 daha doğru ama test edilmiyor
- TTS ses kalitesini A/B test etmeme; ElevenLabs vs Azure ses kalitesi senaryoya göre değişiyor
- Twilio media stream chunk yönetimi yapmama; audio packet kaybında konuşma kesintili
- Maliyet izleme yapmama; saatlik 100 USD üstü harcama spike’ları fark edilmiyor
Sonuç
Voice AI mimarisi 2026’da kurumsal customer experience’ın merkezi. 800 ms end-to-end gecikme bütçesi production threshold; üzeri kullanıcı algısını bozuyor. Deepgram Nova-2 Türkçe için, ElevenLabs Turbo TTS için, Groq + Llama 3 hızlı LLM için varsayılan. Pilot 6 hafta: 100 müşteri görüşmesinde A/B test, gecikme, doğruluk, NPS metrikleri ölç. Insan ajan karşılaştırmasında ROI çoğunlukla 3 ay içinde geri ödüyor.
Sıkça Sorulan Sorular
Türkçe STT için en iyi seçenek?
Deepgram Nova-2 (%92,1 doğruluk) Whisper Large v3’ten (%88,7) üstün. Self-host Whisper TR fine-tune ile %91’e kadar çıkıyor.
Sentence-level streaming nasıl çalışır?
LLM çıkışı cümle sonlarına bölünüyor (“,”, “.”, “?”); her cümle TTS’e ayrı stream olarak gönderiliyor. İlk cümle TTS’i tetikliyor, sonraki cümleler arka planda işleniyor.
ElevenLabs ve Azure Neural Voice arasında fark?
ElevenLabs ses kalitesi ve voice cloning’de lider; Azure daha ucuz ve enterprise compliance güçlü. Müşteri-facing senaryolarda ElevenLabs, batch processing’de Azure.
800 ms gecikme bütçesi kritik mi?
Telefoni senaryolarında evet. Üzerinde kullanıcı “robotvari” algısı oluşuyor. Web/chat senaryolarında 1500 ms tolere edilebilir.
Voice cloning compliance riski mi?
Evet, izin olmadan kullanım yasal sorun. ElevenLabs Voice Library’de consent-verified ses paketleri var. Marka sesi için brand voice fine-tune kullanılıyor.










Ömer ÖNAL
Mayıs 23, 2026Sesli AI projelerinde gecikme bütçesi tüm mimariyi belirler. Telefon görüşmesinde insanların doğal kabul ettiği yanıt süresi 800 ms’nin altında; bunun üstüne çıkıldığında kullanıcı algısı bozuluyor. Müşterilerimizde uyguladığımız streaming Whisper + paralel LLM + ElevenLabs Turbo mimarisi 650 ms ortalama gecikme veriyor. Bu eşiği yakalamak teknolojiden çok mimari karardır. — Ömer ÖNAL