OpenAI’nin 2025 Whisper Large v3 raporu STT doğruluğunun İngilizce’de %94,2, Türkçe’de %88,7 olduğunu gösteriyor. ElevenLabs Turbo v2.5 TTS gecikmesini 275 ms’ye indirdi. Doğru voice AI mimarisi Deepgram 2025 araştırmasına göre call center maliyetlerini %53 düşürüyor. Konuyla ilişkili olarak Sesli AI Asistan Geliştirme: Whisper ElevenLabs Rehberi rehberimiz detaylı incelemeyi içerir. Konuyla ilişkili olarak Speech-to-Text 2026: Whisper, AssemblyAI, Deepgram Karşılaştırması rehberimiz detaylı incelemeyi içerir.

Voice AI Stack 2026 Pazar Bağlamı

Sesli yapay zeka uygulamaları üç ana bileşenden oluşur: Speech-to-Text (STT), LLM (akıl yürütme), Text-to-Speech (TTS). Real-time senaryolarda bu üçü streaming pipeline’da çalışıyor; toplam gecikme bütçesi 800 ms altında tutulmalı. İnsan algısı bu eşiğin üstüne çıktığında konuşmayı “robotvari” olarak değerlendiriyor.

2026’da voice AI pazarı 4,8 milyar USD; 2028’de 9,2 milyar USD beklentisi. Call center otomasyonu, voice assistant’lar, dictation servisleri, podcast/video üretimi, accessibility uygulamaları ana use case’ler. OpenAI Whisper, Deepgram Nova, Azure Speech ana STT seçenekleri; ElevenLabs, OpenAI TTS, Azure Neural Voice ana TTS seçenekleri.

Twilio Media Streams API real-time telefoni entegrasyonu için lider; WebSocket üzerinden 20ms’lik chunk’lar ile streaming. Detaylar için Twilio Media Streams ve OpenAI Whisper referans niteliğindedir.

STT, LLM, TTS Bileşen Karşılaştırması

Her bileşen ayrı seçim kararı. STT için Whisper Large v3 İngilizce’de lider; Deepgram Nova-2 Türkçe’de daha iyi (%92,1 vs %88,7). LLM için Claude 3.5 Sonnet veya GPT-4o, streaming için Groq + Llama 3 hızlı alternatif. TTS için ElevenLabs Turbo v2.5 ses kalitesi ve gecikme dengesinde lider.

Bileşen Lider Seçenek Alternatif TR Performansı Gecikme
STT (TR) Deepgram Nova-2 Whisper Large v3 %92,1 / %88,7 180-320 ms
LLM (Hızlı) Groq + Llama 3 70B GPT-4o-mini İyi 120-280 ms
LLM (Kaliteli) Claude 3.5 Sonnet GPT-4o Mükemmel 420-680 ms
TTS (TR) ElevenLabs Turbo v2.5 Azure Neural Voice Mükemmel 275-450 ms
Telefoni Twilio Media Streams Vonage Voice API N/A 40-80 ms
Sesli Yapay Zeka Stack 2026: Whisper, ElevenLabs ve Twilio Uçtan Uca Mimari — Görsel 1
Sesli Yapay Zeka Stack 2026: Whisper, ElevenLabs ve Twilio Uçtan Uca Mimari — Görsel 1

Karar Matrisi: 800 ms Gecikme Bütçesi

End-to-end gecikme bütçesi telefoni senaryosunda 800 ms altı zorunlu. Bu bütçenin dağıtımı kritik. Aşağıdaki dağıtım 2025-2026 saha pratiğinde production-grade pattern:

  • STT streaming (chunked): 180 ms (Deepgram veya Whisper-Streaming)
  • LLM first token: 280 ms (Groq Llama 3 70B veya GPT-4o-mini)
  • LLM token streaming: 100 ms (ilk cümle için)
  • TTS streaming başlangıç: 240 ms (ElevenLabs Turbo)
  • Network + protokol overhead: 80 ms
  • Toplam end-to-end: 880 ms (ilk ses), sonrası streaming akış

İlgili konu: LLM FinOps rehberimizde voice AI maliyetlerinin nasıl izleneceğini anlattık.

Streaming Pipeline Implementation

Real-time pipeline streaming protokolü kritik. Twilio Media Streams 20 ms chunk’lar ile mulaw kodek üzerinden audio gönderiyor; WebSocket bağlantısı bidirectional. Deepgram Whisper-Streaming ise interim transcript pattern’i ile her 100-200 ms’de bir partial result veriyor. LLM tarafında streaming response (Server-Sent Events veya stream chunks) ilk token’dan sonra TTS’i tetikliyor.

Sentence-level streaming pattern’i yaygın: LLM çıkışı cümle sonlarına bölünüyor (“,”, “.”, “?”, “!”), her cümle TTS’e gönderiliyor. Bu yaklaşım toplam gecikmeyi sabit token bekleme yerine 3-5x düşürüyor. ElevenLabs websocket API native destek sunuyor; detaylar için ElevenLabs WebSocket API referans niteliğindedir.

Sesli Yapay Zeka Stack 2026: Whisper, ElevenLabs ve Twilio Uçtan Uca Mimari — Görsel 2
Sesli Yapay Zeka Stack 2026: Whisper, ElevenLabs ve Twilio Uçtan Uca Mimari — Görsel 2

Operasyon, Maliyet ve Ses Kalitesi

Voice AI uygulamasının saatlik maliyeti dakika başına hesaplanır. Ortalama 5 dakikalık müşteri görüşmesi için maliyet: STT 0,025 USD (Deepgram 0,0043/dk × 5), LLM 0,15 USD (8K input + 2K output GPT-4o), TTS 0,06 USD (ElevenLabs 200 char/min × 5), telefoni 0,025 USD. Toplam 0,26 USD/görüşme; insan ajan 7,80 USD/saat (geleneksel) ile karşılaştırıldığında ROI net.

Maliyet Kalemi 5 dk Görüşme Aylık 100K Görüşme Yıllık
STT (Deepgram) 0,025 USD 2.500 USD 30.000 USD
LLM (GPT-4o) 0,15 USD 15.000 USD 180.000 USD
TTS (ElevenLabs) 0,06 USD 6.000 USD 72.000 USD
Twilio telefoni 0,025 USD 2.500 USD 30.000 USD
Toplam 0,26 USD 26.000 USD 312.000 USD

Sektörel Use Case’ler

Call center otomasyonunda voice AI, %62 inbound çağrıyı insan ajan müdahalesi olmadan çözüyor; bu pay 2024’te %18 idi. Sağlıkta randevu alma, sigorta hasarı bildirimi, fatura bilgisi gibi senaryolarda voice AI standart. Otomotiv in-car asistanlarında Whisper + on-device LLM kombinasyonu (offline çalışıyor) yaygın.

Forrester’ın 2025 araştırması, voice AI deployment’ı yapan kurumların müşteri memnuniyetini ortalama %18 artırdığını ortaya koyuyor; ana sebep 24/7 erişilebilirlik ve dil tutarlılığı. 2026’da voice AI artık premium özellik değil; kurumsal customer experience’ın temel bileşeni. Twilio’nun 2025 State of Customer Engagement raporu bu trendi sayısal olarak doğruluyor.

Sesli Yapay Zeka Stack 2026: Whisper, ElevenLabs ve Twilio Uçtan Uca Mimari — Görsel 3
Sesli Yapay Zeka Stack 2026: Whisper, ElevenLabs ve Twilio Uçtan Uca Mimari — Görsel 3

Kurumsal Voice AI Dönüşümünde Karşılaşılan Tipik Sorunlar

Danışmanlık projelerinde gözlemlenen tipik darboğazlar:

  • End-to-end gecikme bütçesini test etmeden production; 1500 ms gecikme robotvari hissettiriyor
  • Sentence-level streaming yapmama; tam token bekleyince ilk ses 3-5 saniye geç çıkıyor
  • Türkçe STT için Whisper kullanma; Deepgram Nova-2 daha doğru ama test edilmiyor
  • TTS ses kalitesini A/B test etmeme; ElevenLabs vs Azure ses kalitesi senaryoya göre değişiyor
  • Twilio media stream chunk yönetimi yapmama; audio packet kaybında konuşma kesintili
  • Maliyet izleme yapmama; saatlik 100 USD üstü harcama spike’ları fark edilmiyor

Sonuç

Voice AI mimarisi 2026’da kurumsal customer experience’ın merkezi. 800 ms end-to-end gecikme bütçesi production threshold; üzeri kullanıcı algısını bozuyor. Deepgram Nova-2 Türkçe için, ElevenLabs Turbo TTS için, Groq + Llama 3 hızlı LLM için varsayılan. Pilot 6 hafta: 100 müşteri görüşmesinde A/B test, gecikme, doğruluk, NPS metrikleri ölç. Insan ajan karşılaştırmasında ROI çoğunlukla 3 ay içinde geri ödüyor.

Sıkça Sorulan Sorular

Türkçe STT için en iyi seçenek?

Deepgram Nova-2 (%92,1 doğruluk) Whisper Large v3’ten (%88,7) üstün. Self-host Whisper TR fine-tune ile %91’e kadar çıkıyor.

Sentence-level streaming nasıl çalışır?

LLM çıkışı cümle sonlarına bölünüyor (“,”, “.”, “?”); her cümle TTS’e ayrı stream olarak gönderiliyor. İlk cümle TTS’i tetikliyor, sonraki cümleler arka planda işleniyor.

ElevenLabs ve Azure Neural Voice arasında fark?

ElevenLabs ses kalitesi ve voice cloning’de lider; Azure daha ucuz ve enterprise compliance güçlü. Müşteri-facing senaryolarda ElevenLabs, batch processing’de Azure.

800 ms gecikme bütçesi kritik mi?

Telefoni senaryolarında evet. Üzerinde kullanıcı “robotvari” algısı oluşuyor. Web/chat senaryolarında 1500 ms tolere edilebilir.

Voice cloning compliance riski mi?

Evet, izin olmadan kullanım yasal sorun. ElevenLabs Voice Library’de consent-verified ses paketleri var. Marka sesi için brand voice fine-tune kullanılıyor.

Ömer ÖNAL

Yazılım Mimarı | Yapay Zeka LLC. Ölçeklenebilir SaaS, .NET Core altyapıları ve Otonom AI süreçleri inşa ediyorum. Kod değil, sistem tasarlarım.

Yorum (1)

  1. Ömer ÖNAL
    Mayıs 23, 2026

    Sesli AI projelerinde gecikme bütçesi tüm mimariyi belirler. Telefon görüşmesinde insanların doğal kabul ettiği yanıt süresi 800 ms’nin altında; bunun üstüne çıkıldığında kullanıcı algısı bozuluyor. Müşterilerimizde uyguladığımız streaming Whisper + paralel LLM + ElevenLabs Turbo mimarisi 650 ms ortalama gecikme veriyor. Bu eşiği yakalamak teknolojiden çok mimari karardır. — Ömer ÖNAL

Yorum Yap

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir