Sesli AI asistan geliştirme, 2026 itibarıyla speech-to-text (STT), LLM ve text-to-speech (TTS) zincirinin yerini büyük ölçüde tek bir Realtime API çağrısının aldığı bir mimari dönüşümün içine girdi. Whisper-large-v3’ün 99 dilde ortalama %8.06 word error rate (WER) ile çalıştığı, ElevenLabs Turbo v2.5’in 250-300 ms latency’de ses ürettiği ve OpenAI Realtime API’nin uçtan uca 320-400 ms median round-trip sağladığı bir ortamda doğru mimariyi seçmek, latency, maliyet ve ses kalitesi üçgeninde net trade-off kararları vermek anlamına geliyor. Bu rehber Whisper, ElevenLabs ve Realtime API üçlüsünü mühendislik perspektifinden karşılaştırır ve barge-in, VAD eşikleri, jitter buffer, prompt injection korumaları gibi sıkça atlanan üretim detaylarını ele alır.
Voicebot pazarı Grand View Research’ün 2026 başı raporuna göre 2025’te 12.6 milyar USD seviyesinden yıllık bileşik %26.4 büyüme oranıyla 2030’a kadar 40 milyar USD bandına ulaşacak. Bu büyümenin tetikleyicisi multimodal LLM’lerin native ses desteğiyle birlikte cascade (STT→LLM→TTS) yaklaşımının yerini speech-to-speech modellere bırakmasıdır. Cascade hâlâ üretimde %70 oranında tercih edilen yöntem; ancak OpenAI Realtime, Google Gemini Live ve open-source Moshi gibi alternatifler “her senaryo için cascade” varsayımını kırıyor.
Cascade vs Speech-to-Speech Mimari
Bir sesli asistan üretmenin iki ana yolu vardır. Cascade pipeline sırayla STT → LLM → TTS bileşenlerini çalıştırır. Speech-to-speech (S2S) ise ses tokeni doğrudan multimodal modele girer ve ses tokeni olarak çıkar. Cascade kontrolü, log edilebilirliği ve maliyet öngörülebilirliği sağlarken S2S latency’de yaklaşık %40-60 kazanç ve doğal turn-taking sunar.
| Kriter | Cascade (STT→LLM→TTS) | Speech-to-Speech |
|---|---|---|
| Median latency (ilk ses tokeni) | 800-1400 ms | 320-500 ms |
| Maliyet (1000 dk input yaklaşık) | 12-18 USD | 24-40 USD |
| Bileşen değiştirilebilirliği | Yüksek | Düşük (kapalı pipeline) |
| Türkçe destek olgunluğu | Whisper-large-v3 ile güçlü | İyi, dialect ince ayar zayıf |
| Tool/function calling | LLM katmanında native | Realtime API içinde native |
| Barge-in (kullanıcı bölme) | Manuel implement | Built-in semantik VAD |
| Ses doğallığı (prosody) | TTS modeline bağlı | Bağlama duyarlı, daha doğal |
Karar çerçevesi: yüksek volume, sıkı maliyet kontrolü ve detaylı analytics gerektiren çağrı merkezi senaryolarında cascade hâlâ baskındır. Conversational asistan ve düşük gecikme zorunluluğu olan tüketici uygulamalarında Realtime API’ye geçiş 2025 ortasından bu yana hızlandı. Agentic AI iş akışları kapsamındaki sesli orchestration için S2S yaklaşımı, function calling’i sürtünmesiz hale getirir.

Whisper Modelleri ve STT Tarafı
OpenAI’nin 2022’de açık kaynak yayınladığı Whisper, 680.000 saatlik çok dilli denetimli ses verisi üzerinde eğitildi. Mart 2024’te yayınlanan large-v3-turbo, 809 milyon parametreyle large-v3’e (1.55 milyar) yakın WER skoru verirken yaklaşık 8 kat daha hızlı çalışır. 2025 sonunda OpenAI gpt-4o-transcribe ve gpt-4o-mini-transcribe‘i yönetilen STT katmanı olarak yayınladı; open-source kullanımda Whisper hâlâ standart referanstır.
| Model | Parametre | EN WER | TR WER (yaklaşık) | Relative Speed | VRAM | Lisans |
|---|---|---|---|---|---|---|
| whisper-tiny | 39M | ~12-15% | ~25-30% | ~30x | ~1 GB | MIT |
| whisper-small | 244M | ~7-9% | ~12-16% | ~6x | ~2 GB | MIT |
| whisper-medium | 769M | ~5-6% | ~9-12% | ~2x | ~5 GB | MIT |
| whisper-large-v3 | 1550M | ~3-5% | ~7-10% | ~1x | ~10 GB | MIT |
| large-v3-turbo | 809M | ~4-6% | ~8-11% | ~8x | ~6 GB | MIT |
| gpt-4o-transcribe | kapalı | ~2.5-4% | ~6-9% | API | n/a | OpenAI ToS |
| gpt-4o-mini-transcribe | kapalı | ~3.5-5% | ~7-10% | API | n/a | OpenAI ToS |
Whisper self-host implementasyonlarında dikkat çeken seçenekler:
- faster-whisper: CTranslate2 üzerine kurulu, INT8 quantization ile 4x hız ve %50 VRAM tasarrufu. Avantaj: Streaming için en olgun seçenek. Dezavantaj: Word-level timestamp doğruluğu marjinal düşer. Ne zaman seç: CPU veya tek GPU’da yüksek concurrency.
- WhisperX: faster-whisper + wav2vec2 hizalama + pyannote diarization. Avantaj: Konuşmacı ayrımı ve kelime kelime timestamp. Dezavantaj: Batch odaklı, gerçek zamanlı streaming için ideal değil. Ne zaman seç: Toplantı transkripti, podcast indexleme.
- whisper.cpp: Tamamen C/C++ implementasyon, GGML formatı, Apple Silicon Metal ve ARM NEON optimize. Avantaj: Edge cihazlar (iPhone, Raspberry Pi, browser-WASM). Dezavantaj: Server-class GPU’da CUDA kadar hızlı değil. Ne zaman seç: On-device gizlilik kritik senaryolar.
- Distil-Whisper: Hugging Face distillation; large-v3’e göre %49 daha küçük, 6x hız, EN WER ~+1 puan. Avantaj: Düşük maliyet. Dezavantaj: EN-only. Ne zaman seç: Saf İngilizce iş yükleri.
Türkçe için pratik öneri: production’da tek GPU varsa faster-whisper large-v3-turbo INT8 + VAD filter, A100 80GB veya H100 üzerinde batch_size=16 ile saniyede 8-10 saat ses işler. Türkçe Common Voice 16.1 üzerinde Whisper-large-v3 yaklaşık %8.39 WER ile medium’un (~%12) önündedir. Diyalekt ve callcenter senaryosunda fine-tuning gerekir; LoRA ile 50-100 saatlik etiketli veri ve 2-3 epoch genelde %20-30 göreli WER iyileşmesi getirir.
ElevenLabs ve TTS Ekosistemi
Sesli asistanın “duyulan” tarafı yani TTS, ses kimliğini belirler. ElevenLabs 2024-2025’te MOS (Mean Opinion Score) skorlarında ortalama 4.2-4.5 bandında dururken Cartesia Sonic, OpenAI tts modelleri, Google Cloud Chirp 3, Azure Neural Voice ve Deepgram Aura güçlendi. ElevenLabs Turbo v2.5 modeli 32 dilde 250-300 ms TTFB sağlarken Flash v2.5 75 ms ile daha hızlı ama prosody hafif düşer.
| TTS Sağlayıcı | Latency TTFB | Dil | Voice cloning | Streaming | Fiyat (~1M ch) | MOS |
|---|---|---|---|---|---|---|
| ElevenLabs Turbo v2.5 | 250-300 ms | 32 | Instant + Pro | Websocket | ~165 USD | 4.4 |
| ElevenLabs Flash v2.5 | 75 ms | 32 | Evet | Evet | ~85 USD | 4.0 |
| OpenAI tts-1-hd | 400-600 ms | 50+ | Hayır | Evet | ~30 USD | 4.0 |
| OpenAI gpt-4o-mini-tts | ~300 ms | 50+ | Hayır | Evet | ~12 USD | 4.1 |
| Cartesia Sonic | 90 ms | 15 | Evet | Evet | ~50 USD | 4.3 |
| Google Cloud Chirp 3 HD | ~300 ms | 30+ | Sınırlı | Evet | ~16 USD | 4.1 |
| Azure Neural Voice | ~400 ms | 140+ | Custom Neural Voice | Evet | ~16 USD | 4.0 |
| Deepgram Aura | ~250 ms | EN ağırlıklı | Hayır | Evet | ~15 USD | 3.9 |
Türkçe için ElevenLabs Multilingual v2 ve Turbo v2.5 prosody açısından öne çıkar; ancak Azure Neural Voice’un Türkçe sesleri (“tr-TR-EmelNeural”, “tr-TR-AhmetNeural”) devlet kurumları ve regüle sektörlerde tercih edilir çünkü on-premise container deployment opsiyonu vardır. Voice cloning için ElevenLabs Pro plan altındaki 30 dakikalık high-quality referans yaklaşık 24-48 saat training ister. Etik açıdan her custom voice için açık consent ve watermarking zorunludur; ElevenLabs ses çıkışlarına AI Speech Classifier’ın algılayabildiği perceptual watermark gömüyor.

OpenAI Realtime API ve Speech-to-Speech
Ekim 2024’te beta, Aralık 2025’te GA’ya geçen OpenAI Realtime API, gpt-realtime modelini WebSocket ve WebRTC üzerinden expose eder. Tek bir bidirectional bağlantıda PCM16 ses giriş, ses çıkış ve function calling birlikte akar. Tipik turn-taking latency’si 320-500 ms median, p99 800-1100 ms aralığındadır. İyi optimize edilmiş cascade pipeline aynı senaryoda 900-1500 ms median verir.
Realtime API mimarisinin temel kazanımları:
- Semantik VAD: Sunucu konuşmanın anlamlı bir noktaya ulaşıp ulaşmadığını model bazlı değerlendirir; sabit eşik yerine semantiğe göre cevap üretmeye başlar.
- Native barge-in: Asistan konuşurken kullanıcı araya girdiğinde model TTS’i kesip yeni input’a geçer. Cascade’de bu için ayrı audio mixer + interrupt sinyali gerekir.
- Function calling: Model konuşma ortasında JSON tool call üretir; backend handler çalıştırır, sonucu inject eder, model kaldığı yerden devam eder. Function calling ve tool use klasik LLM yaklaşımının ses doğal devamıdır.
- VAD threshold ayarı:
turn_detection.threshold(0.0-1.0),prefix_padding_ms,silence_duration_msile kalibrasyon. Türkçe için 200 ms agresiftir; 500-700 ms daha doğal. - Otomatik transcript:
input_audio_transcriptionaktifse her kullanıcı turn’ü için Whisper transkripti döner; loglama için kritiktir.
{
"type": "session.update",
"session": {
"modalities": ["text", "audio"],
"voice": "verse",
"input_audio_format": "pcm16",
"input_audio_transcription": { "model": "whisper-1" },
"turn_detection": {
"type": "server_vad",
"threshold": 0.55,
"prefix_padding_ms": 300,
"silence_duration_ms": 600
},
"temperature": 0.7,
"max_response_output_tokens": 400
}
}
Maliyet referansı: Aralık 2025 fiyatlandırmasında gpt-realtime ses input ~32 USD/M token, ses output ~64 USD/M token. Bir token yaklaşık 33 ms ses kabul edilirse 1 saat ses ~109K input + 109K output token; bu da saat başına ~10-12 USD. Karşılaştırma: cascade için Whisper-large-v3 (~0.006 USD/dk) + GPT-4o (~5 USD/M token) + ElevenLabs Turbo kombinasyonu saat başına 4-7 USD bandındadır. Realtime API premium bir karar; latency ve doğallık kritikse gerekçeli, değilse cascade tercih edilir.
Latency Bütçesi ve Performance Mühendisliği
Latency tek sayı değil bütçedir; her bileşen pay alır. İnsan-bot konuşmasında doğal kabul edilen turn-taking latency’si 200-500 ms aralığındadır (Stivers ve ark. 2009, 10 dilde human-human çalışma). 800 ms üstünde kullanıcı duraksamayı algılar; 1200 ms üstünde “bağlantı öldü” hissi başlar.
| Bileşen | Cascade tipik (ms) | Cascade optimize (ms) | Realtime API (ms) |
|---|---|---|---|
| Mikrofon → server | 40-80 | 20-40 | 20-40 |
| VAD endpoint detection | 200-500 | 120-200 | 100-180 (semantik) |
| STT first token | 250-600 | 120-250 | 0 (entegre) |
| LLM time-to-first-token | 400-900 | 200-400 | 150-300 |
| TTS time-to-first-byte | 250-500 | 75-200 | 0 (entegre) |
| Server → kulak | 60-120 | 40-80 | 40-80 |
| Toplam median | 1200-2700 | 575-1170 | 310-600 |
Cascade’i optimize eden teknikler:
- Streaming STT: faster-whisper + VAD chunks veya Deepgram Nova-3 (~150 ms TTFB) ile partial transcript akışı kurun. Tam cümle bitmeden LLM’e prefix gönderilebilir.
- LLM streaming + speculative decoding: GPT-4o, Claude 4.5, Llama 3.3 hepsi token streaming destekler. İlk 5-10 token gelir gelmez TTS’e prefix yollayın.
- Sentence boundary streaming: LLM çıktısını cümle sınırlarında TTS’e parça parça gönderin; ElevenLabs websocket bunu native destekler.
- Edge deployment: WebRTC server’ı kullanıcıya 50 ms PoP içinde tutun (Cloudflare Calls, LiveKit Cloud, Twilio).
- Jitter buffer minimal: Adaptive jitter buffer 40-60 ms hedefleyin; 120 ms default’lar sesi pürüzsüz yapar ama latency öldürür.
Ölçüm yapmadan optimize edilen pipeline efsanedir. WebRTC stats API’den currentRoundTripTime, jitter, packetsLost ve uçtan uca turnLatencyMs metriklerini Prometheus’a yazın. p50, p95, p99 dağılımlarını ayrı izleyin; ortalama yanıltıcıdır.

Üretim Topology’si ve Türkçe Optimizasyon
Üretimde üç tipik kanal vardır: web/mobile (WebRTC), klasik telefon (SIP/PSTN) ve mesajlaşma (WhatsApp Voice). LiveKit, Twilio Voice, Vonage Voice API, Cloudflare Realtime ve Pipecat framework’ü 2026’da en yaygın altyapı seçenekleridir.
| Altyapı | Tip | PSTN | WebRTC | Realtime API | Self-host |
|---|---|---|---|---|---|
| LiveKit | SFU + Agents | SIP gateway | Yerel | Direkt plugin | OSS + Cloud |
| Twilio Voice + Media Streams | CPaaS | Yerel | WebRTC SDK | WebSocket bridge | Hayır |
| Vonage Voice API | CPaaS | Yerel | RTC SDK | WebSocket bridge | Hayır |
| Cloudflare Realtime | SFU + Workers | SIP (yeni) | Yerel | Workers AI gateway | Hayır |
| Pipecat (Daily) | Framework | Daily PSTN | Daily WebRTC | Direkt entegre | OSS |
| Asterisk + AudioSocket | PBX | Yerel | WebRTC bridge | Custom proxy | OSS |
Türkiye PSTN trafiği için Twilio Türkiye numarası (regülatif kayıt gerekir) veya yerel SIP trunk sağlayıcısı (Iletim, Verimor, Karel SIP) + Asterisk/FreeSWITCH PBX bağlantısı pratik iki yoldur. SIP trunk dakika maliyetini %40-60 düşürür, operasyonel yükü artırır.
Türkçe sesli asistan üretiminde tipik tuzaklar: rakam/tarih okuyuş normalizasyonu, domain-spesifik anlam karmaşası, agglutinative yapı nedeniyle partial transcript akışlarının yarım kelime sorunu. Pratik öneriler:
- Whisper’a Türkçe prompt biasing:
initial_prompt="Müşteri hizmetleri çağrısı. Sipariş numarası, kart, IBAN, fatura."domain kelimeleri için %15-20 göreli WER iyileşmesi getirir. - Hotwords: Deepgram, Azure ve Google STT’de marka/ürün ismi listesi boost değeriyle eklenir.
- TTS pre-processing: LLM yanıtını TTS’e göndermeden sayıları yazıyla aç (“3.500 TL” → “üç bin beş yüz Türk lirası”), abbreviation’ları aç, saat formatını normalize et.
- Persona ve register: System prompt’a “Resmi ‘siz’ kullan, kısa cümlelerle konuş, listeleme yapma” yazın; sesli kanalda bullet duyulmaz.
- Türkçe intent katmanı: LLM yerine ya da yanında küçük intent classifier daha hızlıdır. Türkçe doğal dil işleme tarafında BERTurk ve XLM-R fine-tuned modeller üretim seviyesinde yaygındır.
PII redaction: TC kimlik, kart numarası, CVV pattern’ları transcript log’larında regex + Luhn ile maskelenmeli. KVKK ihlal riskinin %60+’ı ham transcript log’larından kaynaklanır (KVKK 2024 yıllık raporu).

Güvenlik, KVKK ve Etik
Voice AI sistemleri klasik chatbot’lardan farklı saldırı yüzeyleri taşır. ENISA’nın 2024 “Threat Landscape for AI” raporuna göre voice agent’lar dört kategoride risk grubunda: voice cloning attack, audio prompt injection, voice biometric replay ve data exfiltration via TTS side channels. NIST AI 100-2e2025 dökümanı audio modality için özel mitigation’lar listeler.
| Tehdit | Açıklama | Mitigation |
|---|---|---|
| Audio prompt injection | Kullanıcı ses içine “ignore previous instructions” gibi komut gömer. | System prompt + tool-level allowlist + amount whitelist + backend onay. |
| Voice cloning impersonation | Saldırgan müşteri sesini klonlayıp doğrulattırmaya çalışır. | Voice biometric + bilgi tabanlı 2. faktör + canlılık kontrolü. |
| Replay attack | Daha önce kaydedilmiş gerçek ses tekrar çalınır. | Challenge-response rastgele cümle, timestamp + nonce, liveness detection. |
| TTS side-channel exfiltration | LLM hassas veriyi seslendirir; MITM kayıt alır. | SRTP/DTLS zorunlu, server-side egress filter, PII redaction TTS öncesi. |
| Hallucination kaynaklı yanlış bilgi | Asistan uydurma rakam anlatır; müşteri yanlış aksiyon alır. | Grounding + source citation + critical actions için human-in-the-loop. |
| Açık consent eksikliği | Kayıt başlamadan bildirim yapılmamış. | “Bu çağrı kalite amacıyla kaydedilmektedir” + opt-out + aydınlatma metni. |
EU AI Act perspektifinden voice agent’lar genelde “limited risk”; ancak duygu tanıma, biyometrik kimliklendirme veya kritik hizmetler (sağlık, finans karar) söz konusuysa “high-risk” sınıfa girer. Türkiye için KVKK Genel Tebliği 2024-3, sesli AI sistemlerinde “açık rıza” şartının her oturum başında tekrar bildirim yapılmasını öneriyor. Voice agent başarısı operatör deflection rate, FCR ve net promoter score’da ölçülür; sesin “güzel” olması gerek koşuldur ama yeter koşul değildir. Sahte deflection (kullanıcının hayal kırıklığıyla bırakması) projelerin %30’unun başarısız sayılmasının ana sebebidir; “first call resolution” ve “callback within 24h” metriklerini birlikte takip edin.
Use-Case Pattern’ları ve Maliyet Modeli
İki gerçek use-case mimari kararı belirler: inbound çağrı merkezi (otomasyon, deflection) ve outbound proaktif arama (hatırlatma, satış, anket). ROI eşiği çağrı başına maliyet (CPC) ve deflection rate ile ölçülür.
| Senaryo | Tipik dakika | Mimari önerisi | Maliyet/dk (yaklaşık) | Hedef deflection |
|---|---|---|---|---|
| FAQ + sipariş takip | 1-3 dk | Cascade + RAG | 0.06-0.12 USD | %60-75 |
| Randevu rezervasyon | 2-4 dk | Realtime API + tools | 0.30-0.60 USD | %70-85 |
| Konuşma odaklı satış (B2C) | 3-7 dk | Realtime API + persona | 0.40-0.80 USD | conversion bazlı |
| Tahsilat hatırlatma | 1-2 dk | Cascade scripted | 0.05-0.10 USD | %80+ iletim |
| Triyaj (sağlık, sigorta) | 3-6 dk | Cascade + insan handoff | 0.15-0.30 USD | %40-60 |
| Çok dilli destek | 2-5 dk | Realtime API + dil tespiti | 0.50-1.00 USD | %50-70 |
Tipik bir Türkiye kurumsal hesap: aylık 500.000 dakika trafik, %65 deflection hedefi. Cascade + RAG topology’sinde dakika başı 0.08 USD ile ~40.000 USD aylık AI maliyeti; insan agent’a giden 175.000 dakikalık trafiğin %65’i otomasyona alındığında ~325.000 dakika tasarruf, 0.50 USD/dk operatör maliyetinde 162.500 USD eşdeğeri. Net aylık tasarruf ~122.500 USD; bu, asistanın gerçekten çözüm üretmesi koşuluyla geçerlidir. Kurumsal chatbot geliştirme tarafında öğrenilen persona, prompt engineering ve guardrail prensipleri sesli kanalda büyük ölçüde geçerlidir; farklı kısım sesin gerçek zamanlı, geri alınamaz ve duygusal nüanslı olmasıdır.
Sıkça Sorulan Sorular (FAQ)
Sesli AI asistan geliştirmek için Whisper mı, OpenAI Realtime API mı seçmeliyim?
Latency 500 ms altında ve kullanıcının asistanı bölebildiği doğal diyalog kritikse Realtime API tercih edin. Yüksek volume, sıkı maliyet kontrolü, detaylı transcript loglama ve bileşen değiştirme esnekliği önceliğinizse Whisper + LLM + ElevenLabs cascade pipeline’ı 2-3x daha ucuzdur ve regülasyon açısından daha şeffaftır. Çoğu kurumsal proje hibrit yapar: kritik etkileşim Realtime, batch ve düşük öncelik cascade.
Türkçe için Whisper hangi sürümü en iyi performans verir?
Whisper-large-v3 Türkçe Common Voice 16.1 üzerinde yaklaşık %8.39 WER ile en iyi sonucu verir; tek GPU’da yüksek concurrency için faster-whisper large-v3-turbo INT8 quantize edilmiş hali pratikte tercih edilir; WER ~%9-11 bandında kalırken throughput 8x artar. Domain-spesifik veriniz varsa LoRA fine-tuning ile WER’i %4-6 bandına çekebilirsiniz.
ElevenLabs voice cloning yasal mı, KVKK ile uyumlu mu?
Ses sahibinin yazılı açık rızası olmadan voice cloning yapmak KVKK m.5 ve EU AI Act m.50 kapsamında ihlaldir. ElevenLabs Terms of Service voice cloning için consent zorunlu kılar ve içerik watermarking uygular. Kurumsal kullanımda ses kayıt sözleşmesinde “AI training ve voice cloning” maddesi ayrı imza/onay olarak alınmalı, retention süresi belirlenmeli, kullanım amacı sınırlandırılmalıdır.
Voice AI agent’ım barge-in (kullanıcı bölme) çalışmıyor, ne yapmalıyım?
Cascade’de barge-in için üç katman gerekir: mikrofondan akustik echo cancellation (AEC) açık olmalı, TTS playback sırasında mikrofon dinlemeye devam etmeli, VAD eşiği aşıldığında TTS audio buffer’ı hemen flush edilip yeni STT session başlatılmalı. Realtime API’de bu otomatiktir; sorun yaşıyorsanız turn_detection.threshold değerini 0.5’ten 0.4’e düşürün ve silence_duration_ms‘i azaltın.
Sesli asistan için RAG kullanmak gerekli midir?
Asistan dinamik domain bilgisine (ürün katalog, fiyat, stok, müşteri kaydı) cevap verecekse RAG zorunludur; aksi halde hallucination ve eski bilgi sorunu yaşarsınız. Ses kanalı için kritik kısıt latency: vector retrieval p95 80 ms altında olmalı; Pinecone, Qdrant veya pgvector kullanırken HNSW ef_search=64-128 ve 256-768 boyutlu embedding modelleri tercih edin. RAG altyapısı kurulumu tarafında multilingual-e5-large ve BGE-M3 yaygın seçimlerdir.
Sonuç
Sesli AI asistan geliştirme 2026 itibarıyla “tek doğru mimari” sorusunun cevabının olmadığı, açık trade-off’ların belirlediği bir mühendislik alanıdır. Whisper STT cephesinde olgun ve maliyet-etkin bir referans; ElevenLabs ve rakipleri TTS naturalness savaşını sürdürüyor; OpenAI Realtime API ise speech-to-speech mimariyi mainstream’e taşıdı. Doğru karar latency bütçesi, gerçek dakika hacmi, regülasyon yükümlülüğü ve operasyonel olgunluk ekseninde verilir. Genel kural: 500 ms altı latency ve doğal turn-taking kritik değilse cascade ekonomik tercihtir; aksi halde Realtime API ek maliyetini hak eder.
Pratik başlangıç yol haritası: birinci hafta intent ve dialogue flow tasarımı + 50 örnek transcript test seti; ikinci hafta cascade prototip (Whisper + GPT-4o + ElevenLabs Turbo) + LiveKit veya Twilio bridge; üçüncü hafta KVKK uyum, PII redaction, recording vault, consent flow; dördüncü hafta gerçek kullanıcı pilot (50-100 çağrı) + observability dashboard + p50/p95/p99 baseline; beşinci hafta Realtime API A/B testi ile iki mimariyi maliyet-kalite ekseninde karşılaştırma. Bu disiplinli yaklaşım, “tatmin edici demo ama production’da çalışmayan” voice AI projelerinin tuzağından koruyacaktır.
Kapsamlı bir kurumsal yapay zeka entegrasyonu stratejisi içinde sesli asistanı doğru konumlandırmak ve mimari karar destek için Ömer Önal danışmanlığıyla bir keşif görüşmesi planlamak isterseniz iletişim sayfasından ulaşabilirsiniz. Doğru topology + doğru ölçüm + doğru regülasyon hizalanması, projenizin başarı oranını teknik lotaryadan mühendislik kararına dönüştürür.
Referans kaynaklar: OpenAI Realtime API documentation · OpenAI Whisper GitHub · ElevenLabs TTS WebSocket docs · LiveKit Agents framework · ENISA AI Cybersecurity Threat Landscape · NIST AI 100-2e2025 · Mozilla Common Voice Turkish










Ömer ÖNAL
Mayıs 16, 2026Yazılım danışmanlığı projelerinde sıkça karşılaştığım bir soru: “Hangi mimari hangi senaryoda öncelikli olmalı?” Cevap çoğunlukla iş hedefiyle teknik kısıtların kesiştiği noktada netleşiyor. Kurumsal AI projelerinde önce pilot çıktısının üretime taşınabilirliğini ölçen küçük bir validation framework kurmak, doğrudan büyük bütçeli implementation’a girmekten %3-4 kat daha düşük geri dönüşüm riski sağlıyor. Yorumlarınıza açığım.