OpenAI, geliştiricilerin konuşabilen, anlık çeviri yapabilen ve canlı transkripsiyon sunabilen uygulamalar geliştirmesi için API tarafına yeni ses zekâsı modelleri ekledi. Yeni modeller, şirketin Realtime API ürünü içinde kullanıma sunuldu.
Yeni modellerin merkezinde GPT-Realtime-2 yer alıyor. OpenAI’a göre bu model, önceki GPT-Realtime-1.5 sürümüne kıyasla daha karmaşık kullanıcı taleplerini karşılamak için GPT-5 sınıfı akıl yürütme yetenekleriyle geliştirildi. Model, kullanıcılarla daha gerçekçi ve doğal sesli konuşmalar kurabilen uygulamalar için tasarlandı.
OpenAI ayrıca GPT-Realtime-Translate adlı yeni canlı çeviri modelini de duyurdu. Model, konuşma akışını takip ederek gerçek zamanlı çeviri sunmayı hedefliyor. Şirketin açıklamasına göre sistem 70’ten fazla giriş dili ve 13 çıkış dili destekliyor.
Üçüncü yeni model ise GPT-Realtime-Whisper oldu. Bu model, konuşma devam ederken sesi metne dönüştürebilen canlı speech-to-text özelliği sunuyor. OpenAI’ın dokümantasyonuna göre GPT-Realtime-Whisper, özellikle düşük gecikmeli canlı transkripsiyon deneyimleri için geliştirildi.
Bu modellerle OpenAI, gerçek zamanlı ses deneyimlerini basit soru-cevap yapısından çıkarıp daha işlevsel bir seviyeye taşımak istiyor. Şirket, yeni sistemlerin dinleyebilen, akıl yürütebilen, çevirebilen, transkribe edebilen ve konuşma devam ederken aksiyon alabilen sesli arayüzler geliştirmeyi mümkün kıldığını belirtiyor.
Yeni özellikler özellikle müşteri hizmetleri, eğitim, medya, etkinlikler ve creator platformları için önemli olabilir. Şirketler bu modellerle daha doğal konuşan destek botları, anlık çeviri araçları, canlı altyazı sistemleri veya toplantı sırasında not çıkaran sesli asistanlar geliştirebilir.
OpenAI, olası kötüye kullanımlara karşı Realtime API içinde güvenlik katmanları bulunduğunu da açıkladı. Şirket, zararlı içerik politikalarını ihlal eden konuşmaların tespit edilmesi halinde oturumların durdurulabileceğini; geliştiricilerin de Agents SDK üzerinden kendi ek güvenlik önlemlerini ekleyebileceğini belirtiyor.
Yeni modeller fiyatlandırma tarafında farklı modellere sahip. GPT-Realtime-2 token bazlı ücretlendirilirken, GPT-Realtime-Translate dakika başına 0,034 dolar, GPT-Realtime-Whisper ise dakika başına 0,017 dolar olarak fiyatlandırılıyor.
Realtime API Nedir?
Realtime API, geliştiricilerin düşük gecikmeli sesli ve çok modlu AI uygulamaları geliştirmesini sağlayan OpenAI API ürünüdür. Bu API ile uygulamalar kullanıcılarla canlı konuşabilir, sesi anlayabilir, yanıt üretebilir, çeviri yapabilir ve konuşma devam ederken transkripsiyon sağlayabilir.
FounderN, Türkiye’nin girişim ve teknoloji haber platformudur.
LinkedIn | Instagram | FounderN 09:13 Bülteni | FounderN Daily





