OpenAI Whisper
OpenAI'nin Konuşma Tanıma Modeli. 99 dilde otomatik transkripsiyon ile sektörün en iyisi.
Whisper Nedir?
Whisper, OpenAI tarafından geliştirilen dünya çapında lider konuşmayı metne dönüştürme (Speech-to-Text) modelidir. Model, 680,000 saat çok dilli ve çok görevli eğitim verisiyle eğitilmiştir. 99 farklı dilde %95+ doğruluk oranı ile konuşmaları metne dönüştürebilir. Whisper, sadece transkripsiyon değil, aynı zamanda çeviri ve dil tanıma gibi görevleri de mükemmel bir şekilde gerçekleştirir. Gürültülü ortamlarda bile yüksek doğruluk sağlar. Podcast transkripsiyon, video altyazı oluşturma, sesli asistan uygulamaları, müşteri hizmetleri kayıtları ve erişilebilirlik çözümleri için ideal bir seçimdir.
Teknik Özellikler
30 saniye ses segmenti
transkript metni
2024
Aktif
Yetenekler
Benchmark Skorları
Avantajlar & Dezavantajlar
Avantajlar
- 99 dilde mükemmel destek
- Yüksek doğruluk oranı
- Gürültüye karşı dayanıklı
- Timestamp desteği
- Otomatik dil tanıma
- Çeviri özelliği
Dezavantajlar
- 25MB dosya boyutu limiti
- Çok konuşmacılı ortamlarda zorluk
- Ağır aksanlar bazen sorun çıkarabilir
Özellikler
Çok Dilli Destek
99 farklı dilde profesyonel kalitede transkripsiyon.
Yüksek Doğruluk
%95+ doğruluk oranı ile sektör standardı.
Gürültü Toleransı
Gürültülü ortamlarda bile güvenilir performans.
Otomatik Dil Tanıma
Konuşulan dili otomatik olarak tespit eder.
Timestamp Desteği
Her kelime veya segment için zaman damgası.
Çeviri Özelliği
Herhangi bir dilden İngilizce'ye direkt çeviri.
Kullanım Alanları
Podcast Transkripsiyon
Podcast'leri otomatik olarak metne dönüştürme.
Video Altyazı
YouTube, film ve eğitim videoları için altyazı oluşturma.
Müşteri Hizmetleri
Telefon görüşmelerinin transkripsiyon ve analizi.
Sesli Asistanlar
Sesli komut ve sorguları metne dönüştürme.
Erişilebilirlik
İşitme engelliler için gerçek zamanlı altyazı.
Örnek Kod
from openai import OpenAI
client = OpenAI()
# Ses dosyasını transkript et
with open("audio.mp3", "rb") as audio_file:
transcript = client.audio.transcriptions.create(
model="whisper-1",
file=audio_file,
response_format="text"
)
print(transcript)
# Timestamp ile transkript
with open("audio.mp3", "rb") as audio_file:
transcript = client.audio.transcriptions.create(
model="whisper-1",
file=audio_file,
response_format="verbose_json",
timestamp_granularities=["word"]
)
print(transcript)