음성 AI 모델
원활한 음성 상호작용을 위한 고급 음성-텍스트 변환(STT) 및 텍스트-음성 변환(TTS) 모델.
Whisper-v3
다국어를 지원하는 OpenAI의 가장 발전된 음성 인식 모델.
99+개 언어
높은 정확도
Whisper-large-v3
복잡한 오디오에 대해 향상된 성능을 제공하는 Whisper의 대형 버전입니다.
향상된 성능
복잡한 오디오
Whisper-turbo
실시간 음성 인식 애플리케이션에 최적화된 Whisper 모델입니다.
실시간 처리
낮은 지연 시간
Azure Speech
사용자 정의 모델을 지원하는 Microsoft의 엔터프라이즈급 음성-텍스트 변환 서비스입니다.
엔터프라이즈급
사용자 정의 모델
Google Speech-to-Text
고급 소음 처리를 제공하는 Google의 클라우드 기반 음성 인식 서비스입니다.
클라우드 기반
소음 처리
Amazon Transcribe
화자 식별 기능을 제공하는 AWS 음성 인식 서비스입니다.
화자 식별
AWS 통합
ElevenLabs
자연스러운 음성과 음성 클로닝을 제공하는 프리미엄 음성 합성 서비스입니다.
음성 클로닝
자연스러운 음성
OpenAI TTS
여러 음성 옵션과 스타일을 지원하는 OpenAI의 텍스트-투-스피치 모델입니다.
다양한 음성
스타일 제어
Azure Neural TTS
사용자 지정 음성 생성 기능을 제공하는 Microsoft의 신경망 기반 텍스트-투-스피치 서비스입니다.
신경망 합성
맞춤형 음성
Google Text-to-Speech
자연스러운 음성을 위해 WaveNet 기술을 사용하는 Google 클라우드 TTS 서비스입니다.
WaveNet 기술
자연스러운 음성
TTS-HD
우수한 오디오 품질을 제공하는 고해상도 텍스트-투-스피치 모델입니다.
HD 품질
우수한 오디오
TTS
일반적인 음성 합성을 위한 표준 텍스트-음성 변환 모델입니다.
범용
표준 품질
6
STT 모델
6
TTS 모델
99+
지원 언어
< 2s
처리