音声 AI モデル

シームレスな音声インタラクションを実現する高度な音声認識(STT)および音声合成(TTS)モデル。

Whisper-v3

多言語対応の、OpenAI による最先端の音声認識モデル。

99以上の言語
高精度

Whisper-large-v3

複雑な音声に対して性能が向上した Whisper の大規模バリアントです。

性能向上
複雑な音声対応

Whisper-turbo

リアルタイム音声認識アプリケーション向けに最適化された Whisper モデルです。

リアルタイム処理
低レイテンシ

Azure Speech

Microsoft のエンタープライズ向け音声認識サービスで、カスタムモデルに対応しています。

エンタープライズグレード
カスタムモデル

Google Speech-to-Text

高度なノイズ処理機能を備えた、Google のクラウドベース音声認識サービスです。

クラウドベース
ノイズ処理

Amazon Transcribe

話者識別機能を備えた AWS の音声認識サービスです。

話者識別
AWS 連携

ElevenLabs

自然な音声とボイスクローン機能を備えたプレミアム音声合成。

ボイスクローン
自然な音声

OpenAI TTS

複数の声質やスタイルに対応した OpenAI のテキスト読み上げモデル。

複数の音声
スタイル制御

Azure Neural TTS

カスタム音声の作成が可能な Microsoft のニューラル音声合成サービス。

ニューラル合成
カスタム音声

Google Text-to-Speech

自然な音声のために WaveNet 技術を採用した Google のクラウド TTS サービス。

WaveNet 技術
自然な音声

TTS-HD

高音質なオーディオを実現する高精細テキスト読み上げモデル。

HD品質
優れた音質

TTS

汎用の音声合成向け標準テキスト読み上げモデルです。

汎用
標準品質
6
STT モデル
6
TTS モデル
99+
対応言語
< 2s
処理