Speech AI モデル

Speech AI Models

シームレスな音声インタラクションを実現する高度な音声認識・音声合成モデル。

Whisper-v3

OpenAI の最先端音声認識モデルで、多言語に対応。

99+ 言語

高精度

詳細

Whisper-large-v3

複雑な音声に対して性能が向上した Whisper の大型モデル。

性能向上

複雑な音声対応

詳細

Whisper-turbo

リアルタイム音声認識向けに最適化された Whisper モデル。

リアルタイム処理

低レイテンシ

詳細

Azure Speech

Microsoft のエンタープライズ向け音声認識サービスで、カスタムモデルに対応。

エンタープライズ品質

カスタムモデル

Google Speech-to-Text

Google のクラウド型音声認識サービスで、高度なノイズ処理に対応。

クラウドベース

ノイズ処理

Amazon Transcribe

話者識別機能を備えた AWS の音声認識サービス。

話者識別

AWS 連携

GPT-4o Transcribe Diarize

OpenAI imzalı, konuşmadan metne odaklı yapay zeka modeli.

詳細

GPT-4o Transcribe

OpenAI imzalı, konuşmadan metne odaklı yapay zeka modeli.

詳細

GPT-4o Mini Transcribe

OpenAI imzalı, konuşmadan metne odaklı yapay zeka modeli.

詳細

Automatic speech recognition,

Microsoft imzalı, konuşmadan metne odaklı yapay zeka modeli.

詳細

ElevenLabs

自然な音声とボイスクローン機能を備えた高品質音声合成。

ボイスクローン

自然な音声

詳細

OpenAI TTS

複数の音声オプションとスタイルを備えた OpenAI の音声合成モデル。

複数の音声

スタイル制御

Azure Neural TTS

Microsoft のニューラル音声合成サービスで、カスタムボイスの作成が可能。

ニューラル合成

カスタムボイス

Google Text-to-Speech

Google の WaveNet 技術を用いたクラウド TTS サービスで、自然な音声を生成。

WaveNet 技術

自然な音声

TTS-HD

高音質のテキスト読み上げを実現するハイビジョン音声合成モデル。

HD 品質

高音質

TTS

一般用途向けの標準的な音声合成モデル。

汎用

標準品質