文字起こしAI「Whisper」とは?音声認識モデルなど分かりやすく解説
2023/8/30
ChatGPTをリリースしたOpenAIがWhisperという音声認識ソフトをリリースしました。音声認識ソフトは、会議などの音声を文字に起こして議事録を作成する際に大変便利です。この記事ではWhisperの基本的な概要について解説します。
Contents
音声認識モデルとは?
スマートスピーカーだけではなく、話された音声を即座に翻訳するサービスや、声のトーンから話者の感情を解析するサービスもあります。OpenAIの「Whisper」というサービスは、音声認識モデルを用いて、提供された音声ファイルからテキスト情報を生成するものの一例です。
Whisperとは
このWhisperモデルには、5つの異なるモデルサイズが設定されており、largeモデルを選択するほど文字起こしの品質が向上します。
日本語の文字起こしの精度に関しては、公表された「単語誤り率」において、5.3%という数値で6位を記録しています。この数字は、スペイン語やイタリア語、英語、ポルトガル語、ドイツ語に次ぐもので、日本の企業が今後Whisperを導入する可能性が高まるでしょう。
Whisperの利用料金
Whisper APIとは?
初めにChatGPTやWhisper APIを採用した例として、「Quizlet」という全世界的な学習プラットフォームや、スピーキングに焦点を当てた言語学習アプリ「Speak」が挙げられます。特に、学習者向けの会話トレーニングでの精確なフィードバックは、Whisper APIの導入によってもたらされたメリットの一つとされています。