文字起こしAI「Whisper」とは？音声認識モデルなど分かりやすく解説

2023/8/30

ChatGPTをリリースしたOpenAIがWhisperという音声認識ソフトをリリースしました。音声認識ソフトは、会議などの音声を文字に起こして議事録を作成する際に大変便利です。この記事ではWhisperの基本的な概要について解説します。

Contents

音声認識モデルとは？
Whisperとは
Whisperの利用料金
Whisper APIとは？

音声認識モデルとは？

音声認識モデルは、AIによって人の声を判別し、その認識結果から何らかの情報を生成する技術のことを言います。多くの人が知っている例として、Amazon Echoのようなスマートスピーカーが挙げられます。これは、私たちの声をきちんと理解し、意図を掴んで情報の提供や連動する機器の制御を行います。

スマートスピーカーだけではなく、話された音声を即座に翻訳するサービスや、声のトーンから話者の感情を解析するサービスもあります。OpenAIの「Whisper」というサービスは、音声認識モデルを用いて、提供された音声ファイルからテキスト情報を生成するものの一例です。

Whisperとは

Whisperは、OpenAIによる無料の文字起こし向け音声認識モデルであり、Webから得られた68万時間の多言語の音声データに基づき教師付きデータで学習を実施しています。これにより、音声を非常に高い精度でテキスト化することができます。

このWhisperモデルには、5つの異なるモデルサイズが設定されており、largeモデルを選択するほど文字起こしの品質が向上します。

日本語の文字起こしの精度に関しては、公表された「単語誤り率」において、5.3％という数値で6位を記録しています。この数字は、スペイン語やイタリア語、英語、ポルトガル語、ドイツ語に次ぐもので、日本の企業が今後Whisperを導入する可能性が高まるでしょう。

出典元：https://github.com/openai/whisper

Whisperの利用料金

Whisperを文字起こし目的で使用する際、API経由では料金が発生します。しかしそのコストは1分ごとに0.006ドルととても手頃です。1時間の利用で約50円～60円程度の出費となります。一方で、GitHubにあるオープンソースのモデルを利用すると無料での使用が可能です。ただ、どちらの方法もセットアップが求められるため、すぐに使い始めることは難しい点があります。

Whisper APIとは？

2023年3月1日、OpenAIは「Whisper API」を公表しました。この公開を受けて、開発者たちはWhisper APIやChatGPT APIを活用し、WhisperやChatGPTモデルを各アプリや商品に取り入れることができるようになりました。

初めにChatGPTやWhisper APIを採用した例として、「Quizlet」という全世界的な学習プラットフォームや、スピーキングに焦点を当てた言語学習アプリ「Speak」が挙げられます。特に、学習者向けの会話トレーニングでの精確なフィードバックは、Whisper APIの導入によってもたらされたメリットの一つとされています。