AI音声認識アプリ「CLOVA Note」が好調発進。LINEはAIの活用で、どのような世界を築こうとしているのか
2022/9/20
重要な会議での議事録作成、流れるままに進んでいく講義。いずれもメモやノートを取るのに必死で、内容が頭に残っていない。こうした不毛な時間を過ごした経験はありませんか? LINE株式会社が今年5月にローンチした「CLOVA Note(クローバ・ノート)」は、「会話を目で見る」ことができる、と謳う無料のAI音声認識アプリ。これまで実時間以上の時間をかけて書き起こしてきた作業をAIに任せることができるのなら、私たちは本質を追求したクリエイティブなことに、もっと時間を割けるようになるはずです。
これまでも人と人とのコミュニケーションを真正面に置いた事業を展開してきたLINE。新しいコミュニケーションの形を目指し続けるその先に、どのような世界を描いているのか? 同社AIカンパニーCEOを務める砂金 信一郎氏、Speechチーム マネージャーの木田 祐介氏にお話を伺いました。
Contents
ざっくりまとめ
- 「CLOVA Note」は、あらかじめ正解を示さなくても、自分で学習してくれるAIを利用した、最先端のEnd-to-End音声認識を採用。
- 「人の仕事を奪うのではなく、面倒な作業から解放するためのAIプロダクト」と砂金氏は話す。
- LINEは、『ドラえもん』のように人に寄り添う「ひとにやさしいAI」を標榜。
- 日本語と向き合い、紡いだ技術を、アジアへ、世界へ。
最先端、かつ注目度の高いAI技術を駆使したプロダクト
砂金:LINEは“コミュニケーション屋さん”です。人と人の会話をよりスムーズにすることを得意としています。音声認識、音声合成はその最たるもので、スマートスピーカーに初めてこの技術を用いて以来、ノウハウを蓄積しながら、「コミュニケーションをより楽にする」という使命感のもと、音声認識技術の向上を進めてきました。
ちなみに、この音声認識技術は昔からあるものです。例えば、カーナビです。ただ、昔の技術には実用性がなく、目的地を告げても全然認識してくれませんでしたよね。機械相手に「違うって言ってるだろ!」って本気で怒鳴ってしまう人もいるくらい(笑)。変な認識をして人間をイラつかせるみたいな、そういう不幸な歴史がありましたが、ここを起点にCLOVA Noteに搭載されているような技術に至るまでには何段階か変革がありました。
まずは、ディープラーニングの進化です。これによって音声認識の性能が飛躍的に上がり、2017年に発表したスマートスピーカー『CLOVA WAVE(クローバ・ウェーブ)』につながりました。その後、直近では、AIによる自動画像生成サービス『Midjourney(ミッドジャーニー)』や文章生成ツール『GPT-3』といったように、ディープラーニングの活用が進んでいます。
我々もこれらの技術に取り組んできましたが、一つひとつの小さなモデルをたくさんつくるよりも大きなモデルをつくるほうが全体の開発ロスが少ないと考え、当社がNEST(ネスト)と呼ぶ、大規模モデルを構築しました。これは、スマートスピーカーが認識できる以上の長い文章を書き起こしできるだけでなく、一言一句を正しく読み解くことを得意としています。この技術を活かせる領域を考えたとき、「会話を書き起こす」という、ものすごく時間のかかる面倒な作業に活用しようということで、CLOVA Noteの開発に至りました。
――CLOVA Noteの特徴を教えてください。
木田:End-to-End音声認識を採用している点が、大きなポイントです。これは音声から直接、文字列を生成できるニューラルネットワーク(※1)と呼ばれるもので、その中でもCLOVA NoteではSelf-Supervised Learning(自己教師あり学習)という学習法を利用しています。従来、AIを学習させるには、「この人は、このように発音したよ」という正解テキストを、人間がたくさん用意して示す必要があります。その喋った内容と正解のテキストをペアにしてモデル学習させるのですが、これはお金もかかりますし、すごく大変です。一方、Self-Supervised Learningは、音声さえあれば、正解テキストがなくても自分で学習してくれます。
どのように学習するのかというと、喋った内容と正解テキストのペアを使った学習の準備段階として、AIに穴埋め問題を解かせるんです。例えば「我が輩は猫である」という音声のうち、「猫」の部分が穴埋めになっているとします。ここを「猫」と答えさせるには、その穴埋めの場所だけでなく、「である」や「我が輩」を隠すなど何パターンも学習させるのですが、そのうちAIが「この文脈だと、ここは『猫』だな」と当てられるようになります。音声が「猫」なのか、「2個」なのか微妙な場合も、AIは文脈的に「猫」が入るだろうと理解しています。こうした画期的な新しい技術をCLOVA Noteにいち早く取り入れています。
※1 ニューラルネットワーク:脳内の神経細胞(ニューロン)のネットワーク構造を模した数学モデル
砂金:音声認識の精度が高いことは、それはそれで誇らしいのですが、ユーザーさんの叶えたいことは、「精度の高い音声認識を使いたい」というよりも、「喋ったことを見える化したい」だと思っています。CLOVA Noteは、ここをUIで解決しようとしています。例えば、「LINEにログインするだけで使える」「LINEのキャラクターで話者分離されて表示されるので、誰が何を言ったのか分かる」「会話がスクロールで流れて読みやすい」といった機能も特徴として挙げられます。そのほうが出力結果がCSVファイルで表示されるより、活用しやすいのではないでしょうか。要点を探しやすくする検索機能や、ブックマーク機能もこだわりです。
人には、よりクリエイティブな仕事を。他のAI技術をかけあわせた機能の搭載へ
砂金:入社したての社員の方は、「ミーティングに出て議事録をまとめてください」という指示をよく受けると思いますが、「いつ、あの人は、こういう発言をした」みたいなトークログを提出するようでは怒られてしまいます。つまり、人間が時系列で話した会話をまとめても議事録とはいえません。我々の目指す議事録ツールとしての完成系は、ミーティングで議論した要点や決定事項が時系列でしっかりと読み解けるようにすること。「いつ、あの人は、こういう発言をした」というのをすべて厳密に覚えていなくても特徴的なフレーズを自動で文字化し、キーワード検索ができるようにする。その状態を目指すのが、第一歩です。
その次のチャレンジが、会話の流れから要点を拾い出し、議事録として生成できる状態を目指すこと。これが実現すれば、“議事録起こし屋さん”がいらなくなります。これはAIが人の仕事を奪うとかではなく、人を「すごく面倒だな」と思いながら行っている作業から解放し、もっとクリエイティブな仕事ができるようにするためのものです。議事録を取ることに集中するよりも会議で発言したほうが、時間の使い方としては、よっぽど有意義です。我々はそういう方向に発展させていきたいですね。
木田:砂金の話すとおり、このあとは音声認識の精度というよりも、要約機能や翻訳機能の搭載だったり、ホワイトボードの情報をAI-OCR(※2)でデータ化したり、他のAI技術との組み合わせを考えています。ここはNLP(Natural Language Processing:自然言語処理)チームや画像処理チームが持つAI技術と一体となって、どういう価値を提供していくのかを考えていくことになると思います。
※2 AI-OCR:OCR(Optical Character Reader)に AI技術を組み合わせることで、機械学習による文字認識率の向上や特定項目の自動抽出による効率化を可能とする技術のこと
砂金:ほかに類似アプリがいくつもあるということは、ユーザーさんの困りごとが解決していないという事実ともいえます。その課題を解決できる能力を我々は持っているのに、やらないのは不義理なことです。市場で競争していくというよりも、より多くの方に我々の技術を身近に感じてほしいという想いのほうが強いです。例えば、学生さんのあいだで、「講義メモを取るなら、CLOVA Noteが便利らしいよ」という口コミが広まるような。我々としては、このような、ちょっとした日常的な困りごとのお助けになれたらと思っています。
――ユーザーの使い方で、印象に残っている例はありますか?
木田:テーブルトークRPGというテーブルゲームのジャンルがあるのですが、ここでの会話をCLOVA Noteで録音して書き起こしている方がいらっしゃったり、介護業界の方がお使いになっていたりと、我々の想像を超えていろいろな使い方をしていただいています。
――介護業界の方はどのようにお使いなのでしょうか?
砂金:これは推測ですが、おそらく個人メモとして使われているのではないでしょうか。フリック入力するよりも喋るほうが早いですし、おおよそ間違いがなければ、少しの編集だけで共有できますから。「今日の業務はこんな感じでした」と話すだけで活字化できるようになったことで、これまでスマホの操作を苦手としていた方が臆することなく使えるようになったのなら、それはITを身近に感じていただける環境を提供できているということですから、我々としてはとてもうれしいです。
「あらゆる人の生活や仕事に寄り添う身近なAIになる」という想い
砂金:CLOVA Noteは、想いが結晶化して、いい感じの姿形になったAIアプリの一つですが、以前、流れたニュースの影響なのか、「AIやロボットは人の仕事を奪う存在」「世の中がさらに無機的になってしまう」みたいなことを想像される方も多いんですよね。とはいえ、我々の価値観で身近なAIを想像すると、例えば『ドラえもん』が浮かぶわけです。『ドラえもん』は侵略してきません。それどころか、人間にそっと寄り添い、助けてくれる。そこには命令ではなく、コミュニケーションが介在していて、AIだけれども身近に接することができます。我々もそういったAI技術の応用先をどんどんつくっていこうよ、という想いを「ひとにやさしいAI」という言葉で表しています。
コンシューマー向けのアプリをつくってきたLINEとして、AIの事業においても特定の人だけが便利になったり、生産性が上がったりするのではなく、あらゆる人の仕事や生活の仕方、デバイスやAIとの距離や感じ方に変化を及ぼせる活動がしたいですし、そういうプロダクトを提供し続けたいと考えています。
――効率化を目指してAIを使うことが当然の世の中になりましたが、効率化以外の活用法として提案できることはありますか?
砂金:画像も音声も、これまでは認識する側でAIを使っていましたが、ここ3年のあいだに生成や合成の領域もすさまじい勢いで進化しています。いま、私はこの部屋に1時間いて自分の言葉で喋っていますが、今後は、“3Dアバターの私”が、リアル風な声でそれっぽいことを喋る、みたいな技術が出てくると思います。ヒューマノイドロボットやアバターが勝手に会話をするような世界はもう少し先になるとは思いますが、その要素技術である音声合成を滑らかにしたり、「この人、次にこういうことを言いそうだよね」というのを当てにいったりするような、新しい技術はどんどん出てきています。これまで人間にしかできなかったクリエイティブな作業の一部を補完するために使えるようになれば、皆さんの仕事がちょっとは楽になるのではないでしょうか。意外とその進化は早いかもしれません。
木田:とはいえ、生成技術がどんどん進んでいくと、“なりすましAI”なんかもつくりやすくなってしまうんですよね。ディープフェイクや嘘動画が常に話題になっていますが、こうした悪用されるケースにどう立ち向かうのかは、今後の課題になると思います。
音声認識技術を足掛かりに、グローバルビッグテックに比肩する会社を目指す
木田:CLOVA Noteは、おかげさまでよいアプリとして、ユーザーの皆さんに受け入れていただけました。これからもっと多くのユーザーさんを助けられるように精度技術を高めていきたいです。同時に、End-to-End音声認識が不得意とする部分――例えば、リアルタイムでの文字起こし、個別のお客さんに向けた特有単語への対応といったことを補完できるカスタマイズ技術の開発も進めていきたいです。開発全体では先述のとおり、音声認識だけではなく、他の技術との融合が要になると思うので、開発メンバーの一員としてしっかり取り組んでいきたいです。
砂金:日本語は他言語と比べて複雑で面倒なことも多く、学習が大変です。しかし、だからこそチャレンジする必然性があると考えています。どんなに面倒でも、日本語と向き合わなければいけないという状況から紡ぎ出したAIの技術を日本人だけが享受するのではなく、この先は東アジア全域に広げていきたいです。そうして、これまでよりも便利な生活や仕事スタイルへと変わっていくお手伝いができたらいいなと思っています。そんな世界を目指して、まずは音声認識の領域であらゆる人に便利と言ってもらえるサービスをつくり上げる。その上で、ゆくゆくはどこか特定の分野で、グローバルビックテックと呼ばれる大企業よりも、LINEのこの仕組みがすごいと言ってもらいたい。そうなれるようNo.1にこだわっていきたいですね。
砂金 信一郎
LINE株式会社 執行役員 AI事業担当 AIカンパニー カンパニーCEO
東工大卒業後日本オラクル、ローランド・ベルガー、 マイクロソフトでのエバンジェリスト経験等を経て2016年にLINE株式会社に入社。2020年2月にAIカンパニーCEO、AI事業統括を担当する執行役員に就任。また、2019年度より政府CIO補佐官、2021年9月よりデジタル庁 プロジェクトマネージャーを兼任。
木田 祐介
LINE株式会社 Speechチーム マネージャー
京都大学にて修士課程修了後、東芝、ヤフーを経て2020年にLINE株式会社に入社。学生時から一貫して音声認識・音声信号処理技術の研究開発に従事。国立情報学研究所客員研究員。