AIによる日本語の自然言語処理研究の促進を目指し、日本語に特化した大規模言語モデルがオープンソースとして公開

rinna株式会社は、日本語に特化したGPT-2の大規模言語モデルを構築し、オープンソースとして公開したと発表した。

■背景

rinna社は、MicrosoftのAI&リサーチ部門でAIチャットボットの研究を行っていたチームがスピンアウトして2020年6月に設立したAI開発企業。ディープラーニング技術を活用し、AIが文脈に応じた会話文を自動生成して人間と自然に会話する「共感チャットモデル」、AIが話し声や歌声で豊かな感情表現を可能にする「音声合成システム」などの技術を発表してきた。これらの最新技術は、同社が運営するAIチャットボット「りんな」や、会話内容や音声表現をカスタマイズしてキャラクター性を持たせたAIチャットボットである「AIキャラクター」の開発に応用され、企業のマーケティングなどに使われている。

今回、製品開発のための自然言語処理(NLP)の実験過程で、日本語に特化したGPT-2の大規模言語モデルを構築。日本語のNLP研究コミュニティに貢献するために、開発した言語モデルと、研究者が自分のマシンで実験結果を再現するためのトレーニングコードを、GitHub、およびNLPモデルライブラリHuggingFaceで、オープンソースとして公開する。

■日本語GPT-2モデルの機能

言語モデルは、言語データの機械学習をもとに、会話や文章の「人間が使う言葉らしさ」を確率としてモデル化したもの。優れた言語モデルとは確率を正確に推定できるものを指す。例えば、“確率(吾輩は猫である)>確率(吾輩が猫である)”と推定できるのが、言語モデルの能力だ。GPT-2は、単語レベルの確率の組み合わせから文の確率を計算する言語モデル(自己回帰言語モデル)。例えば、“確率(吾輩は猫である)= 確率(吾輩) x 確率(は|吾輩) x 確率(猫|吾輩,は) x 確率(で|吾輩,は,猫) x 確率(ある|吾輩,は,猫,で)”のような方法で推定を行う。この能力を使って、GPT-2は「吾輩は猫で」という接頭辞(Prefix)を与えられたとき、確率の推定から次にくる単語として「ある」を選択し、文章を自動生成できるという。

今回、rinna社が公開した日本語GPT-2モデルは、一般的な日本語テキストの特徴を有した高度な日本語文章を自動生成できる。ユーザー/研究者は、特定のテキストデータを微調整して、このモデルから独自のモデルを作成することも可能だ。

例えば、Prefixとして「誰も到達していない人工知能の高みへ、ともに」という文章が与えられたとき、特定のコンテキスト(デモ1:講演の感想、デモ2:書籍の紹介)で応答文を生成するように、微調整できる。

【デモ1】講演の感想のコンテキストで文章生成
出典元:プレスリリース
【デモ2】書籍の紹介のコンテキストで文章生成
出典元:プレスリリース

■rinna社の日本語GPT-2モデルの特徴

同社の日本語GPT-2モデルは、以下の特徴がある。

・トレーニングデータとして、CC-100のオープンソースデータを使用している。
・Tesla V100 GPUを用いて、70ギガバイトの日本語テキストを約1カ月の長期間にわたってトレーニング。その結果、このモデルの性能は約18 perplexityを達成した。モデルは十分にトレーニングされており、汎用性があると言えるという。
・ユーザー/研究者が簡単にアクセスできるように、開発したモデルをHuggingFaceに公開。また、研究者が自分のマシンで同社の結果を再現できるように、トレーニングコードをGitHubに公開している。
・今回公開したのは、GPT2-mediumと定義される中規模サイズのモデル。今後、パフォーマンスとコストのトレードオフに基づいてユーザー/研究者が最善の選択をできるよう、異なるサイズのモデルも公開する予定だという。また、異なるデータでトレーニングした新しいモデルの公開も計画しているとのことだ。

Article Tags

Special Features

連載特集
See More