AIによる日本語の自然言語処理研究の促進を目指し、日本語に特化した大規模言語モデルがオープンソースとして公開
2021/4/9
rinna株式会社は、日本語に特化したGPT-2の大規模言語モデルを構築し、オープンソースとして公開したと発表した。
Contents
■背景
今回、製品開発のための自然言語処理(NLP)の実験過程で、日本語に特化したGPT-2の大規模言語モデルを構築。日本語のNLP研究コミュニティに貢献するために、開発した言語モデルと、研究者が自分のマシンで実験結果を再現するためのトレーニングコードを、GitHub、およびNLPモデルライブラリHuggingFaceで、オープンソースとして公開する。
■日本語GPT-2モデルの機能
今回、rinna社が公開した日本語GPT-2モデルは、一般的な日本語テキストの特徴を有した高度な日本語文章を自動生成できる。ユーザー/研究者は、特定のテキストデータを微調整して、このモデルから独自のモデルを作成することも可能だ。
例えば、Prefixとして「誰も到達していない人工知能の高みへ、ともに」という文章が与えられたとき、特定のコンテキスト(デモ1:講演の感想、デモ2:書籍の紹介)で応答文を生成するように、微調整できる。
【デモ1】講演の感想のコンテキストで文章生成
■rinna社の日本語GPT-2モデルの特徴
・トレーニングデータとして、CC-100のオープンソースデータを使用している。
・Tesla V100 GPUを用いて、70ギガバイトの日本語テキストを約1カ月の長期間にわたってトレーニング。その結果、このモデルの性能は約18 perplexityを達成した。モデルは十分にトレーニングされており、汎用性があると言えるという。
・ユーザー/研究者が簡単にアクセスできるように、開発したモデルをHuggingFaceに公開。また、研究者が自分のマシンで同社の結果を再現できるように、トレーニングコードをGitHubに公開している。
・今回公開したのは、GPT2-mediumと定義される中規模サイズのモデル。今後、パフォーマンスとコストのトレードオフに基づいてユーザー/研究者が最善の選択をできるよう、異なるサイズのモデルも公開する予定だという。また、異なるデータでトレーニングした新しいモデルの公開も計画しているとのことだ。