rinna、日本語に特化した36億パラメータのGPT言語モデルを公開
2023/5/18
rinna株式会社は、日本語に特化した36億パラメータを持つ汎用言語モデルと対話言語モデルの2種類のGPT言語モデルをオープンソースで公開したと発表した。
◾︎背景
◾︎概要
GPTのような大規模言語モデルを学習するためには大量の計算資源が必要となり、誰でも気軽に学習できるわけではないため、多くの研究機関や企業が事前学習した大規模言語モデルをオープンソースで公開することで発展に貢献している。しかし、オープンソースの大規模言語モデルは英語に特化していることが多く、日本語言語モデルの選択肢は十分にあるわけではないという。同社はこれまでに日本語に特化した13億パラメータのGPTなどを公開し、多くの研究・開発者が利用しているが、今回、より利用の幅を広げられるよう日本語に特化した36億パラメータを持つ汎用言語モデルと対話言語モデルの2種類のGPT言語モデルをオープンソースで公開する。これらのモデル公開により、日本語言語モデルを活用した研究・開発がより発展することを期待するとのことだ。
◾︎特徴
・汎用言語モデルは、日本語のWikipedia・C4・CC-100のオープンソースデータを用いて学習されている。対話言語モデルは、HH-RLHF・SHP・FLANの一部を日本語に翻訳したデータを用いて学習されている。
・汎用言語モデルのperplexityは8.68を達成している。8.68 perplexityとは、GPTが次の単語を予測するときに単語の候補数を8.68に絞られていることを意味する。
・対話言語モデルのインターフェースは、対話形式を採用しユーザーが利用しやすいように設計している。
・事前学習済みのモデルは、Hugging Faceに商用利用可能なMIT Licenseで公開されている。
・ユーザーは、2種類のモデルから利用者の目的に応じて最適なモデルを選択することができる。さらに、特定の利用目的に対して性能を最適化させたい場合には、fine-tuningやin-context learningにより精度向上を目指すことができる。