rinna、日本語に特化した36億パラメータのGPT言語モデルを公開

rinna株式会社は、日本語に特化した36億パラメータを持つ汎用言語モデルと対話言語モデルの2種類のGPT言語モデルをオープンソースで公開したと発表した。

◾︎背景

同社は「人とAIの共創世界」をビジョンに掲げ、人と人との間にAIが介在することによる豊かなコミュニケーションを通して、すべての人が自分らしい創造性を発揮できる社会の実現を目指しているという。このビジョンの実現に向け、AIりんなをはじめとしたAIキャラクターと人のテキスト・音声・画像を介した新しいコミュニケーションの形を提供してきた。また、誰もが気軽にAIを使える世界を目指す「AIの民主化」という考え方に共感し、研究成果を積極的に発表・公開してきた。これまでに日本語に特化したGPT・BERT・HuBERT・CLIP・Stable Diffusionなどテキスト・音声・画像に関する事前学習モデルを公開し、Hugging Faceでのモデルダウンロード数は累計160万を超え、多くの研究・開発者が利用しているとのことだ。
出典元:プレスリリース

◾︎概要

2018年にOpenAI社から提案されたGPT(Generative Pre-trained Transformer)は、高速な学習が可能なTransformer構造と大量のテキストを学習データとして利用できる自己教師あり学習により、テキスト生成において技術的なブレイクスルーをもたらしたという。その後もGPTは進化を続け、OpenAI社が2022年にサービスを開始したChatGPTは一般のユーザーが広く利用するまでの技術革新となっている。ChatGPTは、汎用GPT-3言語モデルに対して対話形式でユーザーの指示を遂行するタスクを実現するようなfine-tuningと、生成されたテキストに対して人間の評価を再現する報酬モデルのスコアを導入した強化学習により構築される。

GPTのような大規模言語モデルを学習するためには大量の計算資源が必要となり、誰でも気軽に学習できるわけではないため、多くの研究機関や企業が事前学習した大規模言語モデルをオープンソースで公開することで発展に貢献している。しかし、オープンソースの大規模言語モデルは英語に特化していることが多く、日本語言語モデルの選択肢は十分にあるわけではないという。同社はこれまでに日本語に特化した13億パラメータのGPTなどを公開し、多くの研究・開発者が利用しているが、今回、より利用の幅を広げられるよう日本語に特化した36億パラメータを持つ汎用言語モデルと対話言語モデルの2種類のGPT言語モデルをオープンソースで公開する。これらのモデル公開により、日本語言語モデルを活用した研究・開発がより発展することを期待するとのことだ。

◾︎特徴

特定のドメイン特化ではない汎用GPT言語モデル(rinna/japanese-gpt-neox-3.6b)と、汎用GPT言語モデルを対話形式の指示遂行ドメインにfine-tuningした対話GPT言語モデル(rinna/japanese-gpt-neox-3.6b-instruction-sft)を学習し公開した。これらのモデルには以下の特徴がある。

・汎用言語モデルは、日本語のWikipedia・C4・CC-100のオープンソースデータを用いて学習されている。対話言語モデルは、HH-RLHF・SHP・FLANの一部を日本語に翻訳したデータを用いて学習されている。

・汎用言語モデルのperplexityは8.68を達成している。8.68 perplexityとは、GPTが次の単語を予測するときに単語の候補数を8.68に絞られていることを意味する。

・対話言語モデルのインターフェースは、対話形式を採用しユーザーが利用しやすいように設計している。

・事前学習済みのモデルは、Hugging Faceに商用利用可能なMIT Licenseで公開されている。

・ユーザーは、2種類のモデルから利用者の目的に応じて最適なモデルを選択することができる。さらに、特定の利用目的に対して性能を最適化させたい場合には、fine-tuningやin-context learningにより精度向上を目指すことができる。

Article Tags

Special Features

連載特集
See More