LLM開発用の高品質、権利クリアな日本語データセットをFastLabelが販売開始

2024/3/12

Today's PICK UP

AI開発に必要なデータ収集・生成からアノテーション、モデル開発、MLOps構築までの全工程をサポートしているFastLabel株式会社は、大規模言語モデル（以下、LLM）開発用の高品質で権利クリアな日本語データセット販売サービスを2024年3月12日より開始したと発表した。

Contents

LLM開発用日本語データセット提供の背景
FastLabelが提供する日本語データセットの特徴

LLM開発用日本語データセット提供の背景

米OpenAI社の「GPT-4」、米Meta社の「Llama2」を始めとするLLMが公開されたことを受け、コンテンツを生成することが可能な生成AI（Generative AI）技術が急速に発展しており、直近でも、米Google社の「Gemini1.5」、米Anthropic社の「Claude3」など新たなLLMが次々と発表されている。

しかし、日本国内における日本語のLLM開発においては、AIに学習させるために日本語で作成されたデータセットが少ない状況だ。

FastLabelでは従前よりLLM開発用の日本語データセット作成代行サービスを提供していたが、作成代行という形態によりお客様の細かなニーズに沿ったデータセットを提供できる一方で、データセット提供までに一定のリードタイムを要すること、既存のデータセットを購入する場合よりもデータ一件当たりの価格が上がりやすいことがネックになる場合があったそうだ。そこで、一般的なLLM開発で利用しやすい高品質なデータセットを独自に構築し、同データセットを販売するサービスを開始することにしたという。

FastLabelが提供する日本語データセットの特徴

タスクの多様性
一般知識の回答、ユーザーに与えられた情報からの推論、文章の創作、メモ書きからのビジネス文書の清書など、多様なシーンを想定したタスクを設定している。

ジャンルの多様性
各タスクについて、幅広いジャンルの知識に基づいたデータセットとなっております。また、一般に正確性の要求が高い、健康等のジャンルについては特に高い品質基準を設け、誤った情報が混入しないよう細心の注意を払っている。

権利クリア
提供するデータセットは全て当社でゼロから作成しており、権利リスクがなく、安心してご利用できる。

高品質
当社ではデータの正確性や多様性に関する細かな品質管理基準を設定しており、データ作成工程、データ作成後の品質検査工程で基準への適合を担保しております。また、今後データセットの品質に関する指標を数値でご提供することも計画しており、お客様による品質確認が困難な大量データであっても安心してご利用頂ける仕組みを整えている。

低価格
創業以来培ってきた教師データ作成のノウハウ、当社で開発したLLM等を活用した原価低減活動を継続的に実施しており、低価格でデータセットをご提供することが可能。