音声認識AIの教師データ「audioコーパスデータセット」にて、新しい会話区分『職業面談』のデータセットの先行販売を開始

2024/8/23

Today's PICK UP

音声認識AIの教師データを販売するaudioコーパス株式会社は、8月22日（木）より新たなデータセットをリリースする。
これにより、データセットの提供時間数は150時間を超えますので、AIに学習させるデータをゼロから作成する手間が省け、必要な会話区分に沿ったAI開発をスピーディーに進めることができるようになる。

Contents

■audioコーパスデータセットとは
音声データ仕様
■audioコーパスデータセットの３つの強み
テキストデータ仕様
■「日本語話し言葉コーパス」(CSJ）の仕様に準じたタグ付与
■「記者ハンドブック」(共同通信社発刊）の仕様に準じた日本語表記
■リリースの背景
■こんな方におすすめ
■購入の流れ

■audioコーパスデータセットとは

audioコーパスデータセットは、音声とテキストをセットにした発話データである。AI学習の要件に合わせ、既にタグなどを付与した整形データのため、そのまま開発に利用できるデータ構造となっている。

※音声データ：wavファイル／テキストデータ：csvファイル、txtファイル、eafファイル　にてご提供します

出典元：プレスリリース

音声データ仕様

• 会話区分（営業商談、コールセンター、対談、面談など）によるリアルな会話を収録
• 一対一の会話において、RとLでチャンネルを分けたステレオ収録
• 著作権や個人情報などの人の声に関する権利関係を整理（※本人の許諾なく声を使用することは固く禁じられている）

■audioコーパスデータセットの３つの強み

出典元：プレスリリース

テキストデータ仕様

• 相づちやどもりなども忠実にすべて書き起こし
• フィラー、言い間違いなどの抽出に、６つのタグを付与
• 発話ごとに区間を区切り、細かく発話を利用・分析することが可能

出典元：プレスリリース

■「日本語話し言葉コーパス」(CSJ）の仕様に準じたタグ付与

出典元：プレスリリース

■「記者ハンドブック」(共同通信社発刊）の仕様に準じた日本語表記

日本語文章は、表記ゆれ、誤字脱字、聞き間違いなど気にすべき点が多数ある。
audioコーパスでは「記者ハンドブック」(共同通信社発刊）を採用し、表記ルールを徹底している。

出典元：プレスリリース

■リリースの背景

発話データは権利フリーのものが市場にほとんど存在しない。理由として、人の声というのは「個人情報」としても扱われ、許諾なく使用することができないことが挙げられる。
そのため、システム開発において発話データが必要になった際は、音声データを自前で調達し、またそれを一から書き起こさなければならない。一方で、発話データを学習させる際は「表記のゆらぎ」など気にかけなければいけないことも多く、品質を高めるためには手間と時間がかかる。
そんな課題を解決するため、発話データの製作所として、ニーズを調査し、必要なデータセットを販売しているのがaudioコーパス株式会社である。
今回リリースする『面談』のデータセットは、自然発話が多く、汎用性も高くて扱いやすいデータである。