LINE、昭和前期以前の資料にも対応するOCRモデルを開発し国立国会図書館のデジタル化資料247万点のテキストデータ化を完了

2022/9/7

Today's PICK UP

LINE株式会社AIカンパニーは、国立国会図書館が保有するデジタル化資料247万点、2億2300万画像を対象とした「デジタル化資料のOCRテキスト化」作業を受託し、同プロジェクトにおいて、「CLOVA OCR」の技術によるモデル開発を実施、全文のテキストデータ化が完了したと発表した。

今回テキストデータ化を行ったデジタル化資料の多くは昭和前期以前の資料であり、レイアウトも複雑なため、既存のOCRでは同プロジェクトに必要な精度に達しないことや、2億2300万枚を超えるデジタル化資料の処理に時間を要する点が課題だったという。そのような中、同社のAI-OCRモデル研究開発チームにおいて、「CLOVA OCR」の技術（以下、ベースラインモデル）を元に、本プロジェクト用のOCRモデル開発を実施した。

ベースラインモデルは現代の書籍や文章、言葉・記号の用法に最適化されているモデルのため、今回のモデル開発において文字サイズや字間・行間が不揃いな書籍や、本文と非本文（ルビ等）、書籍内のインク汚れや透けて見えている文字、右読みの文章など、昭和前期以前の資料特有の点についてチューニングを行った。

出典元：プレスリリース

結果として、全33区分中、1970年代に出版された雑誌資料を除く32区分で国立国会図書館の目標値よりも高い認識性能を発揮するモデルが完成、全文テキストデータ化に寄与したとのことだ。改善結果や本プロジェクト結果の詳細については、国立国会図書館がNDLラボで公開している。

■国立国会図書館「令和3年度デジタル化資料のOCRテキスト化」成果物について

本プロジェクトの成果物は、国立国会図書館より、現在、次の形で提供されている。

1.OCRテキスト化事業の対応字種データ
※テキストファイル
OCRテキスト化事業によって入手したOCRテキストデータの対応字種（23,026文字種）を一覧化した資料（UTF-8）。

2.性能改善作業の一環で作成したOCR学習用データセット（著作権保護期間満了分）
OCR学習用データセットのうち、著作権保護期間の満了した資料から作成されたデータセットを公開している。

3.次世代デジタルライブラリー（著作権保護期間満了分）
OCRテキストデータのうち、著作権保護期間の満了した資料（図書のみ）28万点から作成したテキストデータを利用した、全文テキスト検索機能及び全文テキストダウンロード機能を提供している実験サービス。

4.NDL Ngram Viewer（著作権保護期間満了分）
OCRテキストデータのうち、著作権保護期間の満了した資料（図書のみ）28万点から作成したテキストデータに対して、出版年代ごとの出現頻度を可視化・列挙することができる実験サービス。