LINE、昭和前期以前の資料にも対応するOCRモデルを開発し国立国会図書館のデジタル化資料247万点のテキストデータ化を完了
2022/9/7
LINE株式会社AIカンパニーは、国立国会図書館が保有するデジタル化資料247万点、2億2300万画像を対象とした「デジタル化資料のOCRテキスト化」作業を受託し、同プロジェクトにおいて、「CLOVA OCR」の技術によるモデル開発を実施、全文のテキストデータ化が完了したと発表した。
ベースラインモデルは現代の書籍や文章、言葉・記号の用法に最適化されているモデルのため、今回のモデル開発において文字サイズや字間・行間が不揃いな書籍や、本文と非本文(ルビ等)、書籍内のインク汚れや透けて見えている文字、右読みの文章など、昭和前期以前の資料特有の点についてチューニングを行った。
■国立国会図書館「令和3年度デジタル化資料のOCRテキスト化」成果物について
1.OCRテキスト化事業の対応字種データ
※テキストファイル
OCRテキスト化事業によって入手したOCRテキストデータの対応字種(23,026文字種)を一覧化した資料(UTF-8)。
2.性能改善作業の一環で作成したOCR学習用データセット(著作権保護期間満了分)
OCR学習用データセットのうち、著作権保護期間の満了した資料から作成されたデータセットを公開している。
3.次世代デジタルライブラリー(著作権保護期間満了分)
OCRテキストデータのうち、著作権保護期間の満了した資料(図書のみ)28万点から作成したテキストデータを利用した、全文テキスト検索機能及び全文テキストダウンロード機能を提供している実験サービス。
4.NDL Ngram Viewer(著作権保護期間満了分)
OCRテキストデータのうち、著作権保護期間の満了した資料(図書のみ)28万点から作成したテキストデータに対して、出版年代ごとの出現頻度を可視化・列挙することができる実験サービス。