ニュース
» 2015年07月06日 17時38分 UPDATE

凸版のOCR技術、古典籍の「くずし字」を80%超の精度でテキストデータ化

今夏から、開発したOCR処理技術を使った古典籍のテキストデータ化サービスを試験的に開始する予定。

[eBook USER]

 凸版印刷は7月3日、江戸期以前の古典籍に用いられた「くずし字」を高精度でテキストデータ化するOCR(光学文字認識)技術を開発したと発表した。

『源氏物語』のOCR処理によるテキストデータ化 『源氏物語』のOCR処理によるテキストデータ化

 この技術は、同社が2013年から提供している「高精度全文テキスト化サービス」のテキストデータ化技術のシステム基盤をベースに、公立学校法人公立はこだて未来大学の寺沢憲吾准教授が開発した「文書画像検索システム」を組み合わせることで実現。

 2014年度に実施した検証実験では、くずし字で記されている書物を80%以上の精度でOCR処理することに成功した。

古典籍のテキストデータ化処理の流れ 古典籍のテキストデータ化処理の流れ

 技術開発の背景について凸版印刷は、「近年、大規模災害による資料アーカイブの必要性の見直しや、専門家の減少と資料の経年劣化による文化継承の危機的状況から、歴史的資料のデジタル化やテキストデータ化が求められているが、総数100万点以上ともいわれる江戸期以前のくずし字で記されている古典籍は、専門家による判読が必要とされ、テキストデータ化が遅れていた」と説明している。今回の新たなOCR技術開発により、専門家に依頼した場合と比べて大幅なコスト削減と、大量処理が可能になるとしている。

 同社では、今夏から同OCR処理技術を使った古典籍のテキストデータ化サービスを試験的に開始する予定。

Copyright© 2016 ITmedia, Inc. All Rights Reserved.

ITmedia Book Club会員登録がまだの方はこちら

電子書籍/紙を問わず、読書を愛する皆さまに向け、特別な情報提供、書籍の献本、著者や業界関係者との懇親会、執筆活動を検討されている方へのサポートなどを順次提供し、皆さまの読書を強力にバックアップします。

コンテンツパートナー

新刊JP
ラノコミ.com
hon.jp
新文化通信社
Good E-Reader Blog
ぶくまる