米国議会図書館プログラマー、OpenCVでスキャン書籍から図版だけ抽出する方法を解説

OpenCVでスキャン画像から図版要素のみを抽出するハック。

» 2013年09月02日 11時25分 公開
[hon.jp]
hon.jp

 米国議会図書館で書籍スキャンシステムの開発に携わっているプログラマーのクリス・アダムス氏が、オープンソースの画像処理・画像認識用ライブラリ「OpenCV」を用いてスキャン書籍から図版だけ抽出する方法を解説している。

画像認識の結果(画像出典:アダムス氏のブログ記事)

 アダムス氏は、実験システムにOpenCV、Python(スクリプト言語)、numpy(Python用数値演算ライブラリ)を使用。手動でフィルタ値をスライダー調整しながらイラスト部分の質感を検知する方式のため、全自動とはいかないが、スキャン書籍や新聞などからかなり高精度に図版の抽出に成功したとのこと。

 今後これを発展し、デジタル化蔵書の検索ポータルなどの新UI開発に活用したいとのこと。

Copyright 2015 hon.jp, Inc. All Rights Reserved.