OCR処理とは?

電子データにした書籍の中身を検索したり、コピー&ペーストできるようにする処理です。

OCR処理と検索

たとえば紙の書籍から目的のページを探そうとすると何時間も掛かってしまう時がありますが、
電子化することでPC上でのキーワード検索が可能となり、劇的な効率化が実現出来ます。


しかし、スキャニングでPDF化するだけでは不十分です。
スキャニング画像はデジタルカメラの写真と同じで、そのデータの中には文字情報が含まれておりません
(写真でとった看板の文字をPC上で検索できないのと同じです。)
文字情報がなければ、書籍の中身を検索することは当然できません。


これを実現するのがOCR処理という作業です。書籍をスキャニングした電子データにOCR処理をかけることで、
膨大な資料や書籍に書かれている何百万文字の中からキーワードを瞬時に探し出しそのページにたどり着くことができます。

OCRの仕組み

OCR処理は、スキャニングした画像の上に透明な文字を埋め込んでいます。

OCR処理をかけていない場合

OCR未処理の文書

上画像は書籍をスキャニングしたものですが、OCR処理は行っていません。
ページ中に本文が書かれていますが、これはただの画像のため、中の文字を検索したり、コピー&ペーストすることはできません。

OCR処理をかけている場合

OCR処理ありの文書

OCR処理をかけている画像では、
画像上に透明な文字が追加され『ここにはこの文字が書かれています』という文字情報がPDFに埋め込まれています。


『透明』文字なので、OCR処理をかけたPDFデータと未処理のデータを見比べても目視では違いは判りません。
つまり画像データの見た目はそのまま、文字情報だけを埋め込むことができます。


専門のソフトを使いOCR処理を実施することで、ファイル内の文字を検索したり抽出することができるようになるのです。
なお、各言語に対応した専門のOCR処理ソフトが世界中から出ています。
弊社では対象となる言語によってOCR処理ソフトを使い分けて使用しています。

OCR処理には必ず文字の誤変換が

しかし、ソフトを使ったOCR処理は完璧ではありません。
あくまで元画像に書かれた文字の形状を判断して自動で文字を埋め込んでいくため、文字の誤認識が必ず発生します。

OCR処理で誤変換が発生した例

オリジナルの文書では『れ』
OCR処理で誤認識が発生し『ね』と読まれてしまいました

例えば、元画像に「れ」という文字があった場合、
OCR処理ソフトがその文字を誤認識し「ね」という文字で透明文字を埋め込んでしまうことがあります。


この誤認識の発生率は、以下の値が高いほど改善されます。


「スキャン解像度」 「スキャン時のカラー」 「スキャン元の書籍や資料の状態」


ただし、どんな条件でも文字の誤認識率が0%ということはありません。誤認識は必ず発生いたします。

完璧なテキストデータを作成するには膨大な時間と費用が

作業や校正に時間をかけることでテキストデータの精度は改善します

OCRの誤認識が多ければ作業時間も増大します。
文字の誤認識のない完璧なテキストデータを作成するためにはソフトでOCR処理をした後、人間の目で誤認識を発見し修正する必要があります。


しかし、完璧なテキストデータの作成には全ての文字をチェックする必要があり、膨大な作業時間と費用が発生します。
例えば辞書のような書籍の場合、100万文字以上の文字をチェックし修正しなければなりません。
当然、誤認識の多いデータほど作業時間は多くかかります。


よって、お客様がOCR処理を行う目的やご予算に応じてどこまで精度の高いテキストデータを作成すべきなのか考慮する必要があるのです。