OCR処理という言葉を見たり聞いたりしたことはありますか?
OCR処理とはスキャニングした書類や書籍からテキストの抽出を可能にしている技術のことです。最近ではAI OCRが浸透して一気に認知度の高い技術になりましたね。
例えばPDFに電子化された書類に書いてある文字列をマウスでドラッグするなどして選択したことはありませんか?画像であるはずのPDFから文字が選択できるなんて不思議ですが、これもOCR処理を施しているからできることなのです。
本記事ではOCR処理の概要やメリット・デメリットを中心に説明します。
Table of Contents
OCR処理とは
OCR処理と一口に言っても、具体的にどのような技術を使って実現されているのでしょうか?この章ではOCR処理に関する基礎的な情報や種類について説明します。
OCR処理の基本情報
OCRとは「Optical Character Recognition(光学文字認識)」の略で、書籍や書類を電子化する際に取り込まれたデータから印刷・手書きのもの問わず文字や数字を探し出してコンピューターが使用できる文字コードに変換して出力するソフトを指します。
OCRの歴史は古く、1914年に文字列を読み取って電気符号に変換する機械が発明されたことによりOCRの研究はスタートします。1950年には世界初の商用OCRシステムが販売され、日本では1968年に手書きの郵便番号の読み取りにOCRが利用されるようになりました。
2023年現在の日本においてOCRは、企業の伝票・帳票管理、書類管理の場面でよく使われている技術であり、昨今のペーパーレスやDXの風潮と合わせて官民問わずメジャーなものになっています。
旧来のOCRではフォントにより識字率にムラがありましたが、2023年現在のOCRは高い識字率を誇り、ほとんどのフォントを変換することが可能になりました。
OCRの中でも最近は手書き文字認識が注目されており、実用化されるとともにより高い精度を目指して研究が進められています。
OCRの仕組み
一般的なOCR処理はスキャナーでスキャニングするだけでは行われず、スキャニング後OCR専用ソフトを使用してテキストを抽出したのちにドキュメントとして出力します。
OCR処理の流れ
OCR処理は簡単に説明すると以下の流れで実行されます。
1.画像の取り込み
書類や書籍などをスキャナーで画像として取り込みます。この時点ではまだOCR処理は施されていません。
2.画像と文字列の分離処理
ここからOCR処理が開始されます。書籍や書類は段組みで記載されているときが多いですよね。OCRは解析を始めるために画像と文字列を分離させて、どの文字列から解析をスタートさせるか決定します。
3.文字列の解析
画像と文字列を分けたら、文字列を1行ずつ分解し、さらに1文字ずつ分解します。
4.文字の解析
1文字に分解したら、ひとつずつターゲットの文字が何の文字か解析を開始します。その文字がどのような線で構築されているか特徴を捉えて、該当する文字をソフト内から検索してマッチング。
その後、文字の前後から該当する単語があるか検索を行って合致したものをデータとして決定します。
5.出力
PDFなどの画像やWord、Excelをはじめとしたドキュメントに解析した文字データを出力して、一連のOCR処理は完了します。
OCR処理に使われる代表的なソフト
OCR処理ソフトは一つだけではなく、OCR技術を扱う各社が販売しています。ここでは代表的なOCR処理ソフトを紹介します。
読取革命5
高精度のOCRエンジンを搭載しているOCR処理ソフト。
誰でも簡単に使えることをテーマにわかりやすい画面表示と操作方法にこだわっており、ユーザーフレンドリーなことで定評のある製品です。
より高精度な文字認識を実現するために認識対象文字を拡張しており、結果としてすべての日本語第二水準漢字3,388文字に対応しています。
「Evernoteクラウドサービス連携機能」が搭載されており、読取革命で作成したデータの保存と管理が可能な点もポイントです。
本格読取5
パナソニック社製の高精度OCRエンジンを採用し、辞書データに約750,000語格納していることから専門書や論文なども高精度で読み取ることが可能な点が特徴。
表組みがされている帳票などを電子化した際、Excelに書き出すことによって表組みを自動で作成してくれる機能があるため、事務作業の簡略化が可能。
傾き補正に力を入れており、スマホで撮影した斜めの文章もまっすぐ補正することができ、傾いた画像は自動で補正してくれるため、楽に文字の認識精度を上げることができます。
Adobe Acrobat Standard DC
PDF作成がメインとなるソフトですがOCR処理機能を搭載しており、最大の特徴は書類における文字画像をベクターデータ化出来ること。ベクターデータにすることで検索はもちろん、PDFの文字が綺麗に描画されてズームしても歪むことがありません。
多言語に対応しているため日本語・英語のみだけではなく、ヨーロッパ圏やアジア圏の言語もカバーして文字認識することができます。
Evernote
Evernoteはオンラインメモアプリであり、純粋なOCR処理ソフトではありません。機能の一つにOCR処理を搭載しており、Evernoteに保存したPDFや写真に対して自動でOCR処理を行ってくれます。
また、Evernoteで検索を実行するとPDFと写真に記載してある文字列も検索対象に含まれるため、検索キーワードから該当するPDFや画像を探し出すという変わった方法を取ることができる点は面白い試みですね。
Googleドライブ
Googleドライブはオンラインストレージであり、Evernote同様純粋なOCR処理ソフトではありませんが、OCR機能を内蔵しています。
Googleドライブに入れたPDFや画像は自動的にOCR処理が施され、テキストを抽出することが可能。印刷された文字の他に手書き文字も読み取ることができる高精度のOCRエンジンを搭載しています。
AI OCR
AI OCRとは、AIを取り入れたOCRのこと。日本語はひらがな、カタカナ、漢字と文字が多いという言語の特徴もあって、今までのOCRでは認識精度の向上が難しいという課題があります。AI OCRではAI技術を利用し、多くの文字データを収集することによって文字の特徴をディープラーニングさせ、文字認識精度を向上させています。
AI研究は2019年現在、活発に研究開発されている分野であり、そんなAIとOCRを組み合わせたAI OCRは、今後のOCRにおける技術発展の要になるジャンルです。
AI OCRで有名なOCR処理ソフトは以下になります。
Tegaki
名前の通り、手書きで行われた書類のOCR処理に特化しているソフト。OCRとディープラーニングを活用した独自アルゴリズムを搭載したAIを利用することによってひらがなやカタカナ、漢字、数字、アルファベット、記号など多くの手書き文字を認識できるように作られています。
OCR処理の障害になっていた手書き書類でよく使用される1文字ずつ記載する枠やチェックボックスにも対応しているため、多くのフォーマットで作成されている書類にOCR処理を施すことを考えている場合に最適な選択肢となります。
DX Suite
AIだからできるオートラーニング機能を搭載しており、使えば使うほどデータが蓄積されて識字精度が向上するように設計されています。また、手書きで乱れた文字で書かれていても高い精度で読み取ることが可能です。
大量のデータをスキャニングしてOCR処理をかけることを得意としていて、自動でスケーリングすることができます。また、高速処理を実現するために分散コンピューティング技術が利用されており、先進的なAI-OCR処理ソフトです。
外国語のOCR
外国語を使用している書類や書籍などに対してOCR処理を施す場合は、OCR処理ソフトが該当する言語に対応している必要があります。
日本製のOCR処理ソフトは日本語市場をメインにしているため、多くの言語に対応していないものが多いのですが、海外製のOCR処理ソフトは海外という市場の関係で英語や中国語といった広い範囲で使われている言語以外にもドイツ語やロシア語などさまざまな言語に対応しているものが多く存在します。
多言語対応で有名なOCR処理ソフトは以下になります。
FlexiCapture
FlexiCaptureは世界的に活躍するABBYY社製ということもあって198の言語に対応しており、複数言語が混在していても高精度でテキストを読み取ることが可能です。多くの言語に対応している点は、さまざまな言語が使われている海外で作られたからこそ実現できた強みでしょう。
また、最先端テクノロジーを利用することで、レイアウトが複雑な書類や書籍でも高精度でテキスト化できる点も特徴です。
Readiris
多言語対応に対応したOCR処理ソフトで120ヶ国語以上をサポート。中欧やバルト海諸国、キリル文字の言語およびギリシャ語やトルコ語などアメリカとヨーロッパの言語すべてに対応しています。
海外で非常に高く評価をされており、PC World Best Buyなど100以上の賞を受賞している点は驚きですね。
また、「スマートタスク」機能によって1クリックでスキャニングから文字認識及び変換、保存まで実行可能なため、作業時間を大幅に短縮できる点も見逃せません。
OCR処理のメリット
OCR処理には多くのメリットがあり、場合によっては電子化よりも重要な要素も存在します。ここではOCR処理のよってもたらされる沢山のメリットの中でも特に大事な要素を紹介します。
検索できる
OCR処理によってもたらされる代表的なメリットが電子化したドキュメントに対して検索できるようになることでしょう。
例えば書籍や書類をPDFで電子化した場合、任意のキーワードで検索を実行することによって該当する場所を一瞬で見つけることができます。
特定のキーワードを紙媒体で探したい場合は目視で1ページずつ見て回るしか方法がありませんが、電子化してかつOCR処理を施すことによって検索という電子ファイルならではの探し方が実現可能になるのです。
検索はOCR処理における一番ポピュラーかつ大きな特徴でしょう。
コピペができる
コピペが行えるようになる点も文字情報を埋め込むOCR処理を施すことで得られる大きなポイントです。書類を電子化したPDFなど画像フォーマットからもテキストをコピーできるため、非常に便利。
ただし、誤認識が混じっている可能性があるため、テキストの精度に関しては注意が必要です。ペーストした後は問題ないか一度確認した方が良いでしょう。
Microsoft Officeにコンバートできる
電子化してOCR処理を施した書類や書籍からテキストをコピーしてWordやExcelといったOfficeソフトにペーストすることによって、新しいファイルとして編集することが可能になります。
例えば原本で誤字が見つかったなどして修正したい点がある場合は自由に修正することができるため、ドキュメントの改訂版も簡単に作ることができます。
紙の復元ができる
貴重な資料や報告書など原本が1冊しか存在しない場合、万が一紛失してしまったら取り返しがつきません。また、紙でできている以上は経年劣化や湿気、害虫などで痛むのは避けられません。
原本を電子化してOCR処理を施してから製本することにより、新品同様の状態で復元することが可能になります。また、冊数についても置く場所がある限り制限がありません。
OCR処理は紙の原本を保管し、復元するためにも重要な要素なのです。
書類の整理が可能になる
例えば会社で取り扱う紙の書類や書籍などは廃棄しない限りオフィスのスペースを占領していきます。しかし、ただ廃棄するわけにはいかない重要な資料や書籍もあることでしょう。
OCR処理は資料や書籍のテキストを維持したまま電子化できるため、データとしてバックアップを取って不要になった原本を廃棄して整理することも可能にします。
再度紙媒体で電子化した書類や書籍が必要になったら印刷するだけで良いので、復元も容易に行えます。
OCR処理のデメリット
OCR処理には多くのメリットが存在しますが、同時に無視できないデメリットも存在します。
文字認識は完璧ではない
デメリットとは少し違うかも知れませんが、どんなに高価で高性能なOCR処理ソフトを使っていても文字認識の正確さは完璧ではありません。書籍や書類の原本に記載してある文字の形状を読み込んで判断するため、誤認識は必ず起きてしまいます。
例を出すと原本に「れ」という文字があった場合、OCR処理ソフトが「ね」と判断してしまう、「大」を「犬」と認識して文字情報を埋め込むなど、似ている形をしている文字が多い日本語ではどうしても誤認識は避けて通れません。
完璧にならない理由の1つにOCR処理で実現できる文字認識の精度は、取り扱う原本の状態やスキャンの解像度によって大きく左右される点が挙げられます。
原本が痛んで文字がかすれていたり、日焼けしている場合はそれだけ認識率が下がる原因になりますし、「①」などの特殊文字が使われていたり、文字と背景のコントラストが低い、斜めになっている等があると文字認識のマッチングがうまくいかずに認識率は下がってしまいます。
認識率を上げるにはモノクロ300dpi前後の高解像度でスキャンしてコントラストを濃く調整したのち、傾きがあれば修正するといった手間をかけなければなりません。文字を認識するためのOCR処理自体はコンピューターが自動で行ってくれますが、OCR処理を実施するまでの下準備は人力で細かい労力をかける必要があるのです。
正確さを求めると目視確認が必要
書類や書籍を電子化した際にOCR処理を施した際、検索機能をメインに使うといったケースでは大きな問題になりませんが、読み取った文字を使用してExcelでデータ分析を実行する、手書き原稿から電子書籍用の文字データとして使用するなど高い精度が必要となる用途では、必ず「人の目」によってテキスト化する校正作業が必要になります。
1~2ページくらいで構成されている書類のデータなどであれば時間はかかりませんが、辞書など100万文字以上の文字を有するデータを目視でチェックしていくとなると完成まで時間がかかります。
2019年現在でもOCR処理は精度の向上を目指して研究されている分野であって、完成されている技術では無いのです。誤認識が必ず出てしまう点が現在のOCR処理の課題であり、限界と言えるでしょう。
AI OCRはクラウドサービスが基本
AI OCRに限って言えば、パッケージの購入やダウンロード購入ではなく、クラウド型のサブスクリプションが基本となります。
サブスクリプションは初期費用が低額で抑えられる反面、仮に1度も使用しなかったとしても毎月数万円引かれることがデメリット。実際にこのランニングコストが割に合わないという理由で解約に至ったケースも多く存在します。
またセキュリティが厳しい会社では、クラウドサービスだと導入自体難しい・・・ということも少なくありません。文字の認識精度は今後もAIを中心に高くなっていくと思われますが、価格とセキュリティはサービスの根本的な仕組みの話でもあり、中々解決が難しいところです。
そのままスキャンのOCR処理サービス
当記事を執筆したそのままスキャンでもOCR処理サービスを提供しており、これまで研究機関様や企業様はじめ業界問わず様々なお客様からご依頼いただいてきました。
最大の特徴は、精度に応じて6種類から選べること。前述した通りOCRソフト「だけ」で文字情報を得ようとすると不正確なものになってしまうため、応用的なソフトの設定や校正システムを取り入れることで、最大99.96%の高い精度を実現しています。お客様に原本ないしデータをお送りいただければ、OCR処理や校正は全て弊社が行うため、月額費用の支払いやセキュリティへの懸念は必要ありません。
予算内でできるだけ高い精度を求める方は、お気軽にご相談ください。
AI OCRを中心に今後も発展が続く
OCR処理は書類や書籍をスキャニングした際にテキストデータを読み取る機能。
2023年現在の日本ではOCR処理機能が搭載されているスマホアプリが登場した背景もあって、より身近な存在になりました。スマホやタブレットに手書きした情報をテキスト化してくれるアプリもあるため、OCR処理技術を日常的に使用している方も沢山いるのではないでしょうか。
OCR処理では誤認識が必ず発生するため完璧とは言えませんが、AIの導入により進歩のスピードが大きく向上し、今後も非常に便利な技術です。研究が始まってから100年以上経った今でも継続して技術発展が行われているOCRは、書籍や書類の電子化において今後が非常に楽しみな分野と言えるでしょう。