そのままスキャンからのOCRは目的に応じて4種類。

全ての書籍で完璧なテキストデータを作成しようとすると、膨大な人間の作業が発生するため、多くの費用や時間が発生します。

「検索用途」などお客様の目的に応じては完璧なテキストデータを作成しなくてもその目的を達成できてしまいます。

よって、弊社ではお客様の目的に応じて4種類のOCR処理を提案させていただいております。

OCR処理って何?って思った方は

そのままスキャンの4つのOCR処理料金表

自動認識OCR処理 9円/ページ
手動レイアウト設定OCR処理 50円~/ページ
手修正テキスト化OCR処理 100円~/ページ
二重目視チェックにおける文字校正・編集OCR処理 150円~/ページ

※上記料金に消費税は含まれておりません。

1, 主に検索用途のためにOCR処理を行いたい方

自動認識OCR処理

通常何かを検索するときは「○○○」等単語で検索することが多いと思います。

このような場合、文章中の2,3文字は誤変換されたとしても、単語そのものは正常に文字認識されている場合が多いため、完璧なテキストデータを製作しなくても検索の精度にはあまり影響は出ません。

よって、検索目的でのOCR処理を行いたいというお考えの方には自動認識OCR処理をお勧めします。


自動認識OCR処理とは弊社仕様のOCR処理ソフトでPDF上に自動的に透明テキスト文字を埋め込んでいく作業です。文字の校正・修正を一切行わないため最も安く電子データに文字情報を埋め込むことができます。

なお、OCR処理ソフトで自動的に文字を埋め込んでいくため、文字の誤変換があります。

料金 9円/ページ
対応言語 日本語、英語以外にも、中国語(簡体、繁体)等様々な言語に対応可能です。 ※詳しくは弊社までご相談ください。
納品形式 自動OCR認識処理はPDF形式での納品のみに対応しております。
OCR処理費用例 文字量にかかわらず1ページ9円となります。
<例>50ページの書籍 50ページ×9円=450円
文字の抽出精度について 書籍の状態、もしくはスキャンの解像度、カラー選択(カラー・グレースケール・白黒二値)によっても文字の誤認識率が変わってまいります。
自動OCR認識処理に関しては文字の校正・修正は一切行いません。
文字テキストを書籍から正確に抽出したい場合は手修正テキスト化OCR処理をご利用下さい。
こんな方にオススメ
  • 電子化した資料の中身を検索出来ればいい
  • 出来るだけ費用をかけずにOCR処理をしたい
  • とにかく早くテキストデータが欲しい

※上記料金に消費税は含まれておりません。

2, レイアウトが複雑な書籍のOCR処理を行いたい方

手動レイアウトOCR処理

自動認識OCR処理は機械が自動で文章のレイアウトを設定するため、横書きの文章を間違えて縦書きと認識してしまったり、もしくは段落そのものを認識しなかったりする場合があります。特に雑誌や2段組みの書籍のように複雑なレイアウトだとそのような問題が多く発生します。

OCR処理でレイアウトを誤認識してしまった例

正しいレイアウト

矢印の順に読むのが正しい順番

正しいレイアウト

レイアウトを誤認識してしまった例

このように書籍のレイアウトが複雑な場合、読む順番そのものをOCR処理ソフトが誤認識してしまうことがあります。

文字そのものの認識精度は高くてもレイアウトが間違っていると文章としては成立しません。

これを防ぐためには、手動レイアウト設定OCR処理で弊社スタッフがOCR処理をかける前に目視にて手動でレイアウトを設定する必要があります。

この処理を行うことによって文字の誤認識の原因となるレイアウトの誤った設定を事前に防ぐことができます。

また、書籍の途中にあるノンブルや章タイトルのテキスト情報そのものをOCR処理の対象から省くことも可能です。

料金 50円/ページ~
対応言語 日本語、英語以外にも、中国語(簡体、繁体)等様々な言語に対応可能です。 ※詳しくは弊社までご相談ください。
納品形式
  • PDFファイル(.pdf)
  • テキストファイル(.txt)
  • wordファイル(.doc)
に対応しています。
OCR処理費用例 <例>50ページ2段組みの会報誌の場合
枠設定費用50ページ×60円=3000円
OCR処理費用50ページ×9円=450円
合計3450円
文字の抽出精度について 書籍の状態、もしくはスキャンの解像度、カラー選択(カラー・グレースケール・白黒二値)によっても文字の誤認識率が変わってまいります。手動レイアウト設定OCR処理に関してはレイアウトの設定は手動でおこないますが、文字の校正・修正は一切行いません。文字テキストを書籍から正確に抽出したい場合は二重目視の文字校正・編集OCR処理をご利用下さい。
こんな方にオススメ
  • 雑誌のテキストデータが欲しい
  • 2段組みや図表など、複雑なレイアウトの資料にOCR処理を施したい
  • ページ中の指定箇所だけテキストデータが欲しい

※上記料金に消費税は含まれておりません。

3, 書籍から高精度で文字を抽出したい方

手修正テキスト化OCR処理

弊社スタッフが目視にて自動OCR処理されたテキストの誤変換を修正いたします。

よって、文字校正を行うことによって文字の抽出精度の高いテキストデータを得ることができます。

官公庁様等で主に利用されています。

料金 100円~/ページ
対応言語 日本語、英語以外にも、中国語(簡体、繁体)等様々な言語に対応可能です。 ※詳しくは弊社までご相談ください。
納品形式
  • PDFファイル(.pdf)
  • テキストファイル(.txt)
  • wordファイル(.doc)
に対応しています。
備考 文字数や書籍の状態によって作業負荷が変わってくるため料金も変わります。
よって、実際の資料(書籍)の状態をお電話、メールにてご連絡いただくか、もしくは資料(書籍)を見させていただいたうえでのお見積りとなります。
文字の抽出精度について 実際に弊社スタッフが目視、手入力にて高精度に文字の校正・修正をおこないますが、完璧なテキスト抽出を保証するものではございません。さらに精度の高いテキスト抽出をお考えのお客様は、二重目視チェックにおける文字校正・編集OCR処理をご利用ください。
スキャニング作業について 文字校正・編集作業が伴う「手修正テキスト化OCR処理」ならびに「二重目視チェックにおける文字校正・編集OCR処理」はスキャン段階で誤認識の精度を抑えるため、白黒二値、600dpiにてスキャン作業を行います。
こんな方にオススメ
  • テキストデータの誤字脱字を少なくしたい
  • 精度は高めたいが予算が限られている

※上記料金に消費税は含まれておりません。

4, 最も高精度にテキストを抽出したい方

二重目視チェックの文字校正・編集OCR処理

文字校正編集されたテキスト文書を弊社別スタッフが再度目視チェックをすることにより、限りなく文字の誤認識を排除した高品質のテキスト文書を作成いたします。

こちらは、元資料が紙の書籍しか残っておらず、その底本から電子データを作成する必要がある印刷会社、出版社様や、書籍から高精度に文字情報を抽出したい翻訳会社様などに適しています。

100%に近いテキストデータを作成 そのままスキャンのベリファイシステム

そのままスキャンのベリファイシステムとはシステムを利用して3人の校正者が文字校正をおこなうことで、文字のご認識率0.003パーセント以下を実現した完璧に近いテキストデータを作成するためのシステムです。

まず始めに1人目の校正者(A)と2人目の校正者(B)が誤認識が生じている同じテキストデータの校正をおこないます。

そして、それぞれの校正者(AとB)が完成させたデータをそのままスキャン独自のシステムで照らし合わせます。

システムで照らし合わせた結果再度間違っているところを3人目の校正者(C)が目視にて修正します。

このようにそのままスキャンの二重目視チェックの文字校正・編集OCR処理では、全部で3人の文字校正者が作業を行うことにより、100%に限りなく近いテキストデータを制作しています。


※そのままスキャンの二重目視チェックの文字校正・編集OCR処理ではエラー0.003%以下を実現しています。

料金 150円~/ページ(文字数やレイアウトなどによって変動)
対応言語 日本語、英語以外にも、中国語(簡体、繁体)等様々な言語に対応可能です。 ※詳しくは弊社までご相談ください。
納品形式
  • PDFファイル(.pdf)
  • テキストファイル(.txt)
  • wordファイル(.doc)
に対応しています。
備考 手修正テキスト化OCR処理に加えた作業となります。よって、1ページの文字数、書籍のページのレイアウト、スキャニング時のカラー等によって作業料金が変わってまいります。
詳しくは弊社スタッフまでお問い合わせください。
スキャニング作業について 文字校正・編集作業が伴う「手修正テキスト化OCR処理」ならびに「二重目視チェックの文字校正・編集OCR処理」はスキャン段階で誤認識の精度を抑えるため、白黒二値、600dpiにてスキャン作業を行います。
こんな方にオススメ
  • 原稿データの無い絶版本を再販したい
  • データ分析・集計の為の正確なテキストが必要
  • 既に校正された状態でデータが欲しい

※上記料金に消費税は含まれておりません。

OCR処理とは?

電子データにした書籍の中身を検索したり、コピー&ペーストしたりできるようにする処理です。

紙の書籍を電子化する最大の利点は書籍に検索機能をつけられること

紙の書籍を電子化したデータには紙の書籍と比べて様々な利点があります。 その様々な利点の一例を下に並べてみます。

電子化した書籍の利点例

持ち運びが便利、保管場所をとらない

持ち運びが便利な電子書籍

電子化した書籍や資料は電子データでできているためハードディスクに入れてしまえば何百冊もいっぺんに持ち運ぶことができます。

よって、重い辞書やシリーズで発行されている会報誌などもタブレット端末などに入れて簡単に持ち運びすることが可能です。

また、電子化することによって今まで会社の大部分を占領していた書籍や資料がなくなり、スペースの有効活用や費用の削減につながります。

手で持てないほどのたくさんの書籍も電子化してしまえば、簡単に持ち運ぶことができ、大幅な手間の削減、コスト削減につながります。

複製が容易

複製が容易

紙の書籍を複製することは膨大な時間と費用を必要とし、しかも紙の書籍の複製作業は印刷会社様などの専門業者の機械を使わなければできません。しかし、電子化された書籍のデータはパソコン上で誰でも容易に複製することができます。複製のコストも時間も紙の書籍の比ではないくらい少なく抑えることができます。

コピーが簡単にできることによって、社内に眠っている貴重資料などがさらに有効活用できるようになります。

電子化した書籍にどこからでもアクセスできる

OCR処理したデータにはどこからでもアクセスが出来ます。

電子化された書籍は紙の書籍と違い、オンライン上に電子化された書籍のデータをアップロードしてしまえば、インターネットを通してどこからでもアクセスすることが可能です。よって、世界中のあらゆる人に低コストで貴重な情報を届けることができます。

多くの人に自社の情報を届けることによって、認知度向上や売上アップが見込めます。

上記は紙の書籍を電子化するメリットの一例です。

このように紙の書籍と比べて電子化された書籍には様々なメリットがあります。


しかし、紙の書籍を電子化した最大のメリットは別にあります。

紙の書籍を電子化する最大のメリットは

OCR処理をすれば書籍の中身を検索することができ、しかも書籍から文字だけを瞬時に抜き出すことができるということです。

OCR処理で書籍内の検索を実現

紙の書籍は目的のページを探すために何時間も書籍を開いて探さなければなりません。

しかし、書籍をスキャニングした電子データにOCR処理をかけることによって、膨大な資料や書籍の中に書かれている何百万文字の中から目的のキーワードを瞬時に探し出しそのページにたどり着くことができます。

また、目的のページに書かれている文字を簡単に抜き出す(コピー&ペースト)こともできます。

これを実現するのがOCR処理という作業です。


OCR処理をかければ書籍を検索できるようになることが書籍を電子化する最大のメリットです。

OCR処理でスキャンした画像の上に透明のテキスト文字を埋め込む

OCR処理とは具体的にはPDFファイルにどのような処理をおこなっているのでしょう。

答えはスキャニングした画像の上に透明な文字を埋め込んでいます。

書籍や資料をスキャニングしただけの電子データはただの画像です。

つまりスキャニングした画像はデジタルカメラでとる写真と同じで、そのデータの中には文字情報が含まれておりません。(写真でとった看板の文字をパソコン上で検索できないのと同じです。)

よって、文字情報がなければ、書籍の中身を検索することは当然できません。

つまり、PDFデータの中身を検索できるようにするためには、必ずOCR処理をおこなわなければなりません。

OCR処理をかけていない場合

まず、OCR処理をかけていない場合の実際に目に見える画像とその画像の拡大図をみてください。

上の画像は書籍をスキャニングした画像です。OCR処理はおこなっていません。

ページ中に本文が書かれていますが、これはただの画像のため、この中の文字を検索したり、コピー&ペーストすることはできません。

上の画像の中の文字を検索できるようにするためには、この画像の中に文字情報を埋め込んであげる必要があります。

そのためには必ずOCR処理をかけなければなりません。

OCR処理をかけている場合

次にOCR処理をかけている場合の実際に目に見える画像とその画像の拡大図を見てください。

書籍の拡大図

OCR処理をかけている場合は画像の上に透明な文字が追加されている状態です。

つまりこの場所に「あ」の文字がかかれていますという文字情報をPDFファイルに埋め込んでいます。

そして、OCR処理でPDFデータに追加されるのは透明な文字のため、OCR処理をかけたPDFデータとOCR処理をかけていないPDFデータを見比べても目視では違いは判りません。

つまり画像データの見た目はそのままで文字情報だけを画像データに埋め込むことができます。

このようにOCR処理をかけることによって、そのファイルの中身の文字を検索したり抽出したりすることができるようになるのです。

それを実現してくれるのがOCR処理という作業で、OCR処理をかけるための専門のソフトを使うことによって画像データに透明文字の埋め込みを実現することができます。


なお、各言語に対応した専門のOCR処理ソフトが世界中から出ています。

弊社ではOCR処理の対象となる言語によってOCR処理ソフトを使い分けて使用しています。

OCR処理ソフトを使ったOCR処理には必ず文字の誤変換がおこる

しかし、OCR処理ソフトを使ったOCR処理は残念ながら完璧ではありません。

あくまでソフトが元画像に書かれている文字の形状を判断して自動で文字を埋め込んでいくため、文字の誤認識が必ず発生いたします。

OCR処理で誤変換が発生した例

OCR処理前の元画像
OCR処理で誤認識が発生した元画像

例えば、上の例のようにスキャンした元画像に「れ」という文字があった場合、OCR処理ソフトがその文字を「ね」と誤認識し、「ね」いう文字で透明文字を埋め込んでしまうことがあります。

この誤認識の発生率は、

  • 「スキャン解像度」…スキャン解像度が高いほど文字の認識精度も高い
  • 「スキャン時のカラー」…白黒二値でスキャニングするのが最も文字の認識精度が高い
  • 「スキャン元の書籍や資料の状態」…スキャン元の書籍や資料の状態が悪いと文字の認識精度が悪くなる (※画像処理によってある程度文字の認識精度を高める補正を行うことができる)
  • によって変わりますが、どんな条件でも文字の誤認識率が0%ということはありません。

    誤認識は必ず発生いたします。

完璧なテキストデータを作成するためには膨大な時間と費用がかかる

OCRの誤認識が多ければ作業時間も増大します。

文字の誤認識のない完璧なテキストデータを作成するためにはOCR処理ソフトでOCR処理をしたあとに、人間の目で誤認識を発見し修正する必要があります。

この作業は全ての文字をチェックし、修正する必要がありますので完璧なテキストデータを作成するためには膨大な作業時間と費用が必要となってきます。

例えば辞書のような書籍の場合は100万文字以上の文字をチェックし修正しなければなりません。


よって、お客様がOCR処理をおこなう目的やご予算に応じてどこまで文字認識精度の高いテキストデータを作成すべきなのかを考慮する必要があります。

誤認識の多いデータほど文字を修正するために作業時間が多くかかります。

4種類のOCR処理料金表へ戻る方はこちらをクリックしてください。

OCR処理の活用例

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です