お電話でのお問い合わせ9:00~20:00 03-5937-0420
メールでのお問い合わせは24時間 info@sei-syou.com
  • ホーム
  • ご利用案内
  • 料金
  • 実績紹介
  • お支払い方法
  • よくある質問
  • お申し込み

そのままスキャンのOCR処理(透明テキスト埋め込み処理)サービス

そのままスキャンはお客様の目的に応じて4種類のOCR処理を提案させていただいております。

全ての書籍で完璧なテキストデータを作成しようとすると、膨大な人間の作業が発生するため、多くの費用や時間が発生します。

「検索用途」などお客様の目的に応じては完璧なテキストデータを作成しなくてもその目的を達成できてしまいます。

よって、弊社ではお客様の目的に応じて4種類のOCR処理を提案させていただいております。

OCR処理って何?と思ったかたはまずはこちらをクリックしてください。

そのままスキャンの4つのOCR処理料金表

自動認識OCR処理 1ページ 9円
手動レイアウト設定OCR処理 1ページのレイアウトが1枠の場合、枠設定費用50円/ページ 枠が1つ増えるごとに+10円/ページ。
手修正テキスト化OCR処理 1ページ 100円~
二重目視チェックの文字校正・編集OCR処理 1ページ 150円~

※上記料金に消費税は含まれておりません。

1、主に検索用途のためにOCR処理をおこないたいとお考えの方

自動認識OCR処理の概要

通常何かを検索するときは「○○○」等単語で検索するこが多いと思います。
このような場合、文章中の2,3文字は誤変換されたとしても、、単語そのものは正常に文字認識されている場合が多いため、完璧なテキストデータを製作しなくても検索の精度にはあまり影響は出ません。
よって、検索目的でのOCR処理をおこないたいというお考えのかたには自動認識OCR処理をお勧めします。

自動認識OCR処理とは弊社仕様のOCR処理ソフトでPDF上に自動的に透明テキスト文字を埋め込んでいく作業です。文字の校正・修正を一切行わないため最も安く電子データに文字情報を埋め込むことができます。
なお、OCR処理ソフトで自動的に文字を埋め込んでいくため、文字の誤変換があります。

料金 1ページ 9円
対応言語 各種言語に対応したOCR処理が可能です。
例(日本語・英語・中国語(簡体)・中国語(繁体)・ドイツ語・フランス語・ロシア語・イタリア語・スペイン語・ポルトガル語・韓国語)等
納品形式 自動OCR処理はPDF形式での納品のみに対応しております。
OCR処理費用例 文字量にかかわらず1ページ9円となります。
<例>50ページの書籍 50ページ×9円=450円
文字の抽出制度について 書籍の状態、もしくはスキャンの解像度、カラー選択(カラー・グレースケール・白黒二値)によっても文字の誤認識率が変わってまいります。
自動OCR処理に関しては文字の校正・修正は一切行いません。
文字テキストを書籍から正確に抽出したい場合は手修正テキスト化OCR処理をご利用下さい。

※上記料金に消費税は含まれておりません。

お見積もりは無料

まずはお申し込み

お申し込みはこちら

お電話でのお申し込み・お問い合わせ

0120-978-581

電話受付時間AM9:00-PM20:00(無休)

各種お問い合わせはこちら

2、検索用途のためにレイアウトが複雑な書籍のOCR処理をおこないたいとお考えの方

手動レイアウトOCR処理の概要

自動認識OCR処理は機械が自動で文章のレイアウトを設定するため、横書きの文章を間違えて縦書きと認識してしまったり、もしくは段落そのものを認識しなかったりする場合があります。特に雑誌や2段組みの書籍のように複雑なようなレイアウトだとそのような問題が多く発生します。

OCR処理でレイアウトを誤認識してしまった例

まず最初に矢印の順に読むのが正しい順番のレイアウト例とレイアウトを誤認識してしまった場合のレイアウト例を比べてください。

このように書籍のレイアウトが複雑な場合、読む順番そのものをOCR処理ソフトが誤認識してしまうことがあります。
文字そのものの認識精度は高くてもレイアウトが間違っていると文章としては成立しません。 これを防ぐためには、手動レイアウト設定OCR処理で弊社スタッフがOCR処理をかける前に目視にて手動でレイアウトを設定する必要があります。
この処理をおこなうことによって文字の誤認識の原因となるレイアウトの誤った設定を事前に防ぐことができます。
また、書籍の途中にあるノンブルや章タイトルのテキスト情報そのものをOCR処理の対象から省くことも可能です。

料金 1ページのレイアウトが1枠の場合、枠設定費用50円/ページ
枠が1つ増えるごとに+10円/ページ。
対応言語 各種言語に対応したOCR処理が可能です。
例(日本語・英語・中国語(簡体)・中国語(繁体)・ドイツ語・フランス語・ロシア語・イタリア語・スペイン語・ポルトガル語・韓国語)等
納品形式 PDFファイル(.pdf)、テキストファイル(.txt)、wordファイル(.doc) に対応しています。
OCR処理費用例 <例>50ページ2段組みの会報誌の場合
枠設定費用50ページ×60円=3000円
OCR処理費用50ページ×9円=450円
合計3450円
文字の抽出制度について 書籍の状態、もしくはスキャンの解像度、カラー選択(カラー・グレースケール・白黒二値)によっても文字の誤認識率が変わってまいります。手動レイアウト設定OCR処理に関してはレイアウトの設定は手動でおこないますが、文字の校正・修正は一切行いません。文字テキストを書籍から正確に抽出したい場合は文字校正編集OCR処理をご利用下さい。

※上記料金に消費税は含まれておりません。

お見積もりは無料

まずはお申し込み

お申し込みはこちら

お電話でのお申し込み・お問い合わせ

0120-978-581

電話受付時間AM9:00-PM20:00(無休)

各種お問い合わせはこちら

3、書籍から高精度で文字を抽出したいとお考えの方へ

手修正テキスト化OCR処理の概要

弊社スタッフが目視にて自動OCR処理されたテキストの誤変換を修正いたします。 よって、文字校正を行うことによって文字の抽出制度の高いテキストデータを得ることができます。 官公庁様等で主に利用されています。

料金 1ページ 100円~
対応言語 日本語、英語以外にも、中国語(簡体、繁体)等様々な言語に対応可能です。
※詳しくは弊社までご相談ください。
納品形式 PDFファイル(.pdf)、テキストファイル(.txt)、wordファイル(.doc) に対応しています。
備考 文字数や書籍の状態によって作業負荷が変わってくるため料金も変わります。
よって、実際の資料(書籍)の状態をお電話、メールにてご連絡いただくか、もしくは資料(書籍)を見させていただいたうえでのお見積りとなります。
文字の抽出制度について 実際に弊社スタッフが目視、手入力にて高精度に文字の校正・修正をおこないますが、完璧なテキスト抽出を保証するものではございません。さらに精度の高いテキスト抽出をお考えのお客様は、二重目視チェックにおける文字校正・編集OCR処理をご利用ください。
スキャニング作業について 文字校正・編集作業が伴う「手修正テキスト化OCR処理」ならびに「二重目視チェックにおける文字校正・編集OCR処理」はスキャン段階で誤認識の精度を抑えるため、白黒二値、600dpiにてスキャン作業を行います。

※上記料金に消費税は含まれておりません。

お見積もりは無料

まずはお申し込み

お申し込みはこちら

お電話でのお申し込み・お問い合わせ

0120-978-581

電話受付時間AM9:00-PM20:00(無休)

各種お問い合わせはこちら

4、最も高精度にテキストを抽出したい方へ

二重目視チェックの文字校正・編集OCR処理の概要OCR処理の概要

文字校正編集されたテキスト文書を弊社別スタッフが再度目視チェックをすることにより、限りなく文字の誤認識を排除した高品質のテキスト文書を作成いたします。
こちらは、元資料が紙の書籍しか残っておらず、その底本から電子データを作成する必要がある印刷会社、出版社様や、書籍から高精度に文字情報を抽出したい翻訳会社様などに適しています。

100%に近いテキストデータを制作するためのそのままスキャンのベリファイシステム

そのままスキャンのベリファイシステムとはシステムを利用して3人の校正者が文字校正をおこなうことで、文字のご認識率0.003パーセント以下を実現した完璧に近いテキストデータを作成するためのシステムです。

そのままスキャンでは3人の文字校正者が校正をおこなうことで100%に近いテキストデータを作成します。

まず始めに1人目の校正者(A)と2人目の校正者(B)が誤認識が生じている同じテキストデータの校正をおこないます。

そして、それぞれの校正者(AとB)が完成させたデータをそのままスキャン独自のシステムで照らし合わせます。

システムで照らし合わせた結果再度間違っているところを3人目の校正者(C)が目視にて修正します。

このようにそのままスキャンの二重目視チェックにおける文字校正・編集OCR処理では、全部で3人の文字校正者が作業を行うことにより、100%に限りなく近いテキストデータを制作しています。

※そのままスキャンの二重目視チェックにおける文字校正・編集OCR処理ではエラー0.003%以下を実現しています。

料金 1ページ 150円~(文字数やレイアウトなどによって変動)
対応言語 日本語、英語以外にも、中国語(簡体、繁体)等様々な言語に対応可能です。
※詳しくは弊社までご相談ください。
納品形式 PDFファイル(.pdf)、テキストファイル(.txt)、wordファイル(.doc) に対応しています。
備考 手修正テキスト化OCR処理に加えた作業となります。よって、1ページの文字数、書籍のページのレイアウト、スキャニング時のカラー等によって作業料金が変わってまいります。
詳しくは弊社スタッフまでお問い合わせください。
スキャニング作業について 文字校正・編集作業が伴う「手修正テキスト化OCR処理」ならびに「二重目視チェックにおける文字校正・編集OCR処理」はスキャン段階で誤認識の精度を抑えるため、白黒二値、600dpiにてスキャン作業を行います。

※上記料金に消費税は含まれておりません。

お見積もりは無料

まずはお申し込み

お申し込みはこちら

お電話でのお申し込み・お問い合わせ

0120-978-581

電話受付時間AM9:00-PM20:00(無休)

各種お問い合わせはこちら

OCR処理とは

スキャニングして電子データにした書籍の中身を検索したり、コピー&ペーストしたりすることができるようにする処理です。

紙の書籍を電子化する最大の利点は書籍に検索機能をつけられること

紙の書籍を電子化したデータには紙の書籍と比べて様々な利点があります。 その様々な利点の一例を下に並べてみます。

電子化した書籍の利点例

  • 1、持ち運びが便利、保管場所をとらない

    電子化した書籍や資料は電子データでできているためハードディスクに入れてしまえば何百冊もいっぺんに持ち運ぶことができます。
    よって、重い辞書やシリーズで発行されている会報誌などもタブレット端末などにいれて簡単に持ち運びすることが可能です。
    また、電子化することによって今まで会社の大部分を占領していた書籍や資料がなくなり、スペースの有効活用や費用の削減につながります。

    手で持てないほどのたくさんの書籍も電子化してしまえば、簡単に持ち運ぶことができ、大幅な手間の削減、コスト削減につながります。

  • 2、複製が容易

    紙の書籍を複製することは膨大な時間と費用を必要とし、しかも紙の書籍の複製作業は印刷会社様などの専門業者の機械を使わなければできません。 しかし、電子化された書籍のデータはパソコン上で誰でも容易に複製することができます。 複製のコストも時間も紙の書籍の比ではないくらい少なく抑えることができます。

    コピーが簡単にできることによって、社内に眠っている貴重資料などがさらに有効活用できるようになります。

  • 3、電子化した書籍にどこからでもアクセスできる

    電子化された書籍は紙の書籍と違い、オンライン上に電子化された書籍のデータをアップロードしてしまえば、インターネットを通してどこからでもアクセスすることが可能です。よって、世界中のあらゆる人に低コストで貴重な情報を届けることができます。

    多くの人に自社の情報を届けることによって、認知度向上や売上アップが見込めます。

上記は紙の書籍を電子化するメリットの一例です。
このように紙の書籍と比べて電子化された書籍には様々なメリットがあります。
しかし、紙の書籍を電子化した最大のメリットは別にあります。

紙の書籍を電子化する最大のメリットはOCR処理をすれば書籍の中身を検索することができ、しかも書籍から文字だけを瞬時に抜き出すことができるということです。

紙の書籍は目的のページを探すために何時間も書籍を開いて探さなければなりません。

しかし、書籍をスキャニングした電子データにOCR処理をかけることによって、膨大な資料や書籍の中に書かれている何百万文字の中から目的のキーワードを瞬時に探し出しそのページにたどり着くことができます。

また、目的のページに書かれている文字を簡単に抜き出す(コピー&ペースト)こともできます。
これを実現するのがOCR処理という作業です。

OCR処理をかければ書籍を検索できるようになることが書籍を電子化する最大のメリットです。

OCR処理はスキャンした画像の上に透明のテキスト文字を埋め込んでいる

OCR処理とは具体的にはPDFファイルにどのような処理をおこなっているのでしょう。
答えはスキャニングした画像の上に透明な文字を埋め込んでいます。
書籍や資料をスキャニングしただけの電子データはただの画像です。
つまりスキャニングした画像はデジタルカメラでとる写真と同じで、そのデータの中には文字情報が含まれておりません。(写真でとった看板の文字をパソコン上で検索できないのと同じです。)
よって、文字情報がなければ、書籍の中身を検索することは当然できません。 つまり、PDFデータの中身を検索できるようにするためには、必ずOCR処理をおこなわなければなりません。

OCR処理をかけていない場合

まず、OCR処理をかけていない場合の実際に目に見える画像とその画像の拡大図をみてください。

上の画像は書籍をスキャニングした画像です。OCR処理はおこなっていません。
ページ中に本文が書かれていますが、これはただの画像のため、この中の文字を検索したり、コピー&ペーストすることはできません。
上の画像の中の文字を検索できるようにするためには、この画像の中に文字情報を埋め込んであげる必要があります。
そのためには必ずOCR処理をかけなければなりません。

OCR処理をかけている場合

次にOCR処理をかけている場合の実際に目に見える画像とその画像の拡大図を見てください。

OCR処理をかけている場合は画像の上に透明な文字が追加されている状態です。 つまりこの場所に「あ」の文字がかかれていますという文字情報をPDFファイルに埋め込んでいます。 そして、OCR処理でPDFデータに追加されるのは透明な文字のため、OCR処理をかけたPDFデータとOCR処理をかけていないPDFデータを見比べても目視では違いは判りません。 つまり画像データの見た目はそのままで文字情報だけを画像データに埋め込むことができます。

このようにOCR処理をかけることによって、そのファイルの中身の文字を検索したり抽出したりすることができるようになるのです。 それを実現してくれるのがOCR処理という作業で、OCR処理をかけるための専門のソフトを使うことによって画像データに透明文字の埋め込みを実現することができます。 なお、各言語に対応した専門のOCR処理ソフトが世界中から出ています。
弊社ではOCR処理の対象となる言語によってOCR処理ソフトを使い分けて使用しています。

OCR処理ソフトを使ったOCR処理には必ず文字の誤変換がおこる

しかし、OCR処理ソフトを使ったOCR処理は残念ながら完璧ではありません。
あくまでソフトが元画像に書かれている文字の形状を判断して自動で文字を埋め込んでいくため、文字の誤認識が必ず発生いたします。

OCR処理で誤変換が発生した例

OCR処理で誤変換が発生していない画像と発生している画像の比較例を見てください。

例えば、上の例のようにスキャンした元画像に「れ」という文字があった場合、OCR処理ソフトがその文字を「ね」と誤認識し、「ね」いう文字で透明文字を埋め込んでしまうことがあります。 この誤認識の発生率は、
「スキャン解像度」…スキャン解像度が高いほど文字の認識精度も高い
「スキャン時のカラー」…白黒二値でスキャニングするのが最も文字の認識精度が高い
「スキャン元の書籍や資料の状態」…スキャン元の書籍や資料の状態が悪いと文字の認識精度が悪くなる
(※画像処理によってある程度文字の認識精度を高める補正を行うことができる)
によって変わりますが、どんな条件でも文字の誤認識率が0%ということはありません。
誤認識は必ず発生いたします。

完璧なテキストデータを作成するためには膨大な時間と費用がかかる

文字の誤認識のない完璧なテキストデータを作成するためにはOCR処理ソフトでOCR処理をしたあとに、人間の目で誤認識を発見し修正する必要があります。 この作業は全ての文字をチェックし、修正する必要がありますので完璧なテキストデータを作成するためには膨大な作業時間と費用が必要となってきます。 例えば辞書のような書籍の場合は100万文字以上の文字をチェックし修正しなければなりません。 よって、お客様がOCR処理をおこなう目的やご予算に応じてどこまで文字認識精度の高いテキストデータを作成すべきなのかを考慮する必要があります。

誤認識の多いデータほど文字を修正するために作業時間が多くかかります。

お見積もりは無料

まずはお申し込み

お申し込みはこちら

お電話でのお申し込み・お問い合わせ

0120-978-581

電話受付時間AM9:00-PM20:00(無休)

各種お問い合わせはこちら

4種類のOCR処理料金表へ戻るかたはこちらをクリックしてくださ。