OCRとは?
OCRとは「Optical Character Recognition(光学文字認識)」の略で、書類などを電子化する際に取り込まれたデータから印刷・手書きのもの問わず文字や数字を探し出して文字データに変換する技術です。
書類をスキャンした後にOCR処理をすることで、画像として保存された書類の中にあるテキスト部分を数字や文字として読み込むことが可能になります。
読み込まれたテキストは、はじめからパソコンで入力した文字と同じように、コピー&ペーストしたり、検索をかけたりできるようになります。
OCRは1914年に文字列を読み取って電気符号に変換する機械が発明されたことによりOCRの研究はスタートします。
1950年には世界で初めて商用OCRシステムが利用されはじめ、日本では1968年に手書きの郵便番号の読み取りにOCRが利用されるようになりました。
OCR技術は、現在でも郵便番号や銀行の振込用紙の読み取りなど身近なところに利用されており、昨今ではペーパーレスやDX化の風潮もあり企業伝票・帳票管理、書類管理など様々なシーンで利用されるようになりました。
OCRを活用するメリットとは?
OCR処理には多くのメリットがあります。
ここでは主に5点のメリットを紹介します。
・様々な形式のファイルテキストを再利用できる
OCR機能を利用することで、紙の文書や写真、PDFファイル、画像ファイルだけではなく、手書きのメモ、名刺など、あらゆる形式上の文字を識別してテキストに変換することが出来ます。
そのため、今までは確認しながらでタイピングで入力して1からファイルを作り直したりしていたものをわずかな時間でテキストに変換して再利用することができます。
それにより、作業時間を大幅に削減することが出来ます。
また最近はOCR機能の精度もかなり向上しているので、打ち間違えや二重入力などの手入力による人的ミスも減少します。
・スキャンしたデータの検索ができる。
OCR機能を使うと、スキャンした書類や画像の文字を認識してテキストに変換してくれるため、何ページにも渡るファイル内でも必要な情報を瞬時に検索して見つけることができます。
例えば紙で管理している書類で行おうとすると紙の書類で1ページずつめくって探していたり、名刺の中から一つ一つ見返したい名刺を探していたのが、データ検索することで必要な情報を瞬時に取得することにより時間を削減し、効率的に作業を進めることが可能です。
・入力できない画像や文字も活用できる
読み方の分からない漢字や入力できない言語・記号を利用する場合、検索したり、設定を変更したり手間のかかる作業をせざる他なかったのがOCR機能を利用することで、入力できない文字や、PDFファイルに挿入されている画像なども読み取って活用することができます。
そのため今までは追加困難だった画像や文字もデータ入力も簡易的に出来ます。
・保管スペースをなくせる
企画書や決裁書、請求書などの総務業務に関わる機密文書を、紙の状態のままファイリングして保管している企業もあると思います。
そうした場合、書類を保存しておくスペースや書類を管理するコストが発生しますが、OCRで書類をデジタル化しておけば、資料室や書類棚など、物理的な保管スペースを大幅に削減できます。
また紙の経年劣化やほかの書類に紛れて紛失するといった心配もないので保管におけるリスクも削減できるでしょう。
・紙の復元ができる
重要な書類や報告書など原本が1冊しか存在しない場合、万が一紛失してしまったら取り返しがつきません。
原本をデジタル化してOCR処理をしてから製本することにより、新品同様の状態で復元することが可能になります。
また、冊数についても置く場所がある限り制限がないので、OCR処理は紙の原本を保管し、復元するためにも重要な処理方法となります。
OCRを活用するデメリットとは?
前述で記載した通りOCR処理には多くのメリットがあります、ただ一方でデメリットも存在します。
・誤認識が発生する可能性がある
たとえ有料の高性能なOCR処理ソフトを使っていても文字認識は必ずしも正確というわけではございません。
書籍や書類の原本に記載してある文字の形状を読み込んで判断するため、誤認識は必ず起きてしまいます。
なぜならOCRの文字認識では、あらかじめ文字判別のもとになる情報をデータベースに蓄積し、そのデータベース内にある情報と、読み取った情報をマッチングさせて何の文字かを判別するというロジックでデジタル化しています。
そのためOCR処理で実現できる文字認識の精度は、対象の原本の状態やスキャンの解像度によって大きく変わってきます。
例えば原本が痛んで文字がかすれていたり、原本にシワが多かったりすると認識率が下がる原因になりますし、文字と背景のコントラストが低いなどでも文字認識のマッチングがうまくいかずに認識率は下がってしまいます。
そもそも日本語では似たような文字が複数存在するため誤認しやすい傾向もあります。
・誤認を完全に防ぐためには目視確認が必要
書類や資料にOCR処理を施した際、検索機能をメインに使うといった場合では多少文字の誤認があったとしても大きな問題になりませんが、手書き原稿から電子書籍用の文字データとして使用するなど正確な処理が必要となる場合では、必ず目視によるテキスト化する校正作業が必要になってきます。
OCR処理は精度の向上を目指して研究されている分野ではあるものの、どうしても誤認識が必ず出てしまう点がOCR処理の課題でしょう。
いずれも正確さを求めるのであればOCRでスキャンしたとしても、最終的には人の校正が必要なります。
OCR処理の流れ
・書類をスキャンして画像データ化
書類や資料などをスキャナーで画像として取り込みます。この時はまだOCR処理はされてません。
スキャンの設定は文字の認識率向上のため基本的にはモノクロで行います。
また読み取る用紙にゴミがついてないか、斜めになってないか、確認して行いましょう。
・画像データを確認する
OCRの文字認識処理を行う前に、読み取った画像データが適切かどうかを確認します。
例えば、スキャンした画像が斜めになってしまっているなら、データ内の文字が水平になるようにする必要です。
また、画像が暗ければ明るさを調整したり、文字が見えずらい状態であれば、再度スキャンする必要も出てくるのでOCR処理をする前には画像データを確認しましょう。
・OCR処理で文字をデジタルデータ化
まずOCRは解析を始めるために画像と文字列を分離させてどの文字列か決定します。
OCR処理のソフトの多くは読み取る画像データも文字列がどこにあるかを認知させるためレイアウト上で指定する必要があります。
何度も読み取るような定型書類などはレイアウトをテンプレート登録することで毎回レイアウト指定する手間を省くことが出来るでしょう。
またAI OCRの中にはレイアウト指定作業を自動的に行ってくれるソフトもあります。
そして画像と文字列を分けたら文字列を1行、1文字ずつ分解して該当する文字をソフト内で検索をかけてマッチングさせます。
その後、マッチングした文字の前後から単語を検索し特定させてデータとして決定します。
・データ出力
PDF、Excel、Wordなどの指定のドキュメントに解析したデータを出力させてOCR処理が完了します。
まとめ
社会のペーパーレス化が進む昨今、働き方でリモートワークが普及したことなどをきっかけに電子書類のやりとりも近年増加傾向にあります。
そのためPDF等の文書データのやりとりは増加しており、PDFの内容をテキストデータ化できる「OCR」のニーズが高まっている一方で、
捺印が必要な場合、捺印済の紙書類をスキャンして電子メール等で送るケースがまだまだ多く機密文書の取り扱いを個人に任せてしまうケースもあるでしょう。
機密文書が漏洩する主な原因がヒューマンエラーとなりますので、機密情報漏洩のリスクを理解した上で適切な管理を企業内の情報セキュリティに対するリテラシーを挙げていきましょう。
以下が関連記事になりますので参考までにご覧下さい。
関連記事