OCR (Optical Character Reader)は紙面に写した画像などを解析して、その中に含まれる文字に相当するパターンを検出し、書かれている内容をテキストデータと して取り出す技術です。
従来、OCRの苦手、実運用不可とされてきた条件としては以下となります。
文字がOCRターゲットエリアからはみ出ている
文字の上の印鑑
罫線に文字が触れている
背景が白くない
(行単位でハイライト等)
項目内に点線・注目線がある
帳票の種類が多すぎる
(設定しきれない・仕訳が出来ない)
手書き(特に数字以外・漢字は1文字1枠以外は不可・1枠1行)
原紙がカーボン用紙、FAXなどの画像の汚れ、ノイズ
キーとなる項目(見積番号など)を探し、そこから該当箇所(OCR読取箇所)を自動抽出するOCR。
企業向け見積書、給与振込依頼書、給与支払報告書など同じ項目・内容が記載されて、フォーマットデザインが異なる帳票に対して強みがある。
文字単体(「あ」や「ア」や「亜」など)を学習させ(手書き含め)、文字読取精度を向上させるOCR。
手書きの項目がある帳票に対して特に強みがある。クラウド環境上にAIを搭載し使用する。
DX Suite は“非定型帳票にも対応したAI-OCR”です。
OCR製品検討時の観点は
OCR可能な守備範囲を
どこまでと設定したいか?