Blog the Minor: 預金通帳のOCR読取精度を上げるコツ（濁点半濁点）

2012年7月20日金曜日

預金通帳のOCR読取精度を上げるコツ（濁点半濁点）

預金通帳をOCRで読み取ってデータ化するにあたり、濁点や半濁点は認識結果が悪くなる原因のひとつ。
冒頭画像でもあるように、濁点半濁点は元の文字とはやや離れ気味に印字される。
ちなみに上記は三菱東京UFJ銀行の通帳だが、他の金融機関の通帳でも同じような傾向かと。

上記のような通帳をOCRソフト（辞書登録がない状態）にかけると、「シ」と「’」や、「ホ」と「●」など別々の文字等として認識されることが多い。
それでは困るので別々に認識されたものをひとつに結合したうえで「ジ」とか「ポ」として辞書登録する、という作業に当初は励んでいた。

が、それでも相変わらず別のキャラクターとして認識されたりすることも多く。
「ポ（Po）」と「ボ（Bo）」が登録されているとただの「ホ（Ho）」の認識の時でも「ポ（Po）」や「ボ（Bo）」となることも多くなる。

結局、2文字と認識されたものを1文字としてどんなに頑張って辞書に登録しても、やはり無理があるっぽい。
ならば、濁点半濁点は分けて辞書登録してしまおう、と。
つまり、「シ」と「゛」、「ホ」と「゜」という感じで「゛」と「゜」を単独の文字として辞書登録する。
当然認識結果は「シ゛」「ホ゜」となり「ジ」「ポ」とはならない。
でも、これでいったんOKとする。
とは言うものの、そのままだと当然扱いにくい。
なので、後はExcelに任せることにする。

そもそも濁点半濁点がつく文字というのは限られている。

がぎぐげござじずぜぞだぢづでどばびぶべぼガギグゲゴザジズゼゾダヂヅデドバビブベボぱぴぷぺぽパピプペポヴ

これらをExcelの置換機能で「か゛」→「が」のように置換してしまえばよい。
通常の置換だと1パターンずつしか出来ないので、そこはマクロで一気に。
みるみる文字が置き換わっていくのは実に快感。

0 件のコメント:

コメントを投稿