2014年2月11日火曜日

通帳OCR精度アップのコツ(邪魔者は消せ)



 毎度おなじみの通帳OCR。なかなか思ったような精度が出ず「やっぱり人力OCR(=手入力)かな~」と思っていたところ、ここへきて少し進展が。

=====

 課題は沢山あるのだが、そのうちの一つ、通帳に印字されている線。
 

 以前、これに関してその解決法(?)を書いたことがある。つまり、点線(破線)だから誤認識しやすいので最初に鉛筆で実線にしておくというものだが。やはり実線でも邪魔だった。どうしてもこの線をOCRソフトが拾ってしまう。
 訳あって最近OCRソフトを変えたのだが、こちらのソフトだとそれが顕著でどうにも我慢ができないレベルに。

 そんな時ふと俺の中の悪魔が囁いた。
 
 「邪魔なら消しちゃえばいいじゃない」  

 そ、そうか・・・や、殺ってやる、殺ってやんよ!

 ということで、禁断のアレに手を伸ばした。
 
 修正ペンである。
 
=====

 OCRソフト上でも余計な線やノイズなどを消すことは可能だが、操作的にちょっと面倒臭い。そもそも通帳を印字した時にこの線に重なってしまうのが大きな問題であり、だったら通帳印字前に予め線を消しておいたらどうだろう、ってことで。
 
 結論は・・・OCRの精度的には抜群の効果があった。
 
 が、修正ペン(液)ってやつはダマになりやすく、乾きも遅いし、定規を当てて直線を引くとビチャーと伸びてしまう確率高し。
 
 そこで修正テープも試してみたが、意外と真っ直ぐ引くのは難しい。テープ幅も細めのやつでも5~6mmで、たかだか通帳の線を消すためにしては太すぎる。
 
 修正ペンではなく、白いインクのボールペンならどうだろう、と探してみるもなかなか良いものが見つからず。そんなこんなでいろんな種類を試しているうちに一番良かったのが「三菱鉛筆 ユニボールシグノ 太字 1.0mm UM-153 ホワイト」という商品。

 

 ホワイトのインクが程よく濃くて下地がなんとか消せるので修正ペン的使い方も。普通のペンに比べれば乾きは遅いものの修正液に比べればマシ。線の太さも1.0mmで丁度良い感じ。



 ただ、上記のペンでも一発で下地の線は消えないので2往復くらいする必要が。修正テープくらいはっきり消せれば・・・と思い細いものを探したところ何とか2.5mm幅のものが2つ見つかった。そのうち使いやすかったのがこちら「トンボ 修正テープPS2.5紫 CT-PS2.5」。
 
 

 もう少し細ければ・・・というのと、すぐに無くなりそうなのでコスパ的にちょっと合わない気が。が、さすがに一発でキレイに線が消せる。
 
 ちなみに、ホワイトペンや修正テープで予め線を消した状態の通帳はもしかしてATMでエラーが出て印字できないんじゃないかと心配したが、実際には問題なし。
 

 まぁしばらくはこの2つで様子を見つつ、他に良いものがあるか色々試してみたい。
 
=====
 
 とまぁ、このような小技も効果はあったのだが。通帳OCRがまたちょっと期待をもてる感じになってきているのは、そもそも使用するOCRソフトを変えたことが大きい。ずっと推していたe.Typistというソフトに限界を感じたのでついに見切りをつけたのだが、

 
 そのソフトとは・・・(つづく)
 

 

2 件のコメント:

  1. e.Typist以上のソフトがあったら教えてください。
    良い方法を探しています。

    返信削除
    返信
    1. ある 様

       コメント有難うございました!お返事遅れて申し訳ありません。一応OCRソフトについてはやっぱり読取革命の方がいいのではないかと思い、そのへんを書くつもりでいましたが。それでも満足いく精度が出ず、最近はOCRソフトを使ったデータ化は諦め気味でして…。また何か浮かびましたら試してみます。

      削除