2013年6月5日水曜日

通帳OCR精度アップのコツ(三菱東京UFJの場合)


 ご存知「赤い通帳」。赤いくせに手続きが3倍早いわけでもなく、金利が3倍高いわけでもなく。強いて言えば3倍ムカつく、そんな通帳。

 何がムカつくかって、アレですよ、アレ、OCR的に。以前より当ブログでさんざん書いてるけど、三菱東京UFJ銀行の通帳は本当にOCRで読み取りにくい。一番の原因は列を区切る点線(破線)。なぜ直線じゃねーのか、と。





 で、これを解決すべく思い付いたのが「PDF注釈」。データ上で直線にしちゃえばいいじゃん、ということでPDF注釈機能で線を引き、その後にOCRソフトで読み取る。ちなみに、画像データを直接修正するのではなく、PDF注釈とすることで、複数ページに一括して取り込むことができ、かつ、線がズレた場合に微調整が可能になる。(ちなみに以下は以前も使った画像で、三菱東京UFJではなくゆうちょ銀行のもの)




 これで点線(破線)の問題は解決した・・・・・かのように見えたが。やはり甘かった。前述の通り、PDF注釈の一括取り込みで複数ページに一気に線を引けるんだけど、やはりスキャンの状態が毎回100%均一というわけではなく、どうしても左右にズレが生じることがある。注釈なので線を微調整して合わせることは可能ではあるが、ズレたページが多くなると面倒くさくてやってられない。


 そこで、今回思い付いた方法がコレ!



  _人人人人人人_
 > アナログ万歳 <
  ̄Y^Y^Y^Y^Y ̄


 はい、見ての通り。不均一なスキャンデータに線を引こうとするからズレるのであって、だったら最初っから鉛筆で直線に直しちゃえばいいじゃん、と。これ、非常に地味だけど、効果は抜群。三菱東京UFJの通帳は今後これでいく。


 ただ、三菱東京UFJの場合、他にも問題はあって、そもそもフォント自体が読み取りにくいというか・・・。ちなみに、同銀行のATMは旧東京三菱系と旧UFJ系でフォントが違うんだろうか。あるいは別の事情によるものなのか。いずれにしても、もうちょっと読み取りやすいフォントに統一してもらいたいところ。
 


 以上。



9 件のコメント:

匿名 さんのコメント...

当方、小さな会社を経営しております。
東京三菱UFJの通帳をOCR→Excleしたいと思っているのですが、
3千円台と価格の安いソースネクストの本格読取4はいかがなものかなぁと悩んでいます。なにかアドバイスいただけないでしょうか?

nao さんのコメント...

匿名 様
 
 コメント有難うございました!
 
 本格読取4については利用したことがないので何とも。
 体験版もないようですし。
 
 当方も通帳OCR自体まだ苦戦中ですし、特に三菱東京UFJは強敵です。
 個人的には人力OCRをオススメしたいところですw

匿名 さんのコメント...

返信ありがとうございました。
こちらも、あれこれと試してみます。
ところで、入力OCRとはソフト名ですか?
検索してみてピッタリとくるものがないような???

nao さんのコメント...

匿名 様

 あ、スミマセン、入力(にゅうりょく)ではなく人力(じんりき)・・・つまり手入力のことです・・・。

匿名 さんのコメント...

ごめんなさい(笑)
私、頭固いよね。。冗談が通じない人なんていやだわ。

匿名2 さんのコメント...

本格読取より読取革命かe.typistの方が良いような気がします。
3000円台ということですが、読取革命Liteもしくはe.typist旧版が収録されているプリンタやスキャナのCDをAuctionで100円くらいで入手して、Upgrade版を購入すれば、ご希望に沿うのではないかと。。。

nao さんのコメント...

匿名 様

 いえいえ、確かに改めて見てみるとフォントのせいか「人」っていう字はどっちにも見えましたw

nao さんのコメント...

匿名2 様

 コメント有難うございました!
 
 個人的にもe.typist推しです。通帳OCRという用途に関しては読取革命はイマイチでした。

匿名 さんのコメント...

きゃはは。。うれしいしなんか楽しいなぁ。
情報ありがとうございます。
やってみます。