2013年6月8日土曜日

A3等の用紙をスキャンするのにキャリアシートって要らないよね。



 いま平成何年ですか? はい、平成25年ですね、25年。

 ちょいとググったところによりますと「行政文書の用紙規格のA判化」ってのは平成5年から順次進められてるそうで。ってことは、既に20年。A4に統一しようぜ!ってなってから実に20年も経過してるわけで。民間だともっと前からそのような動きがあったとかなかったとか。
 にもかかわらず、にもかかわらずですよ、未だにA3とかB4の用紙を手にする機会がある。実に嘆かわしい。喝だっ、かーつッ!
 大体A4を超える大きさの用紙を扱うためのスキャナーやプリンタはとにかく高い。たまにしか使わないのにそんなの買ってられない。(ちなみにB5、「俺A4より小さいからセーフ!」とか思ってるかもしれないけど、オマエもアウトな。とにかく不揃いだと気持ち悪いから。)


 で、本題に入るけど。A3とかB4の用紙を受け取ったら、もちろんすかさずスキャン。が、前述のとおり一般的な機種だとA4サイズまでしかスキャンできない。それ以上の大きさの用紙をスキャンする場合、例えばPFUのScanSnapだとキャリアシートというものに、A3等の用紙を半分に折って挟んでから両面スキャンしろって話になる。そうすると、こんな感じでA3の大きさで1ページのPDFファイルが出来上がる。



 まぁ、これはこれでいいんだけど。ただ、このキャリアシートってのが非常にメンドクサイ。いちいちコレを取り出して用紙をきっちり半分に折りピタッと挟み込まないといけない。結構正確にやらないとページの真ん中に隙間ができたり重なって読めない部分ができたり。正直やってられない。
 だからといって、キャリアシートを使わずに、例えばScanSnap-iX500(旧S1500、旧S500)などの機種でスキャンしようとすると、自慢の重送感知(マルチフィード検出)機能が働いて、半分に折ったA3用紙は無残にもグチャグチャにされる。「物理的に紙を半分に切ってスキャンすると良い」的な解説もどこかで見たが、さすがに無理なケースもあるだろうし。


 で、我が愛すべきScanSnap S1100。両面同時スキャンが不可なので2回通さなければならないものの、キャリアシートには対応しており、これを使えばA3等の用紙でも1枚のPDFにできる。ただ、前述のとおりキャリアシートなんて使ってられない。なので、普通に半分に折って両面をスキャンする。こちらの機種は重送感知機能がないのでそのままスキャンできる。そうすると、当然ながらこんな感じで2枚のPDFになる。



 さすがにこのままだと見辛く「やっぱりキャリアシートを使わないと・・・」って感じもするが、Acrobat等のPDF閲覧ソフト上で表示の仕方を変えればとりあえずは問題ない。



 なんつーか、これで充分じゃないだろうか。わざわざ1つのPDFファイルにしなくても画面上でそれっぽく確認できるのであれば。(Explorerのプレビューや、Mac-QuickLookで見るときは半分ずつしか見れないのでアレだけど。)
 どうしても1枚のPDFにしたければソレ用のフリーソフトがあったような。ScanSnap付属のツール「ScanSnapOrganizer」でもそんな機能があるとかないとか。

 まぁ、そんなわけで、A3とかB4のスキャンをするのにキャリアシートは要らないな、と。ただしS1100に限る。iX500あたりの機種も重送感知の機能をオン・オフできればいいのに。(できるのかな??)
 

P.S
 一応↓にキャリアシートのアレ貼っちゃったけど・・・ポチるなよ、絶対にポチるなよ。







2013年6月5日水曜日

通帳OCR精度アップのコツ(三菱東京UFJの場合)


 ご存知「赤い通帳」。赤いくせに手続きが3倍早いわけでもなく、金利が3倍高いわけでもなく。強いて言えば3倍ムカつく、そんな通帳。

 何がムカつくかって、アレですよ、アレ、OCR的に。以前より当ブログでさんざん書いてるけど、三菱東京UFJ銀行の通帳は本当にOCRで読み取りにくい。一番の原因は列を区切る点線(破線)。なぜ直線じゃねーのか、と。





 で、これを解決すべく思い付いたのが「PDF注釈」。データ上で直線にしちゃえばいいじゃん、ということでPDF注釈機能で線を引き、その後にOCRソフトで読み取る。ちなみに、画像データを直接修正するのではなく、PDF注釈とすることで、複数ページに一括して取り込むことができ、かつ、線がズレた場合に微調整が可能になる。(ちなみに以下は以前も使った画像で、三菱東京UFJではなくゆうちょ銀行のもの)




 これで点線(破線)の問題は解決した・・・・・かのように見えたが。やはり甘かった。前述の通り、PDF注釈の一括取り込みで複数ページに一気に線を引けるんだけど、やはりスキャンの状態が毎回100%均一というわけではなく、どうしても左右にズレが生じることがある。注釈なので線を微調整して合わせることは可能ではあるが、ズレたページが多くなると面倒くさくてやってられない。


 そこで、今回思い付いた方法がコレ!



  _人人人人人人_
 > アナログ万歳 <
  ̄Y^Y^Y^Y^Y ̄


 はい、見ての通り。不均一なスキャンデータに線を引こうとするからズレるのであって、だったら最初っから鉛筆で直線に直しちゃえばいいじゃん、と。これ、非常に地味だけど、効果は抜群。三菱東京UFJの通帳は今後これでいく。


 ただ、三菱東京UFJの場合、他にも問題はあって、そもそもフォント自体が読み取りにくいというか・・・。ちなみに、同銀行のATMは旧東京三菱系と旧UFJ系でフォントが違うんだろうか。あるいは別の事情によるものなのか。いずれにしても、もうちょっと読み取りやすいフォントに統一してもらいたいところ。
 


 以上。