2012年3月22日木曜日

しおり(目次)のないPDFなんて読めるかっ!(後編)

前回(Blog the Minor: しおり(目次)のないPDFなんて読めるかっ!(前編) )の続きで、JPdfBookmarksで取り込むための目次内容を記載したテキストファイルの作り方。


1.目次のページをスキャン・OCR


目次のページだけをやや高画質でスキャンしてOCRソフトにかける。
レポート等で文字情報が含まれているPDFならコピペでもOK。
OCRをかける時は目次内容とページ数は別セルとなるように表形式で。
列ごとの文字種別は特に指定しなくても割と正確に認識するが、テンプレで指定できればした方が良いかも。
多少の誤認識は無視する。(あとでExcel上で修正したり、PDFを閲覧中に気付いたら直す程度で良いかと)

ちなみに、このような目次ページならラクなんだけど、

書籍によってはこういう目次も・・・。

ページ数が右揃えじゃないとデータを取るのにひと手間かかる。
けど、まぁ、なんとかなる。



2.Excel上でデータを目次加工


OCRの認識結果をExcelに貼りつけ


先ほどのページ数が右揃えじゃない場合はこんな感じ。


まずは一番上の行にタイトル(#・内容・頁)、一番左の列に通し番号をふってオートフィルタ設定


ページ数が右揃えじゃない場合はExcelの関数を利用してページ数を抽出する。


今度は目次内容のセルに含まれるページ数を除去する。(D列の内容を後でB列に「値のみ貼付け」)


「内容」でソートをかけ、一括置換等で少し手直し。
大体直し終わったら「・・・」や「/」「PDF上の頁数」「その他情報」「全部連結」を1行目に追加して全行にコピーする。


全部連結した内容(上記のH列)をコピーして、別シートのB2へ「値のみ貼付け」、タイトルと通しNo.も設定


目次内容のレベル(階層)ごとに列を分ける
例)章・節・1・(1)・① など



3.テキストファイルとして保存する


タイトル行と通し番号列以外の全内容をコピー


新規テキストファイルに貼付けて保存する。
テキストファイルの文字コードはSJISで。
Winのメモ帳なら文字コードはあまり意識しなくて良いかも。


以上、こんな感じでやるのだが。
もうちょっとスマートに出来そうな気もしないでもないが現状はこれが精一杯。


やはりOCRをかけて誤認識の部分を修正するというのがどうしても面倒だ。
最初から目次のデータがあればいいのに、と思ってしまう。
Amazonなどでも書籍紹介で目次は掲載されているが、大まかな目次だけで残念ながら詳細目次の記載はない。

で、例えば、税務関係の書籍が充実している我らが大蔵財務協会
書籍紹介ページに「詳細目次」の文字がっ!


やるじゃねーかっ!と思いつつ「詳細目次」をクリックしてみると、

おぉっ!!!おぉ・・・お?・・・・・・・・


ページ数が載ってねーじゃねーか・・・・・。

まぁ版を重ねると微妙にページ数が変わったりすることもあったりするの?
よく分かんないけど。
なので仕方ないといえば仕方ないのかも知れないが・・・残念すぎる。


そんなこんなで、シコシコとOCRをかける作業が続くわけで。

で、こんなツマラナイ作業は誰か一人がやって、その目次データを共有できたらいいなと思うわけで。

そんなサービスを作ってみたいと思う今日この頃である。

オシマイ。





0 件のコメント:

コメントを投稿