Blog the Minor: しおり（目次）のないPDFなんて読めるかっ！（後編）

前回（Blog the Minor: しおり（目次）のないPDFなんて読めるかっ！（前編））の続きで、JPdfBookmarksで取り込むための目次内容を記載したテキストファイルの作り方。

1．目次のページをスキャン・OCR

目次のページだけをやや高画質でスキャンしてOCRソフトにかける。
レポート等で文字情報が含まれているPDFならコピペでもOK。
OCRをかける時は目次内容とページ数は別セルとなるように表形式で。
列ごとの文字種別は特に指定しなくても割と正確に認識するが、テンプレで指定できればした方が良いかも。
多少の誤認識は無視する。（あとでExcel上で修正したり、PDFを閲覧中に気付いたら直す程度で良いかと）

ちなみに、このような目次ページならラクなんだけど、

書籍によってはこういう目次も・・・。

ページ数が右揃えじゃないとデータを取るのにひと手間かかる。
けど、まぁ、なんとかなる。

2．Excel上でデータを目次加工

OCRの認識結果をExcelに貼りつけ

先ほどのページ数が右揃えじゃない場合はこんな感じ。

まずは一番上の行にタイトル（#・内容・頁）、一番左の列に通し番号をふってオートフィルタ設定

ページ数が右揃えじゃない場合はExcelの関数を利用してページ数を抽出する。

今度は目次内容のセルに含まれるページ数を除去する。（D列の内容を後でB列に「値のみ貼付け」）

「内容」でソートをかけ、一括置換等で少し手直し。
大体直し終わったら「・・・」や「/」「PDF上の頁数」「その他情報」「全部連結」を1行目に追加して全行にコピーする。

全部連結した内容（上記のH列）をコピーして、別シートのB2へ「値のみ貼付け」、タイトルと通しNo.も設定

目次内容のレベル（階層）ごとに列を分ける
例）章・節・1・（1）・①　など

3．テキストファイルとして保存する

タイトル行と通し番号列以外の全内容をコピー

新規テキストファイルに貼付けて保存する。
テキストファイルの文字コードはSJISで。
Winのメモ帳なら文字コードはあまり意識しなくて良いかも。

以上、こんな感じでやるのだが。
もうちょっとスマートに出来そうな気もしないでもないが現状はこれが精一杯。

やはりOCRをかけて誤認識の部分を修正するというのがどうしても面倒だ。
最初から目次のデータがあればいいのに、と思ってしまう。
Amazonなどでも書籍紹介で目次は掲載されているが、大まかな目次だけで残念ながら詳細目次の記載はない。

で、例えば、税務関係の書籍が充実している我らが大蔵財務協会。
書籍紹介ページに「詳細目次」の文字がっ！

やるじゃねーかっ！と思いつつ「詳細目次」をクリックしてみると、

おぉっ！！！おぉ・・・お？・・・・・・・・

ページ数が載ってねーじゃねーか・・・・・。

まぁ版を重ねると微妙にページ数が変わったりすることもあったりするの？
よく分かんないけど。
なので仕方ないといえば仕方ないのかも知れないが・・・残念すぎる。

そんなこんなで、シコシコとOCRをかける作業が続くわけで。

で、こんなツマラナイ作業は誰か一人がやって、その目次データを共有できたらいいなと思うわけで。

そんなサービスを作ってみたいと思う今日この頃である。

オシマイ。

Blog the Minor

2012年3月22日木曜日

しおり（目次）のないPDFなんて読めるかっ！（後編）

1．目次のページをスキャン・OCR

2．Excel上でデータを目次加工

3．テキストファイルとして保存する

0 件のコメント:

コメントを投稿