1.目次のページをスキャン・OCR
目次のページだけをやや高画質でスキャンしてOCRソフトにかける。
レポート等で文字情報が含まれているPDFならコピペでもOK。
OCRをかける時は目次内容とページ数は別セルとなるように表形式で。
列ごとの文字種別は特に指定しなくても割と正確に認識するが、テンプレで指定できればした方が良いかも。
多少の誤認識は無視する。(あとでExcel上で修正したり、PDFを閲覧中に気付いたら直す程度で良いかと)
ちなみに、このような目次ページならラクなんだけど、
書籍によってはこういう目次も・・・。
ページ数が右揃えじゃないとデータを取るのにひと手間かかる。
けど、まぁ、なんとかなる。
レポート等で文字情報が含まれているPDFならコピペでもOK。
OCRをかける時は目次内容とページ数は別セルとなるように表形式で。
列ごとの文字種別は特に指定しなくても割と正確に認識するが、テンプレで指定できればした方が良いかも。
多少の誤認識は無視する。(あとでExcel上で修正したり、PDFを閲覧中に気付いたら直す程度で良いかと)
ちなみに、このような目次ページならラクなんだけど、
書籍によってはこういう目次も・・・。
ページ数が右揃えじゃないとデータを取るのにひと手間かかる。
けど、まぁ、なんとかなる。
2.Excel上でデータを目次加工
OCRの認識結果をExcelに貼りつけ
先ほどのページ数が右揃えじゃない場合はこんな感じ。
まずは一番上の行にタイトル(#・内容・頁)、一番左の列に通し番号をふってオートフィルタ設定
ページ数が右揃えじゃない場合はExcelの関数を利用してページ数を抽出する。
今度は目次内容のセルに含まれるページ数を除去する。(D列の内容を後でB列に「値のみ貼付け」)
「内容」でソートをかけ、一括置換等で少し手直し。
大体直し終わったら「・・・」や「/」「PDF上の頁数」「その他情報」「全部連結」を1行目に追加して全行にコピーする。
全部連結した内容(上記のH列)をコピーして、別シートのB2へ「値のみ貼付け」、タイトルと通しNo.も設定
目次内容のレベル(階層)ごとに列を分ける
例)章・節・1・(1)・① など
先ほどのページ数が右揃えじゃない場合はこんな感じ。
まずは一番上の行にタイトル(#・内容・頁)、一番左の列に通し番号をふってオートフィルタ設定
ページ数が右揃えじゃない場合はExcelの関数を利用してページ数を抽出する。
今度は目次内容のセルに含まれるページ数を除去する。(D列の内容を後でB列に「値のみ貼付け」)
「内容」でソートをかけ、一括置換等で少し手直し。
大体直し終わったら「・・・」や「/」「PDF上の頁数」「その他情報」「全部連結」を1行目に追加して全行にコピーする。
全部連結した内容(上記のH列)をコピーして、別シートのB2へ「値のみ貼付け」、タイトルと通しNo.も設定
目次内容のレベル(階層)ごとに列を分ける
例)章・節・1・(1)・① など
3.テキストファイルとして保存する
以上、こんな感じでやるのだが。
もうちょっとスマートに出来そうな気もしないでもないが現状はこれが精一杯。
やはりOCRをかけて誤認識の部分を修正するというのがどうしても面倒だ。
最初から目次のデータがあればいいのに、と思ってしまう。
Amazonなどでも書籍紹介で目次は掲載されているが、大まかな目次だけで残念ながら詳細目次の記載はない。
で、例えば、税務関係の書籍が充実している我らが大蔵財務協会。
書籍紹介ページに「詳細目次」の文字がっ!
やるじゃねーかっ!と思いつつ「詳細目次」をクリックしてみると、
おぉっ!!!おぉ・・・お?・・・・・・・・
ページ数が載ってねーじゃねーか・・・・・。
まぁ版を重ねると微妙にページ数が変わったりすることもあったりするの?
よく分かんないけど。
なので仕方ないといえば仕方ないのかも知れないが・・・残念すぎる。
そんなこんなで、シコシコとOCRをかける作業が続くわけで。
で、こんなツマラナイ作業は誰か一人がやって、その目次データを共有できたらいいなと思うわけで。
そんなサービスを作ってみたいと思う今日この頃である。
オシマイ。
0 件のコメント:
コメントを投稿