いわゆる「自炊」をしてみた

きっかけは、モノクロだとだいぶサイズが抑えられるのを知ったから*1。10-20MBだったら、Evernoteへ入れても負担にはならない。
余談だが、EvernoteはPDFのページ数に制限があると誤解していた。そうではなくて、自動OCRを100ページまでしかやってくれないというだけの話だった。
今回、ためしに1冊電子化したのは『中村屋のボース』。大きな理由はないが、カラーではないのと、将来的に引用しなさそうだから。
作業中、手がとまったのは「ばらす」ところ。本書は上製本並製本*2だったら、雑誌の裁断と要領は同じ。しかし上製本は初めて。表紙をどうやって取ろうか。結論からいうと、無理やりひっぺがした。それで問題なかった。
中身のほうは、ロータリーカッターで切っていく。約360ページあるが、私なら8ブロックに分けて、45ページずつカッターという感じ。
途中、しおりの紐(スピン)を切るのを忘れ、裁断物にまぎれこむハプニング。そのままスキャナーにかけてたら、やっかいなことになったかもしれない。要注意。
ScanSnapの設定は、色をモノクロにした以外はほぼそのまま。画質はスーパーファイン。ページ数が多いため「継続読み取りを有効にします」にチェック。「検索可能なPDFにします」はチェックをはずす(あとでAdobe Acrobatを使用)。白黒の場合、圧縮設定はいじれない。
がーっと、スキャンしてみて問題がふたつ。
ひとつは、地図が横向きのページ。読めるふうにするか、それとも読みづらくはなるがページの流れに合わせるか。ここは気にせず後者にした。読み返すことはないと思うので、どっちでもよかった。
もうひとつの問題は、写真が印刷されたページ。白黒だと不鮮明になって意味がない。削除してもいいぐらい。面倒ではあるが、グレー(圧縮率3)でスキャンしなおした。
写真はトータルで約20ページあったのかな。それをグレーに差し替えた(けっこう面倒)。あと、表紙は見栄えを重視してカラー(同)にした。
この時点で、白黒は28.4MB。グレーまじりが30.2MB。
次にAdobe Acrobatで文字認識にかける。私の場合、文字情報自体はいらないが、これをやるとサイズを落とせるので……。
Adobe Acrobat Xの場合、ファイルを開いて画面右方のツール→テキスト認識→このファイル内→設定→編集→PDFの出力形式を「Clear Scan」とする。
PCの性能にもよるだろうが、時間はかかる。10分とか20分とか。
最終的な出来上がりは、16.8MBとなった。だいたいClear Scanするまえの半分。
さて、このClear Scanでがっくりしたのは、さきほどいじった地図の向きがまた変えられたこと。要するに、Clear Scanをしたあとで気にすればよかったのだ。
それ以外にも、Clear Scanをやった結果、変わってる部分がありうるので、やはり最終チェックは必要だと思われる。
おしまい。

*1:参考URL:http://goryugo.com/20120602/scansnap_setting/

*2:背でのりづけしてあるタイプ。