ミグストラノート

ブログRSS

Macにて紙書籍→スキャン→PDFファイル→プレビューで結合→OCRまでの手順

Mac

まず紙の書籍をコピー機などでスキャンしてPDFにします．

OCR

複数できたであろうPDFファイルを結合した後にOCRをかけるのが一般的ですが，OCRアプリの仕様上それぞれのページにOCRをかけてから結合します．アプリは，PDF OCR Xを使用します．

f:id:okamurauchino:20140627055829p:plain

PDF OCR X - Mac & Windows OCR Software to convert PDFs and Images to Text

このアプリはファイルをドラッグエンドドロップするだけで，OCRをかけることが出来ます（日本語にも対応しているらしい，ただし筆者は英語しか試していない）．ただし，フリーだと1PしかOCRがかけられません（お金がある人は，是非30ドル払ってあげてください）．最初に書いたアプリの都合とはこのことを指します．なので結合する前のファイルを一つずつドラッグエンドドロップしてください．設定は，始めは1P onlyで，次の画面ではsearchable PDFを選択します．保存先を聞かれるので適当なところを選択してください．後は，ファイルをひたすらドラッグエンドドロップしてください．一度に一つしか変換してくれませんが，変換待ちとして読み込みはしてくれます．なのでひたすら読み込ませましょう．これでOCRはおしまいです．

PDFファイルの結合

ページごとにできたいくつかのPDFファイルを結合します．これはMacの場合，プレビューで簡単にできます（下記リンクを参照）．所定のファイルを順番にプレビューで開きます．サイドバーをサムネイル表示にします．正しい順番になっていることを確認したら，最初のページのファイル以外を選択して，最初のページのファイルにドラッグエンドドロップします．このとき，最初のページのサムネイルが開かれた状態，つまりサイドバーのファイル名一番左の矢印が下向きになっている必要があります．

f:id:okamurauchino:20140627050337p:plain

Mac OS X v10.6：プレビューを使って PDF 書類を結合する方法

これで完成です．