最近はPDFを利用する機会が以前よりも、相当増えてきていると思います。
特に記事を書いていると、何か統計データが欲しい場合、公的機関から出ている情報を引用したりします。
そのデータの多くがPDFだったりしますので、いちいちテキストへ変換する必要があります。
普通はPDFを開くのに『Acrobat Reader』を利用
ですから『Acrobat Reader』でテキストへ変換すればいいって言われそうですが、レイアウトが崩れたり、文字がきちんと変換されていないなんてことも多々あります。
特に表のようにレイアウトされているPDFの場合は、どこに何がかいてあるのかさっぱりわかりません。
これなら手入力したほうが早いという事もしばしば…
そんな馬鹿な…と思われそうですので、実際にテストをしてみました。
PDFからテキストへのテスト
まず、テストで利用するのは3つの特徴的なWEBページで、『Microsoft Print To PDF』でPDF化しました。
テスト1:ライブドアニュース(livedoor ニュース)
Acrobat Readerでテキスト化
このPDFでは、文字の一部が「.」で表示されてしまっており、変換できない部分がいくつかありました。
PDFから直接コピーペースト
一部フォントがおかしくなっていますが、内容は読み取れています。
レイアウト自体はずれているので、順番がおかしくなってしまっています。
テスト2:Wikipedia
Acrobat Readerでテキスト化
このPDFは、さほど問題はありませんが、PDFどおりに改行されてしまったおり、テキストを利用するときに、若干手間がかかります。
PDFから直接コピーペースト
上記とほぼ同じ結果で、利用する際に改行を直す必要があります。
テスト3:ANNnewsCH – YouTube
Acrobat Readerでテキスト化
このPDFでは、各動画のサムネイル部分(下の部分)の説明が入り乱れてしまっており、実際には一つ一つ照合する必要があり、使い物にはなりませんでした。
PDFから直接コピーペースト
数値および、アルファベットの欠損があるようで、部分的には使えるという程度です。
結果はご覧のとおりです。
意地悪なテストだったのは否めませんが、いちから手入力したほうが早い気さえします。
では、どうするか?
おすすめのフリーソフトです。
Free PDF to Text Converter
上記のテストをこのソフトで行ってみました。
結果は以下のとおり
テスト1
一部でフォントの表示が少しおかしいですが、文章自体は変換できています。
テスト2
こちらは、このやり方もさほど差はでませんが、不要な改行などもなく、きちんと変換できました。
テスト3
このPDFだけは、レイアウトなどの問題もなく変換できてはいますが、数値およびアルファベットに欠損がありました。
全体的には、十分利用に耐えうる内容だと思います。
ただし、パソコンの仕様による差があるかもしれませんので、この結果につきましては、そのあたりをご了承ください。
ダウンロードはこちらからどうぞ
http://www.lotapps.com/free-pdf-to-text-converter.html
ソフトも英語ですが、単純で全く問題ありません。
しかもインストール不要でオンラインソフトでもないですから、セキュリティ的にも安心できます。
使い方は簡単
- ダウンロードしたら、念のためウイルススキャン
- 圧縮ファイルを解凍
- pdf2text.exeを実行
- 開いたソフトの画面の上にテキスト化したいPDFファイルをドラッグ&ドロップ(複数のファイルを一度にテキスト化できる)
- 『Convert PDF to TEXT for Free』と中央下部にある大きなボタンを押す
- 終わると勝手にウインドウが開いてテキストファイルのあるフォルダを表示する
- あとは、そのファイルをそこで見るなり、移動させるなり自由
まとめ
記事を書いていると、何か統計データが欲しい場合、公的機関から出ている情報を引用したりしますが、データの多くがPDFだったりします。
普通はPDFを開くのに『Acrobat Reader』を利用していると思いますが、このソフトでテキスト化する事や直接コピーペーストして、テキストを抜き出す事もあります。
しかし、それでもうまくいかない事も最近は多いようです。
そこで、おすすめのフリーソフトです。
Free PDF to Text Converter
レイアウトも崩れにくく、十分利用に耐えうるソフトだと思われます。
ダウンロードはこちらからどうぞ
http://www.lotapps.com/free-pdf-to-text-converter.html
ソフトも英語ですが、問題ないでしょう。
使い方も簡単です。
- pdf2text.exeを実行
- 開いたソフトの画面の上にテキスト化したいPDFファイルをドラッグ&ドロップ
- 『Convert PDF to TEXT for Free』と中央下部にある大きなボタンを押す
- 基本はこれだけでOKです。
コメント