先日とある記事を書こうと思って、政府関係のサイトから関連の情報を引用しようとしていたら、PDFでつくられてはいるものの、なんと文字も含めて、全部が画像なんです。
そこで、手持ちのOCRソフトで読み出してみましたが、文字の部分のレイアウトを指定したりと、とても面倒でした。
もっと良いソフトは無いのかとさがしてみましたら、無料で身近にありました。
Googleドライブとドキュメントを使えば簡単一気
まさか身近にこんな便利なものがあるとは思いませんでした。
使ってみたら、精度といい、手間といい、いままで使っていたOCRソフトとは雲泥の差で、もう一気に乗り換えです。
どれ位の精度か?
実際に自分でも納得するために、テストをしてみましたので、結果を掲載します。
まずは背景の違いによる読み取り精度
テスト1はハート形の青空の背景に黒い文字を印字した画像
テスト2は暗い夕焼け空を背景に白い文字を印字した画像
ちなみに、テキスト内容は江戸川乱歩の怪人二十面相の冒頭部分です。
読み取り結果は…
上部が画像で、下部が読み取ったテキストで、一切加工していません。
結果をみていただければ、わかると思いますが、十分実用に耐えうるレベルに仕上がっていると思います。
次は表形式になっている場合の読み取り制度と順番
このテストは、精度もそうですが、読み取りの順番がどのように読まれていくのか見ることができます。
これも先ほどのテスト同様、十分に実用に耐えうるものと思います。
ちなみに、いままで使っていたとあるソフトの読み取り結果
参考までに、テスト3つの結果を掲載しておきます。
OCRソフトは、一応最新のバージョンでテストしています。
テスト1
テスト2
テスト3
テスト3の結果だけは、良かったかもしれませんが、背景画像が複雑だとこのような結果になったかはわかりません。
Google ドライブとドキュメントでのOCR読み取り
実際に読み取りを行い、GIFアニメにしていますので、ご確認ください。
- Googleドライブにアクセスして、ドラッグ&ドロップ
- アプリで開く
- Google ドキュメントで読み込む
- 形式を指定してダウンロード
読み取りエリアのレイアウト設定など不要で、簡単一気に出来上がります。
いったんネットに情報をアップロードするので、気になる方もいると思います。
いままで、ネット上のサービスでこのような変換を利用しなかったのは、ネットにアップロードした情報は、たとえどこでも漏れることがあると思っていた方がよいという理由からでしたが、そんな気持ちも吹っ飛ぶほど高い利便性です。
またOCRで読み取れる画像フォーマットは、jpg、gif、pngそれにPDFファイルです。
そもそもGoogle ドライブとは
Googleのオンラインストレージサービスで、Googleアカウントがあれば利用できます。
Google ドライブは15 GB の無料容量で利用を開始できます。
追加容量を購入する有料プランもありますが、個人の動画以外のデータ利用ならまず問題ないでしょう。
利用方法は、パソコンからファイルをアップロードしたり、Google ドライブ内にファイルを作成することが可能です。
また、ファイルやフォルダを共有したり、他のユーザーが表示、編集することができるようにします。
Google ドキュメントとは
ドキュメントはどこにいても無料で作成、編集、共同作業が可能なオンラインワードプロセッサです。
また、MicrosoftR Office ファイルを編集、ダウンロードしたり、Google ドキュメント、スプレッドシート、スライドのいずれかに変換したりすることができます。
まとめ
Googleドライブとドキュメントを使えば簡単一気
どれ位の精度か、テストをしてみました。
まずは背景の違いによる読み取り精度
- 青空の背景に黒い文字を印字した画像
- 暗い夕焼け空を背景に白い文字を印字した画像
- 表形式になっている場合の読み取り制度と順番
これらを使ってみましたが、十分実用に耐えうるレベルに仕上がっていました。
いままで使っていたとあるソフトよりもはるかに良い結果でした。
Google ドライブとドキュメントでのOCR読み取り
- Googleドライブにアクセスして、ドラッグ&ドロップ
- アプリで開く
- Google ドキュメントで読み込む
- 形式を指定してダウンロード
とっても簡単です。
そもそもGoogle ドライブとは
Googleアカウントがあれば、Googleドライブは15 GB の無料容量で利用を開始できるオンラインストレージサービスです。
Google ドキュメントとは
ドキュメントはどこにいても無料で作成、編集、共同作業が可能なオンラインワードプロセッサです。
コメント