OCR(Optical Character Recognition:光学的文字認識)とは、手書きや印刷文書をスキャンしてデジタルテキスト化する技術のことです。以前はスキャナに紙を通していましたが、スマホで撮った写真をGoogleドライブにアップロードすることで簡単にOCRができることで実際に試してみました。

【1】写真の向きを正しくするととりあえずやってみる。

手元にあったプリントを試しに写真にとって実験をしてみました(元記事はHBRブログより)。

流れとしては以下の手順になります。

  1. スマホで文書を撮る。
  2. 写真をGoogleドライブにアップロードする。
  3. コンピュータでGoogleドライブを開く。
  4. 当該写真を右クリックし、アプリで開く→Googleドキュメント をクリック。
Googleドキュメントを使ったOCR
今回は手元にあった文書をスマホで撮影して実験
GoogleドキュメントでOCR
画像を右クリック、Googleドキュメントで開く。

結果は、写真が横置きで認識されてしまったため、文字化けして正しく認識されませんでした。Googleドライブのプレビューで縦置きになっていても、Googleドキュメントに読み込むときに横置きになってしまいました。

アップロードした写真は90°寝ていたためOCRが機能しない

【2】読み取るためには写真の向きが重要

そこで、一度Pixlr Expressのような画像エディタで向きを回転させて正しい方向に直して、保存したもので再び挑戦しました。

GoogleドキュメントOCR
Pixlr Expressなど画像エディアで写真を回転する
GoogleドキュメントでOCR
写真の向きを変更保存した後、あらためてGoogleドキュメントで開く。

GoogleドキュメントでOCR
写真の向きを正しくすると、正確にOCRが機能する。

当然ですが、OCRを機能させるためには写真の向きが重要です。

読み取りの精度ですが、ワープロ文書なら掠れとか滲みなどで判読しにくいものでなければ、高い精度(今回は100%)で読み取ってくれるようです。

【3】では縦書きの文書は?

横書きの文章はOCRできちんと読み取れました。それでは縦書きの文書はどうでしょう?これまた手元にあったTARZANの表紙の一部を写真で取って実験してみました。

縦書きの文章をOCRしてみる。
GoogleドキュメントのOCR機能
縦書き文書もきちんと!読み取ることができた。

なんと、縦書き文書もきちんと読み取ることができました。Googleドキュメントは縦書きのフォーマットがないので、横書きテキストとなります。

どうやって縦書き、横書きの区別をしているんでしょうか?

以前は、フラットスキャナやスキャナ付きプリンタなどハードを購入し、またAcrobatなどOCR機能のあるソフトウェアを用意しなければならず、結構面倒な感じがありましたが、スマホとGoogleドライブがあれば簡単かつ精度の高いOCRができるようになったのはとても便利ですね。

(追記)

  • スマホのGoogleドライブアプリではOCRはできないようです。画像にOCRをかけるのはラップトップかデスクトップPCでブラウザからGoogleドライブを利用する必要があります。
  • また、Google keepに貼り付けてある画像をGoogleドキュメントにコピーする際にもOCR機能が働くようですが、こちらはまだ英語しか認識しないようです。
  • 今回は手書き文書の判読実験はしていません。手書き文書での実験もどこかでやってみたいと思います。

参照:

広告