PythonでOCR！簡単に実装する方法から高精度なOCRまで

OCRと聞いて何を思い浮かべますか？

自在に使えたら便利そう

業務改善で使えそう

など思う人は多いと思います。今回はOCRについてPythonで高精度に実装する方法を確認していきましょう。実際にコードを示しながら進めているので、一緒に手を動かしながら学べます！

一連の手続きでわからないことやエラーが発生した際にはTech Teacherにぜひお問い合わせください！

本ブログを運営しているTech Teacherは、
プログラミング家庭教師サービスを運営しています。
完全マンツーマン・フルオーダーメイドで
あなたが必要な指導を提供します。

データサイエンス講座の
詳細を見る➡

OCRとは
- Tesseract
Pythonでの実装方法
実際に実装してみる
さらに高精度を狙う
- tesseract_layout
データサイエンスを学習するならTech Teacherで！
まとめ

データサイエンス講座の
詳細を見る➡

OCRとは

OCR：Optical Character Recognitionは光学文字認識の略で、画像や文書の中からテキストを自動的に抽出する技術です。具体的には、印刷された文書、手書きの文書、または印刷されたテキストが含まれた画像から文字を認識する事が可能です。

Tesseract

今回は「Tesseract」を使用してOCRをしてみましょう。TesseractはオープンソースのOCRエンジンです。もともとGoogleによって開発され、後にオープンソースプロジェクトとして公開されました。

Tesseractはオープンソースであり、また高い精度を誇っているため使いやすく、まずはこれでOCRを実施してみるとよいと思います。

Pythonでの実装方法

ダウンロード

Tesseractはgithub「https://github.com/tesseract-ocr/tessdoc」から使用可能です。インストーラーが用意されているので、こちらを使用していきましょう。

ドキュメンテーションの中にWindowsインストーラーへのリンクがありますので、こちらに進みます。今回はWindowsについて解説していますが、それ以外の方は該当するページに進んでください。

「Tesseract installer for Windows」の項目の中にダウンロードリンクがあるので、ここをクリックしてダウンロードしてきます。

インストール

先ほどダウンロードしてきたファイルに従ってインストールしていきます。

途中「Choose Components」で、「Additional script data」と「Additional language data」は以下の各２項目を追加してください。

「Additional script data」

「Additional language data」

それ以外は基本デフォルトのままで結構です。必要に応じて変更してください。

次にインストールしたフォルダへのパスを設定します。Wndowsで「システム環境変数の編集」を検索して、開いてください。

その後、「Path」を選択して「編集」を選択します。

「新規」を押して、一覧の中に先ほどTesseractをインストールしたフォルダを追加します。デフォルトのままインストールすると、図のように「C:\Program Files\Tesseract-OCR」にインストールされていると思います。

その後、Tesseractが入っているフォルダ以外の場所で「Tesseract」と入力し、「ファイルとして認識されてません」というコメントが出ず、以下のようになれば設定完了です。

pyocrのインストール

次にPythonからOCRを使用するために「pyocr」をインストールします。

こちらは「pip install pyocr」でインストール可能です。

実際に実装してみる

では、実際にコードを書いて実装してみましょう。今回は下記のようなTech Teacherの魅力をまとめた部分を「sample.png」ファイルにしたものを読み取ってみましょう。

import pyocr
from PIL import Image

tools = pyocr.get_available_tools()
tool = tools[0]

img = Image.open('./sample.png')

text = tool.image_to_string(
    img,
    lang="jpn",
    builder=pyocr.builders.TextBuilder(tesseract_layout=6)
)

print(text)

ではコードを順番に見ていきましょう。

import pyocr
from PIL import Image

pyocrとPILからImageを読み込みます。

tools = pyocr.get_available_tools()
tool = tools[0]

「pyocr.get_available_tools()」でpyocrで使用できるtoolの一覧を取得します。今回はtesseractしか入っていないので、toolsの0番目にあるtesseractを呼び出します。もしここで複数のtoolが入っている場合は以下のように確認し、該当する番号のものを呼び出してください。

img = Image.open('./sample.png')

text = tool.image_to_string(
    img,
    lang="jpn",
    builder=pyocr.builders.TextBuilder()

まずは今回使用したいデータを「img」に格納します。

次に、先ほど選択したtoolを使用して、「tool.image_to_string()」で読み取りを行います。引数は順に

OCRするファイル
使用する言語
使用するbuilder

を入力しています。３つ目のbuilderに関しては以下のようなものがあります。今回は一番上の「TextBuilder」を使用しています。

print(text)

よい精度で認識できているようです。

さらに高精度を狙う

先ほど読み取りを行ったものを確認すると、まぁまぁの認識精度で読み取りを行えているようですが、

魅力１の前に「上」という不要な文字が入っている
魅力２と３の間に不要な改行が入っている

という部分が少しおかしいようです。少し引数を調整してみましょう。

tesseract_layout

text = tool.image_to_string(
    img,
    lang="jpn",
    builder=pyocr.builders.TextBuilder(tesseract_layout=6)
)
print(text)

「TextBuilder」に「tesseract_layout=6」を指定してみました。これで正しく認識できたようです。

「tesseract_layout」は、文字のレイアウトに関する指定です。コマンドプロンプトに「tesseract –help-extra」と入力していただくと、「Page segmentation modes」の項目で説明が出てきます。

指定できる値を簡単にまとめると、

０：OSD、Orientation and script detection：原文と予測のみ
１：OSD+自動ページ分割
２：OSDなし+自動ページ分割
３：OSDなし+完全自動ページ分割
４：さまざまなサイズのテキストの単一列
５：縦組みテキストの単一ブロック
６：一つのテキストブロック
７：一行のテキストとして扱う
８：一つの単語として扱う
９：円の中の一つの単語として扱う
１０：一つの文字として扱う
１１：まばらなテキスト。可能な限り多くのテキストを探す
１２：OSD+まばらなテキスト
１３：行のまま。一行として扱う

となっています。

データサイエンスを学習するならTech Teacherで！

『Tech Teacher』3つの魅力

魅力1. オーダーメイドのカリキュラム

『Tech Teacher』では、決められたカリキュラムがなくオーダーメイドでカリキュラムを組んでいます。「質問だけしたい」「相談相手が欲しい」等のご要望も実現できます。

魅力2. 担当教師によるマンツーマン指導

Tech Teacherでは、完全マンツーマン指導で目標達成までサポートします。
東京大学を始めとする難関大学の理系学生・院生・博士の教師がが1対1で、丁寧に指導しています。
そのため、理解できない箇所は何度も分かるまで説明を受けることができます。

魅力3. 3,960円/30分で必要な分だけ受講

Tech Teacherでは、授業を受けた分だけ後払いの「従量課金制」を採用しているので、必要な分だけ授業を受講することができます。また、初期費用は入会金22,000円のみです。一般的なプログラミングスクールとは異なり、多額な初期費用がかからないため、気軽に学習を始めることができます。

まとめ

・魅力1. 担当教師によるマンツーマン指導

・魅力2. オーダーメイドのカリキュラム

・魅力3. 3,960円/30分で必要な分だけ受講

データサイエンス講座の
詳細を見る➡

30秒で完了！無料体験授業・資料請求はこちら➡

質問のみのお問い合わせも受け付けております。

『Tech Teacher』3つの魅力

魅力1. オーダーメイドのカリキュラム

魅力2. 担当教師によるマンツーマン指導

魅力3. 3,960円/30分で必要な分だけ受講

まとめ

・魅力1. 担当教師によるマンツーマン指導

・魅力2. オーダーメイドのカリキュラム

・魅力3. 3,960円/30分で必要な分だけ受講

データサイエンス講座の
詳細を見る➡

30秒で完了！無料体験授業・資料請求はこちら➡

質問のみのお問い合わせも受け付けております。

まとめ

今回はOCRとしてTesseractを説明してきました。OCRを使用すると、既存の紙ベースで流れている情報などをそのまま有効活用することが可能です。

ぜひ、今回の内容を参考に有効活用していただければと思います。また、一連の手続きでわからないことやエラーが発生した際にはTech Teacherにぜひお問い合わせください！

PythonでOCR！簡単に実装する方法から高精度なOCRまで

OCRとは

Tesseract

Pythonでの実装方法

ダウンロード

インストール

pyocrのインストール

実際に実装してみる

さらに高精度を狙う

tesseract_layout

データサイエンスを学習するならTech Teacherで！

『Tech Teacher』3つの魅力

『Tech Teacher』3つの魅力

まとめ

【1分でわかる】物体検出の基礎！OpenCVによる物体検出

画像の特徴量抽出とは？主要6つのアルゴリズムわかりやすく解説！

【初心者必見】深層学習を用いた画像認識の仕組みと活用事例｜最新研究動向

Python + OpenCVで画像処理をマスター！使用法・実用例を解説

VBAの整数型Integerがわかる！Long型・Byte型との違いも解説

【初心者向け】Pythonのglobを徹底解説！正規表現の書き方も説明