OCRで画像からテキスト(日本語)を抽出してみる。
OCRを使って、画像からに日本語を抽出しようと思ったので、メモ。
from PIL import Image
from pytesseract import image_to_string
img = Image.open('ex.jpg')
text = image_to_string(img, lang='jpn')
print(text)
language設定で、最初日本語設定ができなかった。
どうやら
jpn.traineddata
をダウンロードし、
/usr/local/share/tessdata/
へ落とさないとダメらしい。
ドラッグ&ドロップでもいいが、コマンドでもいける。(下記)
$ curl -L -o /usr/local/share/tessdata/jpn.traineddata 'https://github.com/tesseract-ocr/tessdata/raw/master/jpn.traineddata'