限りなく院生に近いパリピ＠エストニア

エストニアという国で一人ダラダラしてます。

OCRを使って、画像からに日本語を抽出しようと思ったので、メモ。


from PIL import Image
from pytesseract import image_to_string

img = Image.open('ex.jpg')
text = image_to_string(img, lang='jpn')
print(text)

language設定で、最初日本語設定ができなかった。

どうやら

jpn.traineddata

をダウンロードし、

/usr/local/share/tessdata/

へ落とさないとダメらしい。

ドラッグ＆ドロップでもいいが、コマンドでもいける。（下記）


$ curl -L -o /usr/local/share/tessdata/jpn.traineddata 'https://github.com/tesseract-ocr/tessdata/raw/master/jpn.traineddata'