限りなく院生に近いニート@エストニア

エストニアという国で一人ダラダラしてます。

OCRで画像からテキスト(日本語)を抽出してみる。

OCRを使って、画像からに日本語を抽出しようと思ったので、メモ。

 

 


from PIL import Image
from pytesseract import image_to_string

img = Image.open('ex.jpg')
text = image_to_string(img, lang='jpn')
print(text)
   

language設定で、最初日本語設定ができなかった。

 

どうやら

jpn.traineddata

 

をダウンロードし、

 

/usr/local/share/tessdata/

 

へ落とさないとダメらしい。

 

ドラッグ&ドロップでもいいが、コマンドでもいける。(下記)

 

 


$ curl -L -o /usr/local/share/tessdata/jpn.traineddata 'https://github.com/tesseract-ocr/tessdata/raw/master/jpn.traineddata'