Python用pytesseract进行验证码识别
最近在写自动化脚本时,在网站登陆和注册时遇到了验证码
下面就来实现一个简单的验证码识别:
需要用到的库PIL、pytesserac,tesseract-ocr
下载地址:https://sourceforge.net/projects/tesseract-ocr-alt/files/
tesseract-ocr 安装完后,要去新添加个环境变量
运行的时候会报错:pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it’s not in your path
需要去 pytesseract.py 源码里修改一下
将源码中的:tesseract_cmd = 'tesseract'
修改为: tesseract_cmd = ‘ C:\Program Files\Tesseract-OCR\\tesseract.exe ‘ # 这里是你tesseract-ocr 的安装路径
代码: import pytesseract from PIL import Image image = Image.open("G:/yzm.png") text = pytesseract.image_to_string(image) print(text)
成功识别: