台州造价官网更新了,所有资料都要登陆才能查看,服务器设置COOKIE保留时间又为浏览器进程这种情况下,考虑使用python模拟登录后抓取并保存指定网页,在huginn监控爬取指定网页内容先观察分析验证码,验证码地址:http://www.tzzj.cn/tzperiodical/sysuserController.do?generalCode经分析,验证码为6字符的数字加英文模式,干扰线比较多,但是位置不变,这种情况下就比较好切割了用画图打开下载的验证码,查看里开启网格线!图片大小为:220*40像素分析图片7空列 4文字列 2空 4文字 2空 4文字 2空 4文字 2空 4文字 2空 4文字 3空7+4+2+4+2+4+2+4+2+4+2+4+3 = 44220/44 = 5那么像素就是5*7空 5*4文字 5*2空 5*4文字 5*2空 5*4文字 5*2空 5*4文字 5*2空 5*4文字 5*2空 5*4文字 5*3空简单的python切割代码# 导入相关的库
from PIL import Image
img = Image.open('1.jpg')
r
admin