有验证码的网站怎么自动抓取数据 最近在做一个网站的数据抓取,可是这网站有验证码,难道要把图片取下来,将图片识别为4个数字,用httpclient加上所有参数才能登陆。java在将图片解析为数字有方法没?网上百度了下说用ocr识别,不知道准确率是不是100%,java能将验证码识别为数字,完成用httpclient自动登陆吗?验证码识别抓取数据 解决方案 » 免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货 orc识别肯定是没有100%的,这不用怀疑。你说的思路只能就是做验证码识别了。抓数据还有一些旁门左道,比如绕过验证码/绕过登陆等,访问实际数据所在地址。这需要你对此站点的业务以及请求做一定的测试和分析的 ORC的识别能力不是一般的弱,稍微有点扭曲的字体就不行了 这种验证码太规则了,很好识别,先去噪点,然后分割成4个单独的数字,采集10个数字的图片,分别对比各个部分的匹配度就可以了。网上有相关文章介绍的,我以前找的文章现在不知道怎么再找到了,这是类似的一个文章http://www.cnblogs.com/yuanbao/archive/2007/09/25/905322.html 哪个第三方jar包可以实现对象的复制(拷贝) Servlet 中 通过request.getInputStream()读入并保存文件疑问 我跟着尚学堂的视频做项目 为什么他是对的 而我有错误啊? jsp 导出excel异常 这个问题谁碰过啊!!! jar包求助 连接参数 struts页面bean问题及jb问题 有关杭州恒生电子 jbuilder+jboss 如何运行期跟踪EJB代码? java下载网络文件 mave build 出错
抓数据还有一些旁门左道,比如绕过验证码/绕过登陆等,访问实际数据所在地址。这需要你对此站点的业务以及请求做一定的测试和分析的
这种验证码太规则了,很好识别,先去噪点,然后分割成4个单独的数字,采集10个数字的图片,分别对比各个部分的匹配度就可以了。网上有相关文章介绍的,我以前找的文章现在不知道怎么再找到了,这是类似的一个文章
http://www.cnblogs.com/yuanbao/archive/2007/09/25/905322.html