最近在做一个网站的数据抓取,可是这网站有验证码,难道要把图片取下来,将图片识别为4个数字,用httpclient加上所有参数才能登陆。java在将图片解析为数字有方法没?网上百度了下说用ocr识别,不知道准确率是不是100%,java能将验证码识别为数字,完成用httpclient自动登陆吗?验证码识别抓取数据

解决方案 »

  1.   

    orc识别肯定是没有100%的,这不用怀疑。你说的思路只能就是做验证码识别了。
    抓数据还有一些旁门左道,比如绕过验证码/绕过登陆等,访问实际数据所在地址。这需要你对此站点的业务以及请求做一定的测试和分析的
      

  2.   

    ORC的识别能力不是一般的弱,稍微有点扭曲的字体就不行了
      

  3.   


    这种验证码太规则了,很好识别,先去噪点,然后分割成4个单独的数字,采集10个数字的图片,分别对比各个部分的匹配度就可以了。网上有相关文章介绍的,我以前找的文章现在不知道怎么再找到了,这是类似的一个文章
    http://www.cnblogs.com/yuanbao/archive/2007/09/25/905322.html