在我本地客户端,想抓到网页上的数据做统计,有什么好办法么?
当然,这个网页不是我自己的,我也拿不到他的后台数据,只能看到网页上显示出来的数字,例如下图:
我想统计一下百度某贴吧点击量的总数,也就是把图中红框圈起来的一个一个累加在一起,当然实际上数量很大不可能拿计算器手动一个个去加,所以想请教有没有什么好的办法实现我这个需求,多谢诸位啦!

解决方案 »

  1.   

    http协议 然后分析返回的结果
    还有楼主你的图片看不见
      

  2.   

    先抓取网页内容
    然后提取该列的数据
    楼主可以看下jsoup 提取HTML标签内容
      

  3.   

    看看api的URL类,遍历返回的结果应该不是什么难事吧,呵呵
      

  4.   

    就是说,大体思路还是:
    搞到返回页面的代码,然后解析这篇代码,找到要统计数据的标签,取出这些数据,转成int,做累加运算,是吧?
      

  5.   

    使用网络爬虫 网络爬虫,又被称为网页蜘蛛、网络机器人,也经常有称为网页追逐者,还有一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫,是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本; 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成部分。传统爬虫是从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件,而信元爬虫技术并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。 从事网站运营的企业或站长,往往需要很大的人力和财力,从众多网站上查找网页信息、图片、附件、资源等,进行手工整理后,再发布到需要运营的网站或网络上,这样无形中增加了人工的成本,在信息的质量、完整性、数量上无法满足用户的需求;   使用信元网络爬虫技术,就解决了以上问题,它可以根据用户的业务需求,量身定做的网站网页追踪、复制拷贝,进行搜索和整理工作,无所不能的为您提供所需要的最新信息,从而为您方便的提供信息整合和资源整合,丰富用户网站的信息量,实时提供信息更新、信息维护;   提供可管理的蜘蛛入口,抓取策略设置及抓取文章过滤;自动过滤重复文章;智能分析页面类型,入口页面或目录型页面可定时重复抓取;针对抓取结果自动进行中文分词、词频统计及简要分类。
      

  6.   

    htmlparser,nekohtml都可以做,你先把这列数据抓下来,然后放到集合中去累加嘛
      

  7.   

    我用htmlparser做了,普通页面都是可以的,要的值都能拿到,可是我要搞的这个页面是lotus notes开发的暂时没办法了,还是谢谢诸位,我去结贴~