各位老大:我想从几个提供数据的网站的页面上将表中的数据自动抓下来,这些页面是带有翻页功能的.
这里有两点我现在不知如何处理:
1、我知道如何编程序将整个页面的代码及数据抓下来,但不知如何抓去我只想要的表中的具体数据。
   而不是连同整个页面标记代码。
2、不知如何实现在抓取过程中的页面自动翻页。
还望高手指点!

解决方案 »

  1.   

    把抓回来的页面的html代码用正则表达式查找一下,应该就能定位表中的数据,把他们给扣出来。翻页也是一样,找到 “下一页” 的href里面的地址,作为下一个页面的地址就行了。btw,正则表达式的api要jdk1.4以上才支持,在java.util.regex包里面,可以看一下jdk的文档或是网上找一下相关的例子。