自己写了一个网络爬虫,用于抓取某个网页,但是这个网页的内容很多,通过JS分页.现在我只能抓取到第一页的内容.
分析html代码,发现它其中有一个onclick函数,可用于翻页,请问能否在我的爬虫中自动调用这个onclick函数,我的爬虫是拿httpclient做的.

解决方案 »

  1.   

    现在的网页JS代码越来越多了,尤其是AJAX网站,对普通爬虫是个噩梦。但是,如果换个思路做爬虫,问题就可解决。我一直利用Mozilla平台做信息提取工具,理论上只要Mozilla自身的代码(不包括插件)能够分析的内容都可以提取,我做了一套工具,99%的代码是用Javascript和XML写的,都可以阅读,下载地址:http://www.gooseeker.com/cn/node/download/front当前版本没有实现完全自动的AJAX内容提取,正在做一个半自动的AJAX内容提取工具,已经发布能够实现执行onclick等操作,凡是用户界面操作都能模拟
      

  2.   

    http://www.docin.com/p-79673217.html
    这里有关于 ajax 支持的具体论文