本帖最后由 noleave 于 2011-01-15 18:20:31 编辑

解决方案 »

  1.   

    这个程序可以说要包含以下功能:
    1.尽量能运行在一个普通的虚拟主机上
    2.能定期去抓取其他网站网页
    3.有能解析执行javascript的库
      

  2.   

    java就可以实现,可以在web容器(像tomcat、websphere这样的web服务器)中启动线程来执行类似爬虫的程序。网页其实就是一些html代码,这些代码被放到了浏览器中运行,如果解析了这些html代码,也就得到了网页的内容,而不一定要去运行这些html代码(包括javascript)。抓取网页关键在于获得网页(通过http的get和post模拟浏览器,向web服务器传递参数,然后获得html代码),然后解析网页。关于网页解析,可使用j2se的swing的HTMLEditorKit来解析,具体可看:http://wenku.baidu.com/view/02f7ead9ad51f01dc281f197.html
      

  3.   

    但是有些动态数据必须通过javascript才能得到呢。
    一般的虚拟主机有支持这种功能的吗?