将jsp的动态网站转换为静态网站,我知道网上的teleport工具可以很轻松的做到,但我想请教一下teleport这个功能的原理
1.通过什么方法可以得到整个网站的所有链接,就是读取首页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止
2.怎么样把页面连同图片、css、js保存到本地
哪位高手能不能帮忙讲解一下,非常感谢!!!

解决方案 »

  1.   

    还有把页面保存下来的时候teleport好像把里面的链接地址也改过了,不知道这个是怎么实现的,难道是统一替换吗?我看到在链接后面加了.htm,不知道是怎么区分,怎么改的,谢谢赐教
      

  2.   

    1. Web crawler.  就是对于每一个网页找出其中所有的链接,然后对于每一个链接指向的网页做相同的事。  其实就是一个递归算法。 辨认链接大多是用正则表达式。2. 用apache的httpclient就可以吧。 提交一个http request后把response 的内容作为outputstream拿出来就是那些东西了吧。
      

  3.   

    随便google 一个 Web crawler, 有多很资料的,内容比较多,不放便贴过来。两个开源Web crawler的地址:
    http://www.ideagrace.com/sf/open-source/171.htm
    http://www.yuanma.org/data/2006/0905/article_1463.htm