你要自己实现这个算法还是用其它工作?
如果是自己实现:
那就是取得一页的LINK,然后走下去,走3层,但是你要在走的过程中判断是否以前走过此路如果是用工具,下载一个站点,我推荐2个工具
webzip
webdup

解决方案 »

  1.   

    你也许可以尝试使用一种集合,来存储这些链接,就像数据库中设置一个字段的值为“唯一”一样,不让它存储。你说的算法肯定有方法解决的,即然想做了,就做吧。多想想,我也在做这方面的研究,有空一起讨论讨论。我的MSN:
    [email protected]
      

  2.   

    解析HTML
    提取<a>标签中href的值,并加以处理
    我以前做过,不过代码已经没了
      

  3.   

    抱歉,没看到你后面的问题
    链接的各种形式你是否都考虑周全了?
    ../
    /
    http:
    www.
    ......