各位大虾好,我现在正在做一个  采集器,,,
  我想求一个  递归算法  获取  子级网址中的所有链接,,,
比如A页面是0级页面,B是A页面中的所有链接,C是B页面中对应链接网址页面中的所有链接,,,依次类推...
 我如何获取到  最后一级网页中的所有链接.....
我百思不得其解,不知道  递归终止条件应该指定为什么,,,求各位大虾指教

解决方案 »

  1.   

    递归的终止条件就是这个页面没有父级了不知道你这样做意义何在。。呵呵 加入一个站有N个连接 你在递归一下N*N这样递归到最后就悲剧了啊。
      

  2.   

    1、连接的完整性处理,比如:<a href="..\ad.html">xxx</a>要处理成:http://xxx.xx.xxx/ss/dd/ad.html2、连接的有效性
    对一个连接,能获取文件内容的为有效,否则丢弃该连接3、连接的重复
    有些连接会多次出现,要检测是否已经收录,已收录的要丢弃4、好的正则表达式
    对已知的网站,可指定有针对性的“正则表达式”,已高效获取5、递归的结束
    搜索的连接进入队列,出队的进入递归,队中无数据,递归结束。