想做一个类似网络蜘蛛的程序,能找到网页上所有链接,然后下载某种特定格式的文件,一直到所有链接都访问过
不知道要怎么做

解决方案 »

  1.   

    给出入口,访问该入口,并获取该入口页面的html源码正则分析之,提取出符合条件的字符存储在如数组中遍历该字符数组,符合条件怎怎地,不符合条件怎怎地
      

  2.   

    如提取地址放到数组里,遍历该数组,如果是页面地址,继续访问并获取html源码,再有正则分析之,再存储在数组中,再遍历再访问再提取再访问再遍历再....
      

  3.   

    首先打开第一个网页,将html源代码保存下来,分析代码,找到所有A的标记,抓取href内容,保存所有的href链接,如果你想过滤不要的链接,就启动关键字对比,符合的存,不符合的跳过。
    上面过程持续1秒后,线程2启动,下载新网页,以此类推,直到把所有网页分析完。如果有什么不懂的地方,可以加我QQ:1462444561