请教网络蜘蛛的制作

想做一个类似网络蜘蛛的程序，能找到网页上所有链接，然后下载某种特定格式的文件，一直到所有链接都访问过
不知道要怎么做

给出入口,访问该入口,并获取该入口页面的html源码正则分析之,提取出符合条件的字符存储在如数组中遍历该字符数组,符合条件怎怎地,不符合条件怎怎地
如提取地址放到数组里,遍历该数组,如果是页面地址,继续访问并获取html源码,再有正则分析之,再存储在数组中,再遍历再访问再提取再访问再遍历再....
首先打开第一个网页，将html源代码保存下来，分析代码，找到所有A的标记，抓取href内容，保存所有的href链接，如果你想过滤不要的链接，就启动关键字对比，符合的存，不符合的跳过。
上面过程持续1秒后，线程2启动，下载新网页，以此类推，直到把所有网页分析完。如果有什么不懂的地方，可以加我QQ：1462444561