我想做个信息采集工具,该如何获取出该网站下的所有页面地址(主要的信息页面)呢C#代码怎么实现?爬虫程序可行不?该怎么弄?不要推荐百度和google进行搜索,因为有些页面可能没收录!

解决方案 »

  1.   

    原来回过这样的帖子,楼主请参考
    http://topic.csdn.net/u/20100925/14/a1c81092-732c-4d84-9ebb-9306c563dbd8.html
      

  2.   

    MatchCollection mc= Regex.Matches(str, @" <a[^> ]*href=([ ' " "]?)(? <url> [^ ' " "> \s]*)\1?[^> ]*> (? <text> [^ <]*) </a> ", RegexOptions.IgnoreCase);   
    foreach (Match m in mc)   
    {   
      Response.Write(m.Groups[ "url "].Value);   
      Response.Write(m.Groups[ "text "].Value);   
    }   
    分页什么样格式
      

  3.   


    份页后面也有连接呀只要有<a href=""></a>的,都可以抓出来呀
    如果是做成按钮的,那就没有什么好办法了