求asp.net爬虫源代码,能够生成sitemap.xml和sitemap.html 请大家帮忙?

解决方案 »

  1.   

    http://www.codeplex.com/site/search?ProjectSearchText=spider
      

  2.   

    http://www.codeplex.com/noodle,这个是我写的,功能还不是很完善,而且只能爬一层.
      

  3.   

    完整的爬虫楼主还是看这个吧.
    http://www.cnblogs.com/torome/articles/364774.html
      

  4.   

    httpwebrequest网站首页,然后得到的流READTOEND,形成字符串,然后进行对字符串的解析。
    有的网站一般站点地图和菜单项匹配的。
      

  5.   

    然后再动态生成xml或根据xsl转换工具转换成相应html。
      

  6.   

    用webrequest        WebRequest Wrq = WebRequest.Create(要爬的地址);
            WebResponse Wrs = Wrq.GetResponse();
            Stream strm = Wrs.GetResponseStream();
            StreamReader sr = new StreamReader(strm, System.Text.Encoding.GetEncoding("UTF-8"));
            string allstrm;
            allstrm = sr.ReadToEnd();
            string strPattern = @"要抓东西的正则";
            MatchCollection Matches = Regex.Matches(allstrm, strPattern, RegexOptions.IgnoreCase | RegexOptions.Compiled);
            foreach (Match NextMatch in Matches)
            {
                得到结果 = NextMatch.Groups[0].Value.ToString().Trim();
            }然后你把结果生成XML文件就可以了,写个方法带参数的。
      

  7.   

    5000分,我送上源码,C#开发,winform的,是自己写的用来爬邮件的,多线程,
      

  8.   

    好jian,没晓得现在流行什么?开源!
      

  9.   

    lucence是爬虫?那个不是吧!!!