asp.net 怎样制作爬虫程序的思路及步骤. 
举例 比如要捉取网易的新闻
 1, 新闻类别 (如 社会新闻,财经新闻,体育新闻...)      
 2  新闻的主题内容(如 新闻标题, 新闻来源,新闻内容,新闻发布时间, 新闻作者)      
 3  新闻评论 (如评论者名称,评论内容,评论时间)                          

解决方案 »

  1.   

    WebRequest HttpWebRequest = null; 
    WebResponse HttpWebResponse = null; 
     HttpWebRequest = WebRequest.Create(url); 
    HttpWebResponse = HttpWebRequest.GetResponse();获取信息,再用正则格式化 
    看看动网新闻采集系统
    http://topic.csdn.net/u/20090815/09/18bb26a5-7963-4e34-8a18-b76f4862946a.html
      

  2.   


    呵呵,挺一般的东西。这一个多星期都在写采集程序,很乏味 - -
    主要都是获取页面源码,然后用正则表达式匹配取得信息。
    不需要很强的正则表达式功力,一般的就够用。
    比较麻烦的是,如果采集整站信息,有时需要宽搜或深搜。顺便写一种获取页面源码的更简短写法:WebClient wc = new WebClient(); 
    wc.Encoding = Encoding.Default;
    string html = wc.DownloadString(url);
      

  3.   

    那如果要一页页的爬信息呢,就是说传的url是动态的,如何获取网站的一页页的url?
      

  4.   

            public static string get_regex(ref string pText,string pRegex)
            {
                string regexStr = pRegex.Replace("{$}", "(?<key>.*?)");
                Regex r = new Regex(regexStr, RegexOptions.None);
                Match mc = r.Match(pText);
                return mc.Groups["key"].Value;
            }
      

  5.   

    参考示例http://www.cnblogs.com/lifuyun/archive/2009/09/22/lifuyun09092201.html