asp.net 怎样制作爬虫程序的思路及步骤?. - 调试易

asp.net 怎样制作爬虫程序的思路及步骤?.

asp.net 怎样制作爬虫程序的思路及步骤.
举例比如要捉取网易的新闻
1, 新闻类别 (如社会新闻,财经新闻,体育新闻...)
2  新闻的主题内容(如新闻标题, 新闻来源,新闻内容,新闻发布时间, 新闻作者)
3  新闻评论 (如评论者名称,评论内容,评论时间)

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

WebRequest HttpWebRequest = null;
WebResponse HttpWebResponse = null;
HttpWebRequest = WebRequest.Create(url);
HttpWebResponse = HttpWebRequest.GetResponse();获取信息，再用正则格式化
看看动网新闻采集系统
http://topic.csdn.net/u/20090815/09/18bb26a5-7963-4e34-8a18-b76f4862946a.html
呵呵，挺一般的东西。这一个多星期都在写采集程序，很乏味 - -
主要都是获取页面源码，然后用正则表达式匹配取得信息。
不需要很强的正则表达式功力，一般的就够用。
比较麻烦的是，如果采集整站信息，有时需要宽搜或深搜。顺便写一种获取页面源码的更简短写法：WebClient wc = new WebClient();
wc.Encoding = Encoding.Default;
string html = wc.DownloadString(url);
那如果要一页页的爬信息呢，就是说传的url是动态的，如何获取网站的一页页的url？
        public static string get_regex(ref string pText,string pRegex)
        {
            string regexStr = pRegex.Replace("{$}", "(?<key>.*?)");
            Regex r = new Regex(regexStr, RegexOptions.None);
            Match mc = r.Match(pText);
            return mc.Groups["key"].Value;
        }
参考示例http://www.cnblogs.com/lifuyun/archive/2009/09/22/lifuyun09092201.html