asp.net 怎样制作爬虫程序的思路及步骤.
举例 比如要捉取网易的新闻
1, 新闻类别 (如 社会新闻,财经新闻,体育新闻...)
2 新闻的主题内容(如 新闻标题, 新闻来源,新闻内容,新闻发布时间, 新闻作者)
3 新闻评论 (如评论者名称,评论内容,评论时间)
举例 比如要捉取网易的新闻
1, 新闻类别 (如 社会新闻,财经新闻,体育新闻...)
2 新闻的主题内容(如 新闻标题, 新闻来源,新闻内容,新闻发布时间, 新闻作者)
3 新闻评论 (如评论者名称,评论内容,评论时间)
解决方案 »
- gridview表头的问题?
- oracle真的比SQL SERVER强很多吗?
- Code-First POCO问题
- 在数据库中取值画出曲线图
- 我在DataGrid中的TemplateColumn加了一列CheckBox,显示时,请问怎么记录用户的勾选项?
- 如果一个类中属性很多,其设属性值与取属性值怎么样设计才更方便及容易修改
- 如何在模式对话框中使用web控件进行服务器回送的功能,且不打开新页面
- 请问如何在水晶报表中插入图表呢?
- 如何取得半个汉字的ASCII码的值呢??急!!!!!!!!!!!
- 如何在.CS中调用独立js文件中的某个函数值!急急急急!
- 大家做.NET开发时候用什么方法进行分页的啊?
- 能不能 又连SQL 又连ACCESS
WebResponse HttpWebResponse = null;
HttpWebRequest = WebRequest.Create(url);
HttpWebResponse = HttpWebRequest.GetResponse();获取信息,再用正则格式化
看看动网新闻采集系统
http://topic.csdn.net/u/20090815/09/18bb26a5-7963-4e34-8a18-b76f4862946a.html
呵呵,挺一般的东西。这一个多星期都在写采集程序,很乏味 - -
主要都是获取页面源码,然后用正则表达式匹配取得信息。
不需要很强的正则表达式功力,一般的就够用。
比较麻烦的是,如果采集整站信息,有时需要宽搜或深搜。顺便写一种获取页面源码的更简短写法:WebClient wc = new WebClient();
wc.Encoding = Encoding.Default;
string html = wc.DownloadString(url);
{
string regexStr = pRegex.Replace("{$}", "(?<key>.*?)");
Regex r = new Regex(regexStr, RegexOptions.None);
Match mc = r.Match(pText);
return mc.Groups["key"].Value;
}