asp.net怎么抓取一个网站的所有网页,并保存在本地
解决方案 »
- 谁有asp.net调用存储过程分页的例子
- 头都大了,显示错误,大家来帮帮我
- asp.net能不能用md5函数?
- 帮忙看看这个的菜鸟问题,谢谢!
- 多数据访问问题
- 多图片上传到数据库
- TextBox控件TextChanged事件
- 如果你用的是 VS.NET 2003,则 Crystal Reports 9 (版本 9.2.0.x) 不能正确运行,需要升级到 CR 9 (版本 9.2.2.x).
- asp.net简单问题
- 做一个论坛。想把所有文件静态化。两个文章列表方案。请教那个好
- ASP.net的ASHX問題
- 关于Procedure的like匹配问题,很低级的错误!大家帮忙看看,感情写晕了头,谢谢大侠们了
//提取动态网页内容
Uri uri = new Uri("http://www.51aspx.com/");
WebRequest req = WebRequest.Create(uri);
WebResponse resp = req.GetResponse();
Stream str = resp.GetResponseStream();
StreamReader sr = new StreamReader(str,System.Text.Encoding.Default);
string t = sr.ReadToEnd();
this.Response.Write(t.ToString());
string html = new StreamReader(req.GetResponse().GetResponseStream(), Encoding.GetEncoding("utf-8")).ReadToEnd(); //需指定网页的编码方式,如gb2312或 utf-8
return html;这是在一般处理程序里面的代码
从一个网页入口,分析链接,一层一层的遍历,或者从一组网页入口,或者从一个rss源列表开始爬rss;
获取每个页面的源码保存在磁盘或者数据库里;
遍历抓下来的网页进行处理,比如提取正文,消重等;
根据用途把处理后的文本进行索引、分类、聚类等操作
参考
爬虫