asp.net怎么抓取一个网站的所有网页,并保存在本地

解决方案 »

  1.   


    //提取动态网页内容
    Uri uri = new Uri("http://www.51aspx.com/");
      WebRequest req = WebRequest.Create(uri);
      WebResponse resp = req.GetResponse();
      Stream str = resp.GetResponseStream();
      StreamReader sr = new StreamReader(str,System.Text.Encoding.Default);
      string t = sr.ReadToEnd();
      this.Response.Write(t.ToString());
      

  2.   

    楼上的只是把51aspx.com的HTML源码挖出来我觉得一楼和二楼的结合一下应该就OK了
      

  3.   

      WebRequest req = WebRequest.Create(url);  //获取网页源代码
                string html = new StreamReader(req.GetResponse().GetResponseStream(), Encoding.GetEncoding("utf-8")).ReadToEnd();  //需指定网页的编码方式,如gb2312或 utf-8
                return html;这是在一般处理程序里面的代码
      

  4.   

    爬虫。
    从一个网页入口,分析链接,一层一层的遍历,或者从一组网页入口,或者从一个rss源列表开始爬rss;  
    获取每个页面的源码保存在磁盘或者数据库里;  
    遍历抓下来的网页进行处理,比如提取正文,消重等;  
    根据用途把处理后的文本进行索引、分类、聚类等操作
    参考
    爬虫