最新发表
最新更新如果用IE去打开 两个网站都是正确显示的。。 但用网爬去爬  出来的却都是最新更新   求解??

解决方案 »

  1.   

    从一个网页入口,分析链接,一层一层的遍历,或者从一组网页入口,或者从一个rss源列表开始爬rss;  
    获取每个页面的源码保存在磁盘或者数据库里;  
    遍历抓下来的网页进行处理,比如提取正文,消重等;  
    根据用途把处理后的文本进行索引、分类、聚类等操作
    参考
    爬虫
      

  2.   

    大牛呢  帮忙下撒
    public static string GetHtmlSource(string url)
        {
            //处理内容   
            string html = "";
            try
            {
                HttpWebRequest request = (HttpWebRequest)WebRequest.Create(url);
                HttpWebResponse response = (HttpWebResponse)request.GetResponse();
                Stream stream = response.GetResponseStream();
                StreamReader reader = new StreamReader(stream, Encoding.Default);
                html = reader.ReadToEnd();
                stream.Close();
            }
            catch (Exception e)
            {
            }
            return html;
        }
     这是网爬的方法  大牛看看有没问题
      

  3.   

    哎 求人不如求己~~~~~~~~~研究半天终于找到了 原来是URL包含中文 把中文用单引号括上就行了