求一解决思路---网爬 - 调试易

求一解决思路---网爬

最新发表
最新更新如果用IE去打开两个网站都是正确显示的。。但用网爬去爬出来的却都是最新更新求解？？

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

从一个网页入口，分析链接，一层一层的遍历，或者从一组网页入口，或者从一个rss源列表开始爬rss；
获取每个页面的源码保存在磁盘或者数据库里；
遍历抓下来的网页进行处理，比如提取正文，消重等；
根据用途把处理后的文本进行索引、分类、聚类等操作
参考
 爬虫
大牛呢  帮忙下撒
public static string GetHtmlSource(string url)
    {
        //处理内容
        string html = "";
        try
        {
            HttpWebRequest request = (HttpWebRequest)WebRequest.Create(url);
            HttpWebResponse response = (HttpWebResponse)request.GetResponse();
            Stream stream = response.GetResponseStream();
            StreamReader reader = new StreamReader(stream, Encoding.Default);
            html = reader.ReadToEnd();
            stream.Close();
        }
        catch (Exception e)
        {
        }
        return html;
    }
这是网爬的方法  大牛看看有没问题
哎求人不如求己~~~~~~~~~研究半天终于找到了原来是URL包含中文把中文用单引号括上就行了