求一解决思路---网爬 最新发表最新更新如果用IE去打开 两个网站都是正确显示的。。 但用网爬去爬 出来的却都是最新更新 求解?? 解决方案 » 免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货 从一个网页入口,分析链接,一层一层的遍历,或者从一组网页入口,或者从一个rss源列表开始爬rss; 获取每个页面的源码保存在磁盘或者数据库里; 遍历抓下来的网页进行处理,比如提取正文,消重等; 根据用途把处理后的文本进行索引、分类、聚类等操作参考爬虫 大牛呢 帮忙下撒public static string GetHtmlSource(string url) { //处理内容 string html = ""; try { HttpWebRequest request = (HttpWebRequest)WebRequest.Create(url); HttpWebResponse response = (HttpWebResponse)request.GetResponse(); Stream stream = response.GetResponseStream(); StreamReader reader = new StreamReader(stream, Encoding.Default); html = reader.ReadToEnd(); stream.Close(); } catch (Exception e) { } return html; } 这是网爬的方法 大牛看看有没问题 哎 求人不如求己~~~~~~~~~研究半天终于找到了 原来是URL包含中文 把中文用单引号括上就行了 求助:通过串口循环往设备发指令的问题 发布后的后台一会能登陆一会登不上去 C#字符串问题 我想添加数据到accdb数据库文件,求指教 vs2005 发布的问题 一个关于session的非常奇怪的问题 欢迎试用Snake.Net 怎样让鼠标到TreeView1的一个节点上时显示一个注释? 关于DevExpress 的ASPxMenu一点问题【求教】 请教高手一个问题! value="@value"问题 文件上传,本地测试成功,网上发布后出现 System.NullReferenceException: 未将对象引用设置到对象的实例。
获取每个页面的源码保存在磁盘或者数据库里;
遍历抓下来的网页进行处理,比如提取正文,消重等;
根据用途把处理后的文本进行索引、分类、聚类等操作
参考
爬虫
public static string GetHtmlSource(string url)
{
//处理内容
string html = "";
try
{
HttpWebRequest request = (HttpWebRequest)WebRequest.Create(url);
HttpWebResponse response = (HttpWebResponse)request.GetResponse();
Stream stream = response.GetResponseStream();
StreamReader reader = new StreamReader(stream, Encoding.Default);
html = reader.ReadToEnd();
stream.Close();
}
catch (Exception e)
{
}
return html;
}
这是网爬的方法 大牛看看有没问题