我想做个批量下载主流博客文章的软件,请大家指点下。
应该如何去获取文章呢?
应该如何去获取文章呢?
解决方案 »
- js 获取当前语言
- 关于取值和权限问题
- Ajax collapsiblepanelextender 折叠和展开问题
- 怎么通过一个存储过程来指定datagrid某些列的值
- 请来指点一下(类反射工厂,泛型接口,三层架构,缓存机制),随便谈谈,谢谢
- 急!急!急!!!在线等!!!为什么datalist1onclick()不运行,怎么修改才可以运行这个事件?
- 请多指教
- 请问在一个制作用户控件的问题?
- treeview 绑定数据库问题 急 (可怜可怜我,我就10分了)
- 在ASP页面中设置一个按钮,如何实现IE浏览器中的上一步“后退”功能?
- MSSQL2005如何用SQL语句实现复制本地的表或整个数据库的数据到远程服务器
- 初学MVC
从一个网页入口,分析链接,一层一层的遍历,或者从一组网页入口,或者从一个rss源列表开始爬rss;
获取每个页面的源码保存在磁盘或者数据库里;
遍历抓下来的网页进行处理,比如提取正文,消重等;
根据用途把处理后的文本进行索引、分类、聚类等操作
参考
爬虫
using System;
using System.Collections.Generic;
using System.Web;
using System.Web.UI;
using System.Web.UI.WebControls;
using System.Net;
using System.IO;
using System.Text;public partial class GetBlogContent : System.Web.UI.Page
{
protected void Page_Load(object sender, EventArgs e)
{ }
protected void Button1_Click(object sender, EventArgs e)
{
string gurl = TextBox1.Text.Trim();
//WebRequest request = WebRequest.Create(gurl);
//WebResponse response = request.GetResponse();//返回对 Internet 请求的响应。
//Stream resStream = response.GetResponseStream();//返回从 Internet 资源返回数据流
//StreamReader sr = new StreamReader(resStream, System.Text.Encoding.Default);//实例华一个流的读写器
//ContentHtml.Text = sr.ReadToEnd();//这就是百度首页的HTML哦 ,字符串形式的流的其余部分(从当前位置到末尾)。如果当前位置位于流的末尾,则返回空字符串 ("")
//resStream.Close();//关闭当前流并释放与之关联的所有资源
//sr.Close(); //关闭 System.IO.StreamReader 对象和基础流,并释放与读取器关联的所有系统资源 WebClient wc = new WebClient(); // 创建WebClient实例提供向URI 标识的资源发送数据和从URI 标识的资源接收数据
wc.Credentials = CredentialCache.DefaultCredentials; // 获取或设置用于对向 Internet 资源的请求进行身份验证的网络
Encoding enc = Encoding.GetEncoding("GB2312"); // 如果是乱码就改成 utf-8 / GB2312
Byte[] pageData = wc.DownloadData(gurl); // 从资源下载数据并返回字节数组。
ContentHtml.Text = enc.GetString(pageData); // 输出字符串(HTML代码),ContentHtml为Multiline模式的TextBox控件
}
}