关于网页信息采集问题,希望大家给我说一下思路,有实例源码更好 1、请求url2、用firebug等测试工具分析页面数据3、正则提取数据 解决方案 » 免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货 http://download.csdn.net/detail/hsuifengershi/7539025其实就是解析HTML 有简单的源码 参考网站 1.http://www.cnblogs.com/ttlive/archive/2011/09/10/2173210.html 2.http://bbs.csdn.net/topics/390420459 当时做这个的时候 有2个3个瓶颈1 网页获取2 ip更换3 IO 前面已经告诉你HtmlAgilityPack 为什么不去了解了解呢 前面已经告诉你HtmlAgilityPack 为什么不去了解了解呢嗯嗯,我去了解一下,看看对我有没有帮助,第一次搞抓取,以前都没有接触过 HtmlAgilityPack 很好用。加上xpath表达式 只用php做过,原理和1#的做法是一样的。只是我不知道asp.net都使用哪些抓取工具 前面已经告诉你HtmlAgilityPack 为什么不去了解了解呢嗯嗯,我去了解一下,看看对我有没有帮助,第一次搞抓取,以前都没有接触过看上去蛮简单的,但是怎么获取网页中的全部匹配的一段html还不知道怎么做 逗比 分页也是url请求的 url?page=1 之类的 重复解析的url页面 可以做成功能模块 重复调用只采集几次的页面可以用工具搞定 写代码不划算 记得火狐有个采集的插件 前面已经告诉你HtmlAgilityPack 为什么不去了解了解呢问你一个问题,我如何同时获取多个内容<div><a>第一个</a></div><div><a>第二个</a></div><div><a>第三个</a></div>,以此类推,怎么同时获取到?谢谢 问一个显示数据库连接超时的问题 asp.net登陆页面的代码如何写 未将对象引用设置到对象的实例。 如何根据数据库内容,页面初始化时候设定RadioButtonList和DropDownList1的值呢? 如何在后台往前台的<Head>里加入<style>? IE选项中禁用Cookie不起作用? 我用htm做了一個登陸葉面 在提交到login.aspx葉面出現以下錯誤 请问如何对连接数据库的字符串加密 如何在DataSet.Table["rsda"]中查询符合条件的记录? 简单问题:如何使DataGrid不显示Header和Footer 问这个题目怎么写 正则表达式匹配问题
http://download.csdn.net/detail/hsuifengershi/7539025
其实就是解析HTML 有简单的源码 参考网站 1.http://www.cnblogs.com/ttlive/archive/2011/09/10/2173210.html 2.http://bbs.csdn.net/topics/390420459
2 ip更换
3 IO
只是我不知道asp.net都使用哪些抓取工具