数据采集 采集这个网址表格中的数据http://www.fz0752.com/dealnote/realty.jsp,这种有翻页的应该怎么处理哪位做过能否借源码参考一下 解决方案 » 免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货 分析源代码后,其实际网址为http://www.fz0752.com/dealnote/realty.jsp?pageno=5,pageno可以使1,2,3,4等等,表示显示第几页,你可以循环每页读取内容后,正则表达式提取出你需要的数据,具体细节问题你自己去实现,应该不难。 正则表达不太了解,怎样写正则表达式方法能取到表格内数据这些数据只是一小部分<table cellspacing=\"1\" class=\"list_table\"><tr class=\"list_table_top\"><th width=\"12%\">预售许可证号</th><th width=\"20%\">项目名称</th><th width=\"25%\">项目坐落</th><th width=\"18%\">规划许可证号</th><th width=\"25%\">企业名称</th></tr><tr class='list_table_top_row'><td><a href=\"realty/yszxx.jsp?id=20090117\"target=\"_blank\">惠市房预许(2009)078号</a></td><td><a href=\"realty/porjxx.jsp?id=486\"target=\"_blank\">海燕绿岛商城</a></td><td>惠州市惠州大道(东平段)108号</td><td>建字第441302(2009)10119号</td><td><a href=\"realty/kfsxx.jsp?id=34\"target=\"_blank\">惠州市海燕房产投资有限公司</a></td></tr><tr class='list_table_top_row1'><td><a href=\"realty/yszxx.jsp?id=20090112\"target=\"_blank\">惠市房预许(2009)077号</a></td><td><a href=\"realty/porjxx.jsp?id=488\"target=\"_blank\">雅居乐白鹭湖</a></td><td>惠州市惠城区汝湖镇雅居乐大道1号鹭湖会</td><td>惠城规证(2008)0245号</td><td><a href=\"realty/kfsxx.jsp?id=100\"target=\"_blank\">惠州白鹭湖旅游实业开发有限公司</a></td></tr><tr class='list_table_top_row'><td><a href=\"realty/yszxx.jsp?id=20090109\"target=\"_blank\">惠市房预许(2009)076号</a></td><td><a href=\"realty/porjxx.jsp?id=24\"target=\"_blank\">达成新居</a></td><td>惠州市河南岸演达二路12号达成新居</td><td>惠城规证(2008)0421号</td><td><a href=\"realty/kfsxx.jsp?id=164\"target=\"_blank\">惠州市达成房地产有限公司</a></td></tr><tr class='list_table_top_row1'><td><a href=\"realty/yszxx.jsp?id=20090095\"target=\"_blank\">惠市房预许(2009)075号</a></td><td><a href=\"realty/porjxx.jsp?id=474\"target=\"_blank\">博远云山名苑</a></td><td>惠州市云山花园路17号博远云山名苑B栋</td><td>建字第441302(2009)10131号</td><td><a href=\"realty/kfsxx.jsp?id=51\"target=\"_blank\">惠州市博远房产实业发展有限公司</a></td></tr><table> 正则表达不太了解,怎样写正则表达式方法能取到表格内数据,还有链接地址(如:realty/yszxx.jsp?id=20090117) 这些数据只是一小部分 <table cellspacing=\"1\" class=\"list_table\"><tr class=\"list_table_top\"> <th width=\"12%\">预售许可证号</th><th width=\"20%\">项目名称</th> <th width=\"25%\">项目坐落</th><th width=\"18%\">规划许可证号</th> <th width=\"25%\">企业名称</th></tr><tr class='list_table_top_row'> <td><a href=\"realty/yszxx.jsp?id=20090117\"target=\"_blank\">惠市房预许(2009)078号 </a></td> <td><a href=\"realty/porjxx.jsp?id=486\"target=\"_blank\">海燕绿岛商城</a></td><td>惠州市惠州大道(东平段)108号</td> <td>建字第441302(2009)10119号</td><td><a href=\"realty/kfsxx.jsp?id=34\"target=\"_blank\">惠州市海燕房产投资有限公司</a></td></tr><tr class='list_table_top_row1'> <td><a href=\"realty/yszxx.jsp?id=20090112\"target=\"_blank\">惠市房预许(2009)077号</a></td> <td><a href=\"realty/porjxx.jsp?id=488\"target=\"_blank\">雅居乐白鹭湖</a></td> <td>惠州市惠城区汝湖镇雅居乐大道1号鹭湖会</td><td>惠城规证(2008)0245号</td> <td><a href=\"realty/kfsxx.jsp?id=100\"target=\"_blank\">惠州白鹭湖旅游实业开发有限公司</a></td></tr><tr class='list_table_top_row'> <td><a href=\"realty/yszxx.jsp?id=20090109\"target=\"_blank\">惠市房预许(2009)076号</a></td> <td><a href=\"realty/porjxx.jsp?id=24\"target=\"_blank\">达成新居</a></td><td>惠州市河南岸演达二路12号达成新居</td><td>惠城规证(2008)0421号</td> <td><a href=\"realty/kfsxx.jsp?id=164\"target=\"_blank\">惠州市达成房地产有限公司</a></td></tr><tr class='list_table_top_row1'> <td><a href=\"realty/yszxx.jsp?id=20090095\"target=\"_blank\">惠市房预许(2009)075号</a></td> <td><a href=\"realty/porjxx.jsp?id=474\"target=\"_blank\">博远云山名苑</a></td> <td>惠州市云山花园路17号博远云山名苑B栋</td><td>建字第441302(2009)10131号</td><td><a href=\"realty/kfsxx.jsp?id=51\"target=\"_blank\">惠州市博远房产实业发展有限公司</a></td></tr><table> 先抓取所有连接通过正则获取, 然后抓取内容的时候.循环读出抓取<table[^> ]*> [\s\S]* </table> Regex theRegex=new Regex(@"<a[^>].*?href=""(?<uri>[^""]+)"".*?\/>(?<title>.*?)<\/a>)",RegexOptions.IgnoreCase|RegexOptions.Singleline);System.Text.RegularExpressions.MatchCollection m = reg.Matches(str); for (int i = 0; i < m.Count; i++) { Console.Write(m[i].Groups["src"].ToString());} 正在分析“<a[^>].*?href="(? <uri>[^"]+)".*?\/>(? <title>.*?) <\/a>)”- 无法识别的分组构造好像不行哦 我想抓取如下数据到数据库中惠市房预许(2009)078号 海燕绿岛商城 惠州市惠州大道(东平段)108号建字第441302(2009)10119号惠州市海燕房产投资有限公司 realty/yszxx.jsp?id=20090117realty/porjxx.jsp?id=486realty/kfsxx.jsp?id=34惠市房预许(2009)077号 雅居乐白鹭湖 惠州市惠城区汝湖镇雅居乐大道1号鹭湖会惠城规证(2008)0245号惠州白鹭湖旅游实业开发有限公司 realty/yszxx.jsp?id=20090112realty/porjxx.jsp?id=488realty/kfsxx.jsp?id=100 http://download.csdn.net/source/1557212http://download.csdn.net/source/251039简单的爬虫代码,我以前写的。 这个正则表达式其实不难,关键是要用到Regex、MatchCollection、GroupCollection,你去趁此机会学习一下这些。就会明白该怎么做 大概我知道做 先循环TR 然后循环TD应该怎么写正则表达,取到<tr class=\"list_table_top\"> <th width=\"12%\">预售许可证号</th><th width=\"20%\">项目名称</th> <th width=\"25%\">项目坐落</th><th width=\"18%\">规划许可证号</th> <th width=\"25%\">企业名称</th></tr>取到后应该怎么写正则取到TD 内的内容 不会真要用SUBSTRING INDEXOF LASTINDEXOF 截取字符串吧 这种东西很好处理的,我以前写过,你查找一下,我已经传到CSDN里面了主要是用正则表达式 <th>(*.?|\n*?)</th>分组后循环取出呀 火车头软件,现成的就能用。自己写更简单,你的网页不复杂。www.locoy.com string strPattern=@"a[\s]+href=(?<Link>[^\s>]+)[^>]*>(?<Text>[^<]*)</a>"; MatchCollection Matches=Regex.Matches(webDocContent,strPattern,RegexOptions.IgnoreCase|RegexOptions.Compiled); foreach(Match NextMatch in Matches) { s+=NextMatch.Groups["Link"].Value.ToString().Trim()+"<br>"; s+=NextMatch.Groups["Text"].Value.ToString().Trim()+"<br>"; } 非常感谢你但调试时 提示正在分析“a[\s]+href=(? <Link>[^\s>]+)[^>]*>(? <Text>[^ <]*) </a>”- 无法识别的分组构造。 cookie问题 比如现在有字符串 "20081225"加上六个月后值。要怎么求。在线等 【100分】如何利用正则表达式提取出两段字符中间部分,仅仅是中间的部分!!!! 抓取HTML GGJJ帮我写一个登录窗口的一些源代码吧 請問在上海做.net的一個月能腐敗幾次啊? 郁闷。。。。。。 在线等 怎么实现上下标例如立方米(不要多个label) C#中执行可执行文件? 请问:关于DataTable周边类型的问题 请教一下,有没有可能从数据库里读出的字段,找到同名的方法然后执行 在客户端如何让服务器打开指定的一个RUL
这些数据只是一小部分<table cellspacing=\"1\" class=\"list_table\"><tr class=\"list_table_top\"><th width=\"12%\">预售许可证号</th><th width=\"20%\">项目名称</th><th width=\"25%\">项目坐落</th><th width=\"18%\">规划许可证号</th><th width=\"25%\">企业名称</th></tr><tr class='list_table_top_row'><td><a href=\"realty/yszxx.jsp?id=20090117\"target=\"_blank\">惠市房预许(2009)078号</a></td><td><a href=\"realty/porjxx.jsp?id=486\"target=\"_blank\">海燕绿岛商城</a></td><td>惠州市惠州大道(东平段)108号</td><td>建字第441302(2009)10119号</td><td><a href=\"realty/kfsxx.jsp?id=34\"target=\"_blank\
">惠州市海燕房产投资有限公司</a></td></tr><tr class='list_table_top_row1'><td><a href=\"realty/yszxx.jsp?id=20090112\"target=\"_blank\">惠市房预许(2009)077号</a></td><td><a href=\"realty/porjxx.jsp?id=488\"target=\"_blank\">雅居乐白鹭湖</a></td><td>惠州市惠城区汝湖镇雅居乐大道1号鹭湖会</td><td>惠城规证(2008)0245号</td><td><a href=\"realty/kfsxx.jsp?id=100\"target=\"_blank\">惠州白鹭湖旅游实业开发有限公司</a></td></tr><tr class='list_table_top_row'><td><a href=\"realty/yszxx.jsp?id=20090109\"target=\"_blank\">惠市房预许(2009)076号</a></td><td><a href=\"realty/porjxx.jsp?id=24\"target=\"_blank\">达成新居</a></td><td>惠州市河南岸演达二路12号达成新居</td><td>惠城规证(2008)0421号</td><td><a href=\"realty/kfsxx.jsp?id=164\"target=\"_blank\">惠州市达成房地产有限公司</a></td></tr><tr class='list_table_top_row1'><td><a href=\"realty/yszxx.jsp?id=20090095\"target=\"_blank\">惠市房预许(2009)075号</a></td><td><a href=\"realty/porjxx.jsp?id=474\"target=\"_blank\">博远云山名苑</a></td><td>惠州市云山花园路17号博远云山名苑B栋</td><td>建字第441302(2009)10131号</td><td><a href=\"realty/kfsxx.jsp?id=51\"target=\"_blank\">惠州市博远房产实业发展有限公司</a></td></tr><table>
这些数据只是一小部分
<table cellspacing=\"1\" class=\"list_table\">
<tr class=\"list_table_top\">
<th width=\"12%\">预售许可证号</th><th width=\"20%\">项目名称</th>
<th width=\"25%\">项目坐落</th><th width=\"18%\">规划许可证号</th>
<th width=\"25%\">企业名称</th>
</tr>
<tr class='list_table_top_row'>
<td><a href=\"realty/yszxx.jsp?id=20090117\"target=\"_blank\">惠市房预许(2009)078号 </a></td>
<td><a href=\"realty/porjxx.jsp?id=486\"target=\"_blank\">海燕绿岛商城</a></td><td>惠州市惠州大道(东平段)108号</td>
<td>建字第441302(2009)10119号</td><td><a href=\"realty/kfsxx.jsp?id=34\"target=\"_blank\
">惠州市海燕房产投资有限公司</a></td>
</tr>
<tr class='list_table_top_row1'>
<td><a href=\"realty/yszxx.jsp?id=20090112\"target=\"_blank\">惠市房预许(2009)077号</a></td>
<td><a href=\"realty/porjxx.jsp?id=488\"target=\"_blank\">雅居乐白鹭湖</a></td>
<td>惠州市惠城区汝湖镇雅居乐大道1号鹭湖会</td><td>惠城规证(2008)0245号</td>
<td><a href=\"realty/kfsxx.jsp?id=100\"target=\"_blank\">惠州白鹭湖旅游实业开发有限公司</a></td>
</tr>
<tr class='list_table_top_row'>
<td><a href=\"realty/yszxx.jsp?id=20090109\"target=\"_blank\">惠市房预许(2009)076号</a></td>
<td><a href=\"realty/porjxx.jsp?id=24\"target=\"_blank\">达成新居</a></td><td>惠州市河南岸演达二路12号达成新居</td><td>惠城规证(2008)0421号</td>
<td><a href=\"realty/kfsxx.jsp?id=164\"target=\"_blank\">惠州市达成房地产有限公司</a></td>
</tr>
<tr class='list_table_top_row1'>
<td><a href=\"realty/yszxx.jsp?id=20090095\"target=\"_blank\">惠市房预许(2009)075号</a></td>
<td><a href=\"realty/porjxx.jsp?id=474\"target=\"_blank\">博远云山名苑</a></td>
<td>惠州市云山花园路17号博远云山名苑B栋</td><td>建字第441302(2009)10131号</td><td><a href=\"realty/kfsxx.jsp?id=51\"target=\"_blank\">惠州市博远房产实业发展有限公司</a></td></tr><table>
然后抓取内容的时候.循环读出抓取
<table[^> ]*> [\s\S]* </table>
Regex theRegex=new Regex(@"<a[^>].*?href=""(?<uri>[^""]+)"".*?\/>(?<title>.*?)<\/a>)",RegexOptions.IgnoreCase|RegexOptions.Singleline);
System.Text.RegularExpressions.MatchCollection m = reg.Matches(str);
for (int i = 0; i < m.Count; i++)
{
Console.Write(m[i].Groups["src"].ToString());
}
惠市房预许(2009)078号
海燕绿岛商城
惠州市惠州大道(东平段)108号
建字第441302(2009)10119号
惠州市海燕房产投资有限公司
realty/yszxx.jsp?id=20090117
realty/porjxx.jsp?id=486
realty/kfsxx.jsp?id=34惠市房预许(2009)077号
雅居乐白鹭湖
惠州市惠城区汝湖镇雅居乐大道1号鹭湖会
惠城规证(2008)0245号
惠州白鹭湖旅游实业开发有限公司
realty/yszxx.jsp?id=20090112
realty/porjxx.jsp?id=488
realty/kfsxx.jsp?id=100
<tr class=\"list_table_top\">
<th width=\"12%\">预售许可证号</th><th width=\"20%\">项目名称</th>
<th width=\"25%\">项目坐落</th><th width=\"18%\">规划许可证号</th>
<th width=\"25%\">企业名称</th>
</tr>取到后应该怎么写正则取到TD 内的内容
<th>(*.?|\n*?)</th>分组后循环取出呀
自己写更简单,
你的网页不复杂。
www.locoy.com
MatchCollection Matches=Regex.Matches(webDocContent,strPattern,RegexOptions.IgnoreCase|RegexOptions.Compiled);
foreach(Match NextMatch in Matches)
{
s+=NextMatch.Groups["Link"].Value.ToString().Trim()+"<br>";
s+=NextMatch.Groups["Text"].Value.ToString().Trim()+"<br>";
}