数据采集

分析源代码后，其实际网址为http://www.fz0752.com/dealnote/realty.jsp?pageno=5，pageno可以使1，2，3，4等等，表示显示第几页，你可以循环每页读取内容后，正则表达式提取出你需要的数据，具体细节问题你自己去实现，应该不难。

正则表达不太了解，怎样写正则表达式方法能取到表格内数据
这些数据只是一小部分<table cellspacing=\"1\" class=\"list_table\"><tr class=\"list_table_top\"><th width=\"12%\">预售许可证号</th><th width=\"20%\">项目名称</th><th width=\"25%\">项目坐落</th><th width=\"18%\">规划许可证号</th><th width=\"25%\">企业名称</th></tr><tr class='list_table_top_row'><td><a href=\"realty/yszxx.jsp?id=20090117\"target=\"_blank\">惠市房预许(2009)078号</a></td><td><a href=\"realty/porjxx.jsp?id=486\"target=\"_blank\">海燕绿岛商城</a></td><td>惠州市惠州大道（东平段）108号</td><td>建字第441302（2009）10119号</td><td><a href=\"realty/kfsxx.jsp?id=34\"target=\"_blank\
">惠州市海燕房产投资有限公司</a></td></tr><tr class='list_table_top_row1'><td><a href=\"realty/yszxx.jsp?id=20090112\"target=\"_blank\">惠市房预许(2009)077号</a></td><td><a href=\"realty/porjxx.jsp?id=488\"target=\"_blank\">雅居乐白鹭湖</a></td><td>惠州市惠城区汝湖镇雅居乐大道1号鹭湖会</td><td>惠城规证（2008）0245号</td><td><a href=\"realty/kfsxx.jsp?id=100\"target=\"_blank\">惠州白鹭湖旅游实业开发有限公司</a></td></tr><tr class='list_table_top_row'><td><a href=\"realty/yszxx.jsp?id=20090109\"target=\"_blank\">惠市房预许(2009)076号</a></td><td><a href=\"realty/porjxx.jsp?id=24\"target=\"_blank\">达成新居</a></td><td>惠州市河南岸演达二路12号达成新居</td><td>惠城规证（2008）0421号</td><td><a href=\"realty/kfsxx.jsp?id=164\"target=\"_blank\">惠州市达成房地产有限公司</a></td></tr><tr class='list_table_top_row1'><td><a href=\"realty/yszxx.jsp?id=20090095\"target=\"_blank\">惠市房预许(2009)075号</a></td><td><a href=\"realty/porjxx.jsp?id=474\"target=\"_blank\">博远云山名苑</a></td><td>惠州市云山花园路17号博远云山名苑B栋</td><td>建字第441302（2009）10131号</td><td><a href=\"realty/kfsxx.jsp?id=51\"target=\"_blank\">惠州市博远房产实业发展有限公司</a></td></tr><table>

正则表达不太了解，怎样写正则表达式方法能取到表格内数据，还有链接地址（如：realty/yszxx.jsp?id=20090117）
这些数据只是一小部分
<table cellspacing=\"1\" class=\"list_table\">
<tr class=\"list_table_top\">
  <th width=\"12%\">预售许可证号</th><th width=\"20%\">项目名称</th>
  <th width=\"25%\">项目坐落</th><th width=\"18%\">规划许可证号</th>
  <th width=\"25%\">企业名称</th>
</tr>
<tr class='list_table_top_row'>
  <td><a href=\"realty/yszxx.jsp?id=20090117\"target=\"_blank\">惠市房预许(2009)078号  </a></td>
  <td><a href=\"realty/porjxx.jsp?id=486\"target=\"_blank\">海燕绿岛商城</a></td><td>惠州市惠州大道（东平段）108号</td>
  <td>建字第441302（2009）10119号</td><td><a href=\"realty/kfsxx.jsp?id=34\"target=\"_blank\
">惠州市海燕房产投资有限公司</a></td>
</tr>
<tr class='list_table_top_row1'>
  <td><a href=\"realty/yszxx.jsp?id=20090112\"target=\"_blank\">惠市房预许(2009)077号</a></td>
  <td><a href=\"realty/porjxx.jsp?id=488\"target=\"_blank\">雅居乐白鹭湖</a></td>
  <td>惠州市惠城区汝湖镇雅居乐大道1号鹭湖会</td><td>惠城规证（2008）0245号</td>
  <td><a href=\"realty/kfsxx.jsp?id=100\"target=\"_blank\">惠州白鹭湖旅游实业开发有限公司</a></td>
</tr>
<tr class='list_table_top_row'>
  <td><a href=\"realty/yszxx.jsp?id=20090109\"target=\"_blank\">惠市房预许(2009)076号</a></td>
  <td><a href=\"realty/porjxx.jsp?id=24\"target=\"_blank\">达成新居</a></td><td>惠州市河南岸演达二路12号达成新居</td><td>惠城规证（2008）0421号</td>
  <td><a href=\"realty/kfsxx.jsp?id=164\"target=\"_blank\">惠州市达成房地产有限公司</a></td>
</tr>
<tr class='list_table_top_row1'>
  <td><a href=\"realty/yszxx.jsp?id=20090095\"target=\"_blank\">惠市房预许(2009)075号</a></td>
  <td><a href=\"realty/porjxx.jsp?id=474\"target=\"_blank\">博远云山名苑</a></td>
  <td>惠州市云山花园路17号博远云山名苑B栋</td><td>建字第441302（2009）10131号</td><td><a href=\"realty/kfsxx.jsp?id=51\"target=\"_blank\">惠州市博远房产实业发展有限公司</a></td></tr><table>

先抓取所有连接通过正则获取,
然后抓取内容的时候.循环读出抓取
<table[^> ]*> [\s\S]* </table>
Regex   theRegex=new   Regex(@"<a[^>].*?href=""(?<uri>[^""]+)"".*?\/>(?<title>.*?)<\/a>)",RegexOptions.IgnoreCase|RegexOptions.Singleline);
System.Text.RegularExpressions.MatchCollection m = reg.Matches(str);
for (int i = 0; i < m.Count; i++)
{
  Console.Write(m[i].Groups["src"].ToString());
}

正在分析“<a[^>].*?href="(? <uri>[^"]+)".*?\/>(? <title>.*?) <\/a>)”－无法识别的分组构造好像不行哦

我想抓取如下数据到数据库中
惠市房预许(2009)078号
海燕绿岛商城
惠州市惠州大道（东平段）108号
建字第441302（2009）10119号
惠州市海燕房产投资有限公司
realty/yszxx.jsp?id=20090117
realty/porjxx.jsp?id=486
realty/kfsxx.jsp?id=34惠市房预许(2009)077号
雅居乐白鹭湖
惠州市惠城区汝湖镇雅居乐大道1号鹭湖会
惠城规证（2008）0245号
惠州白鹭湖旅游实业开发有限公司
realty/yszxx.jsp?id=20090112
realty/porjxx.jsp?id=488
realty/kfsxx.jsp?id=100

http://download.csdn.net/source/1557212http://download.csdn.net/source/251039简单的爬虫代码，我以前写的。

这个正则表达式其实不难，关键是要用到Regex、MatchCollection、GroupCollection，你去趁此机会学习一下这些。就会明白该怎么做

大概我知道做先循环TR 然后循环TD应该怎么写正则表达，取到
<tr class=\"list_table_top\">
  <th width=\"12%\">预售许可证号</th><th width=\"20%\">项目名称</th>
  <th width=\"25%\">项目坐落</th><th width=\"18%\">规划许可证号</th>
  <th width=\"25%\">企业名称</th>
</tr>取到后应该怎么写正则取到TD 内的内容

不会真要用SUBSTRING INDEXOF LASTINDEXOF 截取字符串吧

这种东西很好处理的，我以前写过，你查找一下，我已经传到CSDN里面了主要是用正则表达式

<th>（*.?|\n*?）</th>分组后循环取出呀

火车头软件，现成的就能用。
自己写更简单，
你的网页不复杂。
www.locoy.com

string strPattern=@"a[\s]+href=(?<Link>[^\s>]+)[^>]*>(?<Text>[^<]*)</a>";
            MatchCollection Matches=Regex.Matches(webDocContent,strPattern,RegexOptions.IgnoreCase|RegexOptions.Compiled);
            foreach(Match NextMatch in Matches)
            {
                s+=NextMatch.Groups["Link"].Value.ToString().Trim()+"<br>";
                s+=NextMatch.Groups["Text"].Value.ToString().Trim()+"<br>";
            }

非常感谢你但调试时提示正在分析“a[\s]+href=(? <Link>[^\s>]+)[^>]*>(? <Text>[^ <]*) </a>”－无法识别的分组构造。

解决方案 »