采集这个网址表格中的数据http://www.fz0752.com/dealnote/realty.jsp,这种有翻页的应该怎么处理
哪位做过能否借源码参考一下

解决方案 »

  1.   

    分析源代码后,其实际网址为http://www.fz0752.com/dealnote/realty.jsp?pageno=5,pageno可以使1,2,3,4等等,表示显示第几页,你可以循环每页读取内容后,正则表达式提取出你需要的数据,具体细节问题你自己去实现,应该不难。
      

  2.   

    正则表达不太了解,怎样写正则表达式方法能取到表格内数据
    这些数据只是一小部分<table cellspacing=\"1\" class=\"list_table\"><tr class=\"list_table_top\"><th width=\"12%\">预售许可证号</th><th width=\"20%\">项目名称</th><th width=\"25%\">项目坐落</th><th width=\"18%\">规划许可证号</th><th width=\"25%\">企业名称</th></tr><tr class='list_table_top_row'><td><a href=\"realty/yszxx.jsp?id=20090117\"target=\"_blank\">惠市房预许(2009)078号</a></td><td><a href=\"realty/porjxx.jsp?id=486\"target=\"_blank\">海燕绿岛商城</a></td><td>惠州市惠州大道(东平段)108号</td><td>建字第441302(2009)10119号</td><td><a href=\"realty/kfsxx.jsp?id=34\"target=\"_blank\
    ">惠州市海燕房产投资有限公司</a></td></tr><tr class='list_table_top_row1'><td><a href=\"realty/yszxx.jsp?id=20090112\"target=\"_blank\">惠市房预许(2009)077号</a></td><td><a href=\"realty/porjxx.jsp?id=488\"target=\"_blank\">雅居乐白鹭湖</a></td><td>惠州市惠城区汝湖镇雅居乐大道1号鹭湖会</td><td>惠城规证(2008)0245号</td><td><a href=\"realty/kfsxx.jsp?id=100\"target=\"_blank\">惠州白鹭湖旅游实业开发有限公司</a></td></tr><tr class='list_table_top_row'><td><a href=\"realty/yszxx.jsp?id=20090109\"target=\"_blank\">惠市房预许(2009)076号</a></td><td><a href=\"realty/porjxx.jsp?id=24\"target=\"_blank\">达成新居</a></td><td>惠州市河南岸演达二路12号达成新居</td><td>惠城规证(2008)0421号</td><td><a href=\"realty/kfsxx.jsp?id=164\"target=\"_blank\">惠州市达成房地产有限公司</a></td></tr><tr class='list_table_top_row1'><td><a href=\"realty/yszxx.jsp?id=20090095\"target=\"_blank\">惠市房预许(2009)075号</a></td><td><a href=\"realty/porjxx.jsp?id=474\"target=\"_blank\">博远云山名苑</a></td><td>惠州市云山花园路17号博远云山名苑B栋</td><td>建字第441302(2009)10131号</td><td><a href=\"realty/kfsxx.jsp?id=51\"target=\"_blank\">惠州市博远房产实业发展有限公司</a></td></tr><table>
      

  3.   

    正则表达不太了解,怎样写正则表达式方法能取到表格内数据,还有链接地址(如:realty/yszxx.jsp?id=20090117) 
    这些数据只是一小部分 
    <table cellspacing=\"1\" class=\"list_table\">
    <tr class=\"list_table_top\">
      <th width=\"12%\">预售许可证号</th><th width=\"20%\">项目名称</th>
      <th width=\"25%\">项目坐落</th><th width=\"18%\">规划许可证号</th>
      <th width=\"25%\">企业名称</th>
    </tr>
    <tr class='list_table_top_row'>
      <td><a href=\"realty/yszxx.jsp?id=20090117\"target=\"_blank\">惠市房预许(2009)078号  </a></td>
      <td><a href=\"realty/porjxx.jsp?id=486\"target=\"_blank\">海燕绿岛商城</a></td><td>惠州市惠州大道(东平段)108号</td>
      <td>建字第441302(2009)10119号</td><td><a href=\"realty/kfsxx.jsp?id=34\"target=\"_blank\
    ">惠州市海燕房产投资有限公司</a></td>
    </tr>
    <tr class='list_table_top_row1'>
      <td><a href=\"realty/yszxx.jsp?id=20090112\"target=\"_blank\">惠市房预许(2009)077号</a></td>
      <td><a href=\"realty/porjxx.jsp?id=488\"target=\"_blank\">雅居乐白鹭湖</a></td>
      <td>惠州市惠城区汝湖镇雅居乐大道1号鹭湖会</td><td>惠城规证(2008)0245号</td>
      <td><a href=\"realty/kfsxx.jsp?id=100\"target=\"_blank\">惠州白鹭湖旅游实业开发有限公司</a></td>
    </tr>
    <tr class='list_table_top_row'>
      <td><a href=\"realty/yszxx.jsp?id=20090109\"target=\"_blank\">惠市房预许(2009)076号</a></td>
      <td><a href=\"realty/porjxx.jsp?id=24\"target=\"_blank\">达成新居</a></td><td>惠州市河南岸演达二路12号达成新居</td><td>惠城规证(2008)0421号</td>
      <td><a href=\"realty/kfsxx.jsp?id=164\"target=\"_blank\">惠州市达成房地产有限公司</a></td>
    </tr>
    <tr class='list_table_top_row1'>
      <td><a href=\"realty/yszxx.jsp?id=20090095\"target=\"_blank\">惠市房预许(2009)075号</a></td>
      <td><a href=\"realty/porjxx.jsp?id=474\"target=\"_blank\">博远云山名苑</a></td>
      <td>惠州市云山花园路17号博远云山名苑B栋</td><td>建字第441302(2009)10131号</td><td><a href=\"realty/kfsxx.jsp?id=51\"target=\"_blank\">惠州市博远房产实业发展有限公司</a></td></tr><table>
      

  4.   

    先抓取所有连接通过正则获取, 
    然后抓取内容的时候.循环读出抓取
    <table[^> ]*> [\s\S]* </table>   
    Regex   theRegex=new   Regex(@"<a[^>].*?href=""(?<uri>[^""]+)"".*?\/>(?<title>.*?)<\/a>)",RegexOptions.IgnoreCase|RegexOptions.Singleline);
    System.Text.RegularExpressions.MatchCollection m = reg.Matches(str);  
    for (int i = 0; i < m.Count; i++) 

      Console.Write(m[i].Groups["src"].ToString());

      

  5.   

    正在分析“<a[^>].*?href="(? <uri>[^"]+)".*?\/>(? <title>.*?) <\/a>)”- 无法识别的分组构造好像不行哦
      

  6.   

    我想抓取如下数据到数据库中
    惠市房预许(2009)078号  
    海燕绿岛商城  
    惠州市惠州大道(东平段)108号
    建字第441302(2009)10119号
    惠州市海燕房产投资有限公司  
    realty/yszxx.jsp?id=20090117
    realty/porjxx.jsp?id=486
    realty/kfsxx.jsp?id=34惠市房预许(2009)077号       
    雅居乐白鹭湖            
    惠州市惠城区汝湖镇雅居乐大道1号鹭湖会
    惠城规证(2008)0245号
    惠州白鹭湖旅游实业开发有限公司     
    realty/yszxx.jsp?id=20090112
    realty/porjxx.jsp?id=488
    realty/kfsxx.jsp?id=100
      

  7.   

    http://download.csdn.net/source/1557212http://download.csdn.net/source/251039简单的爬虫代码,我以前写的。
      

  8.   

    这个正则表达式其实不难,关键是要用到Regex、MatchCollection、GroupCollection,你去趁此机会学习一下这些。就会明白该怎么做
      

  9.   

    大概我知道做 先循环TR 然后循环TD应该怎么写正则表达,取到
    <tr class=\"list_table_top\">
      <th width=\"12%\">预售许可证号</th><th width=\"20%\">项目名称</th>
      <th width=\"25%\">项目坐落</th><th width=\"18%\">规划许可证号</th>
      <th width=\"25%\">企业名称</th>
    </tr>取到后应该怎么写正则取到TD 内的内容
      

  10.   

    不会真要用SUBSTRING INDEXOF LASTINDEXOF 截取字符串吧
      

  11.   

    这种东西很好处理的,我以前写过,你查找一下,我已经传到CSDN里面了主要是用正则表达式
      

  12.   


    <th>(*.?|\n*?)</th>分组后循环取出呀
      

  13.   

    火车头软件,现成的就能用。
    自己写更简单,
    你的网页不复杂。
    www.locoy.com
      

  14.   

    string strPattern=@"a[\s]+href=(?<Link>[^\s>]+)[^>]*>(?<Text>[^<]*)</a>";
                MatchCollection Matches=Regex.Matches(webDocContent,strPattern,RegexOptions.IgnoreCase|RegexOptions.Compiled);
                foreach(Match NextMatch in Matches)
                {
                    s+=NextMatch.Groups["Link"].Value.ToString().Trim()+"<br>";
                    s+=NextMatch.Groups["Text"].Value.ToString().Trim()+"<br>";
                }
      

  15.   

    非常感谢你但调试时 提示正在分析“a[\s]+href=(? <Link>[^\s>]+)[^>]*>(? <Text>[^ <]*) </a>”- 无法识别的分组构造。