有html结构如下
<table ... id="main" ...>
<tbody>
 <tr>
  <td .....></td>
  <td class="s_l">
  <div><ol id="adlist_t">无关内容包含li标记</div>
  <ol>
  <li class="topsp">
  <h3><a href="链接">文字</a></h3>
  <p>无关内容</p>
  <div class="result_summary">无关内容网页快照无关内容预览</div>
  </li>
  <li>
  <h3><a href="链接">文字</a></h3>
  <p>无关内容</p>
  <div class="result_summary">无关内容网页快照无关内容预览</div>
  </li>
  <li>
  <h3><a href="链接">文字</a></h3>
  无关内容
  </li>
  <li>
  <h3><a href="链接">文字</a></h3>
  <p>无关内容</p>
  <div class="result_summary">无关内容网页快照无关内容预览</div>
  </li>
  ...
  </ol>
  <div><ol id="adlist_t">无关内容包含li标记</div>
 </tr>
 <tr>
  ...
  </tr>
</tbody>
</table>我要得到的内容就是链接和文字(粗体显示),就是得到table(id为main)里ol(无id)里的<li>中<h3>中第一个(也只有一个)a标记的href和内容
有几个条件
1. 这个ol无id,而在其他div中还有些ol是有id的(如adlist_t),必须排除
2. 这个ol中有多个li,我要的li里必须还有一个div,class="result_summary",里面还有文字"网页快照"和"预览"
请参考
http://topic.csdn.net/u/20100429/10/b58fd37b-aa05-4f45-a418-5c908e823086.html

解决方案 »

  1.   

    1.使用(?is)<table[^>]*?id="main"[^>]*>.+?</table>获取id为main的table块
    2....
    其他规则太复杂了。没时间写了……
      

  2.   

    http://www.soso.com/q?pid=s.idx&w=%B9%C9%C6%B1其实要的就是搜出来的前10条记录
      

  3.   

    (?is)<div[^<>]+id="ad_top"[^<>]+>.+?<div[^<>]+id="ad_top"[^<>]+>获取到的内容就是你要的所有内容的块,然后在这个范围内再找把。规则复杂,懒得找了。不过我觉得,可以考虑用
    HtmlDocument.GetElementById方式来做会容易一点点。
      

  4.   

    测试一下,Ok啦!
    (?ix)<li[^>]*><h3><a\shref="(?<link>[^"]*)"[^>]*>(?<text>.*?)</a>
      

  5.   

    证券频道_腾讯网
    <em>股票</em>_搜搜百科
    浦发银行(600000) _ <em>股票</em>行情 _ 东方财富网
    <em>股票</em>首页_新浪财经_新浪网
    和讯<em>股票</em>-访问量最大最专业的<em>股票</em>投资交流平台
    <em>股票</em>行情中心_实时行情,行情数据_证券之星_比<em>股票</em>行情软件好用的网上...
    证券之星-中国金融证券门户-<em>股票</em>-基金-股吧-行情-数据-外汇-期货
    <em>股票</em>入门,炒股入门,<em>股票</em>知识,股市入门,如何炒股,炒股,入门吧
    <em>股票</em>频道-全方位<em>股票</em>资讯平台-金融界
    <em>股票</em>_证券之星_中国权威的<em>股票</em>资讯、<em>股票</em>投资交流平台
    http://finance.qq.com/stock/
    http://baike.soso.com/v49550.htm
    http://quote.eastmoney.com/
    http://finance.sina.com.cn/stock/
    http://stock.hexun.com/
    http://quote.stockstar.com/stock/
    http://www.stockstar.com/home.htm
    http://rumen8.com/
    http://stock.jrj.com.cn/
    http://stock.stockstar.com/