<div class="box_lifeboxin" style="float: right;">
<p><a href="/static/html/knowledge/20080704/4096.shtml" target="_blank"><img src="/m/i/indexer/zs/pl1.gif" /></a></p>
<dl><dd><strong><a href="/static/html/knowledge/20080704/4096.shtml" target="_blank">空气污染扩散条件指数:<em>良</em></a></strong><br />气象条件有利于空气污染物稀释、扩散和清除,可在室外正常活动。</dd></dl>
</div>
 <div class="box_lifeboxin">
<p><a href="/static/html/knowledge/20080704/4087.shtml" target="_blank"><img src="/m/i/indexer/zs/ct1.gif" /></a></p>
<dl><dd><strong><a href="/static/html/knowledge/20080704/4087.shtml" target="_blank">穿衣指数:<em>温凉</em></a></strong><br />较凉爽,建议着夹衣或西服套装加薄羊毛衫等春秋服装。年老体弱者宜着夹衣或风衣加羊毛衫。</dd></dl>
</div>获取“空气污染扩散条件指数”到第一个“</dd></dl>”之间的内容,正则表达式如何写?

解决方案 »

  1.   

    http://www.gbsou.com/2009/10/09/1010.html
    参照此文章 使用htmlParser 根据属性style="float: right;"的抓取元素<div class="box_lifeboxin" style="float: right;"> 
    <p> <a href="/static/html/knowledge/20080704/4096.shtml" target="_blank"> <img src="/m/i/indexer/zs/pl1.gif" /> </a> </p> 
    <dl> <dd> <strong> <a href="/static/html/knowledge/20080704/4096.shtml" target="_blank">空气污染扩散条件指数: <em>良 </em> </a> </strong> <br />气象条件有利于空气污染物稀释、扩散和清除,可在室外正常活动。 </dd> </dl> 
    </div> 在使用正则  String regex = " target=\"_blank\">(.*)</dd>";  解析 获取问号里的数据 
      

  2.   

    http://www.gbsou.com/2009/11/11/1344.html  这篇会简单易懂点 需要
    htmllexer.jar  和  htmlparser.jar 支持
    两个jar文件下载地址 http://www.gbsou.com/jars/html.7z
      

  3.   

    这个用正则表达式还真不会。。
    不过可以用javaScript搞定