列pagecontents的内容如下:<h1 class="firstHeading">南京市人民代表大会常务委员会关于修改《南京城墙保护管理办法》的决定</h1>
<div id="bodyContent">
<h3 id="siteSub">取自 AEED</h3>
<div id="contentSub"></div>
<div id="jump-to-nav">跳转到: <a href="#column-one">导航</a>, <a href="#searchInput">搜索</a></div> <!-- start content -->
<a href="/index.php/%E6%B3%95%E5%BE%8B%E6%B3%95%E8%A7%84" title="法律法规">法律法规</a>-><a href="/index.php/%E5%9C%B0%E6%96%B9%E7%8E%AF%E5%A2%83%E4%BF%9D%E6%8A%A4%E6%B3%95%E5%BE%8B%E6%B3%95%E8%A7%84" title="地方环境保护法律法规">地方环境保护法律法规</a>-><a href="/index.php/%E6%B1%9F%E8%8B%8F" title="江苏">江苏</a>-><br /><table border="0" width="96%" align="center" cellspacing="0" cellpadding="5"><tr><td bgcolor="#FCFBF2" align="center"><br /><font color="navy" style="font-size:16pt"><b>江苏省人民代表大会常务委员会关于修改《南京城墙保护管理办法》的决定</b></font></td></tr><tr><td bgcolor="#FCFBF2" align="center"><br /><font color="navy" style="font-size:9pt"></font></td></tr>
我搜索"南京市人民代表大会常务委员..."出来这个结果,可是我只想要符合搜索的部分中文,其他怎么弄掉呢?
怎么只能搜出"南京市人民代表大会常务委员会关于修改《南京城墙保护管理办法》的决定";就像百度,google的搜索那样,搜出来网页显示的部分就是需要的内容
<div id="bodyContent">
<h3 id="siteSub">取自 AEED</h3>
<div id="contentSub"></div>
<div id="jump-to-nav">跳转到: <a href="#column-one">导航</a>, <a href="#searchInput">搜索</a></div> <!-- start content -->
<a href="/index.php/%E6%B3%95%E5%BE%8B%E6%B3%95%E8%A7%84" title="法律法规">法律法规</a>-><a href="/index.php/%E5%9C%B0%E6%96%B9%E7%8E%AF%E5%A2%83%E4%BF%9D%E6%8A%A4%E6%B3%95%E5%BE%8B%E6%B3%95%E8%A7%84" title="地方环境保护法律法规">地方环境保护法律法规</a>-><a href="/index.php/%E6%B1%9F%E8%8B%8F" title="江苏">江苏</a>-><br /><table border="0" width="96%" align="center" cellspacing="0" cellpadding="5"><tr><td bgcolor="#FCFBF2" align="center"><br /><font color="navy" style="font-size:16pt"><b>江苏省人民代表大会常务委员会关于修改《南京城墙保护管理办法》的决定</b></font></td></tr><tr><td bgcolor="#FCFBF2" align="center"><br /><font color="navy" style="font-size:9pt"></font></td></tr>
我搜索"南京市人民代表大会常务委员..."出来这个结果,可是我只想要符合搜索的部分中文,其他怎么弄掉呢?
怎么只能搜出"南京市人民代表大会常务委员会关于修改《南京城墙保护管理办法》的决定";就像百度,google的搜索那样,搜出来网页显示的部分就是需要的内容
我现在想到的就是 符合匹配字符的 前面一部分和后面一部分遇到<>就停止
<div id="jump-to-nav">跳转到: <a href="#column-one">导航</a>, <a href="#searchInput">搜索</a></div> <!-- start content -->
<a href="/index.php/%E6%B3%95%E5%BE%8B%E6%B3%95%E8%A7%84" title="法律法规">法律法规</a>-><a href="/index.php/%E5%9C%B0%E6%96%B9%E7%8E%AF%E5%A2%83%E4%BF%9D%E6%8A%A4%E6%B3%95%E5%BE%8B%E6%B3%95%E8%A7%84" title="地方环境保护法律法规">地方环境保护法律法规</a>-><a href="/index.php/%E6%B1%9F%E8%A5%BF" title="江西">江西</a>-><br /><table border="0" width="96%" align="center" cellspacing="0" cellpadding="5"><tr><td bgcolor="#FCFBF2" align="center"><br /><font color="navy" style="font-size:16pt"><b>关于修改《江西省城市市容和环境卫生管理实施办法》等18件省规章的决定</b></font></td></tr><tr><td bgcolor="#FCFBF2" align="center"><br /><font color="navy" style="font-size:9pt">江西省人民政府令(第63号)</font></td></tr><tr><td bgcolor="#FCFBF2" align="center"><font color="navy" style="font-size:9pt">《江西省关于修改<江西省城市市容和环境卫生管理实施办法>等18件省规章的决定》已经1998年19日省人民政府第80次常务会议讨论通过,现予发布施行。</font></td></tr><tr><td bgcolor="#FCFBF2" align="LEFT"><font style="line-height:16pt"><p align="right">省长 舒圣佑<br />一九九八年二月十日</p> <br /> 根据《中华》决定对《江西省城市市容和环境卫生管理实施办法》等18件省政府规章作如下修改:<br /> 一、《江西省城市市容和环境卫生管理实施办法》<br />十七、《江西省矿产资源补偿费征收管理实施办法》<br /> 1.第二十五条修改为:“采矿权人和矿产品收购者违反本实施办法第二十条规定,拒绝接受征收机关依法检查或拒不按规定提供所需资料的,征收机关应当责令限期改正;拒不改正的,征收机关可依法检查。”<br /> 2.删除第二十六条。<br /> 十八、《江西省地质勘查管理办法》<br /> 1.第四十三条修改为:“违反...。”<br /> 2.第四十四条修改为:“违反地质勘查登记管理规定的,由原登记管理机关,视情节轻重给予警告,并处5000元至3万元的罚款。”<br /> 3.第四十五条修改为:“违反...<br /> 4.第四十六条修改为:“非法转让、冒用...<br /> 5.删除第四十七条。<br /> 本决定自发布之日起施行。<br /> 《江西省城市市容和环境卫生管理实施办法》等18件省规章根据本规定作相应的修正。</font></td></tr> </table>
<div id="jump-to-nav">跳转到: <a href="#column-one">导航</a>, <a href="#searchInput">搜索</a></div> <!-- start content -->
<a href="/index.php/%E6%B3%95%E5%BE%8B%E6%B3%95%E8%A7%84" title="法律法规">法律法规</a>-><a href="/index.php/%E5%9C%B0%E6%96%B9%E7%8E%AF%E5%A2%83%E4%BF%9D%E6%8A%A4%E6%B3%95%E5%BE%8B%E6%B3%95%E8%A7%84" title="地方环境保护法律法规">地方环境保护法律法规</a>-><a href="/index.php/%E6%B1%9F%E8%A5%BF" title="江西">江西</a>-><br /><table border="0" width="96%" align="center" cellspacing="0" cellpadding="5"><tr><td bgcolor="#FCFBF2" align="center"><br /><font color="navy" style="font-size:16pt"><b>关于修改《江西省城市市容和环境卫生管理实施办法》等18件省规章的决定</b></font></td></tr><tr><td bgcolor="#FCFBF2" align="center"><br /><font color="navy" style="font-size:9pt">江西省人民政府令(第63号)</font></td></tr><tr><td bgcolor="#FCFBF2" align="center"><font color="navy" style="font-size:9pt">《江西省关于修改<江西省城市市容和环境卫生管理实施办法>等18件省规章的决定》已经1998年19日省人民政府第80次常务会议讨论通过,现予发布施行。</font></td></tr><tr><td bgcolor="#FCFBF2" align="LEFT"><font style="line-height:16pt"><p align="right">省长 舒圣佑<br />一九九八年二月十日</p> <br /> 根据《中华》决定对《江西省城市市容和环境卫生管理实施办法》等18件省政府规章作如下修改:<br /> 一、《江西省城市市容和环境卫生管理实施办法》<br />十七、《江西省矿产资源补偿费征收管理实施办法》<br /> 1.第二十五条修改为:“采矿权人和矿产品收购者违反本实施办法第二十条规定,拒绝接受征收机关依法检查或拒不按规定提供所需资料的,征收机关应当责令限期改正;拒不改正的,征收机关可依法检查。”<br /> 2.删除第二十六条。<br /> 十八、《江西省地质勘查管理办法》<br /> 1.第四十三条修改为:“违反...。”<br /> 2.第四十四条修改为:“违反地质勘查登记管理规定的,由原登记管理机关,视情节轻重给予警告,并处5000元至3万元的罚款。”<br /> 3.第四十五条修改为:“违反...<br /> 4.第四十六条修改为:“非法转让、冒用...<br /> 5.删除第四十七条。<br /> 本决定自发布之日起施行。<br /> 《江西省城市市容和环境卫生管理实施办法》等18件省规章根据本规定作相应的修正。</font></td></tr>
</table>
里面包含“江西省城市市容和环境卫生管理实施办法”的句子都抓取出来,其他不要,怎么做呢?
(1)先把html中的html标签去掉
(2)作全文本索引。
现在就是想像百度google那样,搜索词条,出来的条目下面全是关于词条的解释部分。