正则表达式取之间的部分 - 调试易

正则表达式取之间的部分

<html><head></head><body>
<div  id="aa">反反复反复反复反复反复反反复反反复<div id="bb">
发反反复反复反复
</div></div>
<div>公告</div></body></html>
取 div id="aa"里面的所有数据包括：<div  id="aa">反反复反复反复反复反复反反复反反复<div id="bb">
发反反复反复反复
</div></div>如果能去掉里面的一个DIV就更好了
去掉<div id="bb">
    发反反复反复反复
   </div>最后只剩下   div中 id="aa"的数据反反复反复反复反复反复反反复反反复

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

就是抓取新闻页面里的内容是一个HTML  用正则把其他的代码去掉  只留下一个唯一ID的div 然后从这个div中去掉里面的DIV（因为只要新闻内容，所以里面的DIV可能有广告什么的）最后只剩下html中的新闻写入数据库就这羊，不是单纯的汉子，而是里面有html代码的内容那样有样式，好读取出来
还不够清楚吗就是一个文本文件中有个HTML代码
我要取里面一个div id="aa" 里面的所有内容
如果固定嵌套层数的话还好做
但是如果不固定，就是说div里不知道哦啊嵌套多少层div，想要匹配嵌套的关系，就是用.net的平衡组做吧，比较容易，java正则没有平衡组的功能，建议用程序实现