<html><head></head><body>
<div  id="aa">反反复反复反复反复反复反反复反反复<div id="bb">
发反反复反复反复
</div></div>
<div>公告</div></body></html>
取 div id="aa"里面的所有数据 包括:<div  id="aa">反反复反复反复反复反复反反复反反复<div id="bb">
发反反复反复反复
</div></div>如果能去掉里面的一个DIV就更好了
去掉<div id="bb">
    发反反复反复反复
   </div>最后只剩下   div中 id="aa"的数据 反反复反复反复反复反复反反复反反复

解决方案 »

  1.   

    就是抓取新闻页面里的内容是一个HTML  用正则把其他的代码去掉  只留下一个唯一ID的div 然后从这个div中去掉里面的DIV(因为只要新闻内容,所以里面的DIV可能有广告什么的)最后只剩下html中的新闻 写入数据库 就这羊,不是单纯的汉子,而是里面有html代码的内容 那样有样式,好读取出来
      

  2.   

    还不够清楚吗就是 一个文本文件中有个HTML代码
    我要取里面 一个div id="aa" 里面的所有内容 
      

  3.   

    如果固定嵌套层数的话还好做
    但是如果不固定,就是说div里不知道哦啊嵌套多少层div,想要匹配嵌套的关系,就是用.net的平衡组做吧,比较容易,java正则没有平衡组的功能,建议用程序实现