有什么办法在分析能整理html标签的?
我的程序是抓网页里的内容,但是,页面里有很多不规范的标签,造成我没办法用说简单点就是吧 不是成对出现的标签给删除掉,应为由标签套标签的情况,而且嵌套层级不同,所以必须要用到地瑞,可是又不知道合适的处理方法,有什么好的思路吗?

解决方案 »

  1.   

    <tr>
    <td valign="top" align="center">
    <table cellspacing="0" cellpadding="0" width="540" border="0">
    <tr>
    <td>
    </td>
    </tr>
    <tr>
    <td valign="top" height="295">
    <table cellspacing="0" cellpadding="0" width="100%" align="center" border="0">
    <tr>
    <td  align="center" width="100%" colspan="2" height="25">
    <strong>瞻岐镇汽车下乡补贴工作有序进行</strong>
    </td>
    </tr>
    <tr align="left">
    <td  colspan="2"> <table   cellspacing="0" cellpadding="0" width="90%" border="0">
    <tbody>
    <tr >
    <td >
    <p   align="left">根据区文件指示,<chsdate w:st="on" isrocdate="False" islunardate="False" day="1" month="3" year="2009">2009年3</sp an>月1日</chsdate>至<chsdate w:st="on" isrocdate="False" islunardate="False" day="31" month="12" year="2005">12月31日</chsdate>,我区农民购买或报废并换购轻型载货车、微型客车,可给予一定财政补贴。自该政策实行以来,我镇农户购买微型汽车、轻型载货车热情高涨,截止11月底,已有29位农户前来办理补贴手续,其中轻型载货车8辆,微型客车21辆,共计补贴金额达120300元。<br />目前汽车下乡补贴政策即将结束,由于该工作一直由我镇财审办人员兼带,而12月又是财审办工作最为忙碌的一月,为使前来办理汽车补贴手续的农户能尽快拿到汽车下乡补贴资金,我办本着“便民”这一服务宗旨,合理安排落实各人员本月的工作任务,同时通知各村需要购买微型汽车、轻型载货车的农户及早购买,以便如期享受政策带来的优惠,保证汽车下乡补贴工作顺利结束。</p>
    <p   align="left"> 来源:占岐财政审计办<p />
    </p>
    </td>
    </tr>
    </tbody>
    </table>
    <br />
    <p>(2009-12-09)</p>
    </td>
    </tr>
    </table>
    </td>
    </tr>
    </table>
    </td>
    </tr>
    </table>
      

  2.   

    这个html,你取你要的东西即可。估计不是完整的html页面源码
      

  3.   

    我要保留原来的格式啦~
    程序是要抓页面内容,包括排版和样式啦~~但是要去掉广告之类的.
    这种得也许并不明显,但是有些页面十数据表格,中国的报表样式太夸张了拉~~,去掉html标签后什么都看不懂
      

  4.   

    解析HTML元素
    http://topic.csdn.net/u/20100428/19/46bf1fab-1498-4c17-aece-e9efa8143391.html
      

  5.   

    是的抓取HTML一般是特定的,要抓取就要先去分析需要抓取的HTML,
    如果通用的话想必是必修高手之路了,提取自己想要的东西吧.
      

  6.   

    http://www.cnblogs.com/gaoweipeng/archive/2009/09/02/1558279.html
      

  7.   

    我要的不是解析DOM树的效果~~~,也不是要抽取数据我要抓取网页中特定的一块内容,包括布局用的html标签
    但是由于原始页面中存在格式混乱的问题,所以必定有抓出来不符合HTML格式的内容,本身就是不完整的DOM树
    现在我需要 2 个处理步骤
    1.检查抓到的内用时不时符合HTML规则(成对标签)
    2.将多余标签去处
      

  8.   

    试着用正则表达式匹配,看可否~
    [align=center]*********************************************************** 
                       欢迎使用 CSDN 小秘书
                      .Net 学习QQ群,欢迎加入: 67784580
    ***********************************************************
    [/align]
      

  9.   

    我抓取到的数据就是这样,把多余的HTML去掉,成对的那些还是要保留