c# 整理html标签

有什么办法在分析能整理html标签的?
我的程序是抓网页里的内容,但是,页面里有很多不规范的标签,造成我没办法用说简单点就是吧不是成对出现的标签给删除掉,应为由标签套标签的情况,而且嵌套层级不同,所以必须要用到地瑞,可是又不知道合适的处理方法,有什么好的思路吗?

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

<tr>
<td valign="top" align="center">
<table cellspacing="0" cellpadding="0" width="540" border="0">
<tr>
<td>
</td>
</tr>
<tr>
<td valign="top" height="295">
<table cellspacing="0" cellpadding="0" width="100%" align="center" border="0">
<tr>
<td  align="center" width="100%" colspan="2" height="25">
<strong>瞻岐镇汽车下乡补贴工作有序进行</strong>
</td>
</tr>
<tr align="left">
<td  colspan="2"> <table   cellspacing="0" cellpadding="0" width="90%" border="0">
<tbody>
<tr >
<td >
<p   align="left">根据区文件指示，<chsdate w:st="on" isrocdate="False" islunardate="False" day="1" month="3" year="2009">2009年3</sp an>月1日</chsdate>至<chsdate w:st="on" isrocdate="False" islunardate="False" day="31" month="12" year="2005">12月31日</chsdate>，我区农民购买或报废并换购轻型载货车、微型客车，可给予一定财政补贴。自该政策实行以来，我镇农户购买微型汽车、轻型载货车热情高涨，截止11月底，已有29位农户前来办理补贴手续，其中轻型载货车8辆，微型客车21辆，共计补贴金额达120300元。<br />目前汽车下乡补贴政策即将结束，由于该工作一直由我镇财审办人员兼带，而12月又是财审办工作最为忙碌的一月，为使前来办理汽车补贴手续的农户能尽快拿到汽车下乡补贴资金，我办本着“便民”这一服务宗旨，合理安排落实各人员本月的工作任务，同时通知各村需要购买微型汽车、轻型载货车的农户及早购买，以便如期享受政策带来的优惠，保证汽车下乡补贴工作顺利结束。</p>
<p   align="left"> 来源：占岐财政审计办<p />
</p>
</td>
</tr>
</tbody>
</table>
<br />
<p>(2009-12-09)</p>
</td>
</tr>
</table>
</td>
</tr>
</table>
</td>
</tr>
</table>
这个html，你取你要的东西即可。估计不是完整的html页面源码
我要保留原来的格式啦~
程序是要抓页面内容,包括排版和样式啦~~但是要去掉广告之类的.
这种得也许并不明显,但是有些页面十数据表格,中国的报表样式太夸张了拉~~,去掉html标签后什么都看不懂
解析HTML元素
http://topic.csdn.net/u/20100428/19/46bf1fab-1498-4c17-aece-e9efa8143391.html
是的抓取HTML一般是特定的,要抓取就要先去分析需要抓取的HTML,
如果通用的话想必是必修高手之路了,提取自己想要的东西吧.
http://www.cnblogs.com/gaoweipeng/archive/2009/09/02/1558279.html
我要的不是解析DOM树的效果~~~,也不是要抽取数据我要抓取网页中特定的一块内容,包括布局用的html标签
但是由于原始页面中存在格式混乱的问题,所以必定有抓出来不符合HTML格式的内容,本身就是不完整的DOM树
现在我需要 2 个处理步骤
1.检查抓到的内用时不时符合HTML规则(成对标签)
2.将多余标签去处
试着用正则表达式匹配，看可否~
[align=center]***********************************************************
                   欢迎使用 CSDN 小秘书
                  .Net 学习QQ群,欢迎加入: 67784580
***********************************************************
[/align]
我抓取到的数据就是这样,把多余的HTML去掉,成对的那些还是要保留