有什么办法在分析能整理html标签的?
我的程序是抓网页里的内容,但是,页面里有很多不规范的标签,造成我没办法用说简单点就是吧 不是成对出现的标签给删除掉,应为由标签套标签的情况,而且嵌套层级不同,所以必须要用到地瑞,可是又不知道合适的处理方法,有什么好的思路吗?
我的程序是抓网页里的内容,但是,页面里有很多不规范的标签,造成我没办法用说简单点就是吧 不是成对出现的标签给删除掉,应为由标签套标签的情况,而且嵌套层级不同,所以必须要用到地瑞,可是又不知道合适的处理方法,有什么好的思路吗?
<td valign="top" align="center">
<table cellspacing="0" cellpadding="0" width="540" border="0">
<tr>
<td>
</td>
</tr>
<tr>
<td valign="top" height="295">
<table cellspacing="0" cellpadding="0" width="100%" align="center" border="0">
<tr>
<td align="center" width="100%" colspan="2" height="25">
<strong>瞻岐镇汽车下乡补贴工作有序进行</strong>
</td>
</tr>
<tr align="left">
<td colspan="2"> <table cellspacing="0" cellpadding="0" width="90%" border="0">
<tbody>
<tr >
<td >
<p align="left">根据区文件指示,<chsdate w:st="on" isrocdate="False" islunardate="False" day="1" month="3" year="2009">2009年3</sp an>月1日</chsdate>至<chsdate w:st="on" isrocdate="False" islunardate="False" day="31" month="12" year="2005">12月31日</chsdate>,我区农民购买或报废并换购轻型载货车、微型客车,可给予一定财政补贴。自该政策实行以来,我镇农户购买微型汽车、轻型载货车热情高涨,截止11月底,已有29位农户前来办理补贴手续,其中轻型载货车8辆,微型客车21辆,共计补贴金额达120300元。<br />目前汽车下乡补贴政策即将结束,由于该工作一直由我镇财审办人员兼带,而12月又是财审办工作最为忙碌的一月,为使前来办理汽车补贴手续的农户能尽快拿到汽车下乡补贴资金,我办本着“便民”这一服务宗旨,合理安排落实各人员本月的工作任务,同时通知各村需要购买微型汽车、轻型载货车的农户及早购买,以便如期享受政策带来的优惠,保证汽车下乡补贴工作顺利结束。</p>
<p align="left"> 来源:占岐财政审计办<p />
</p>
</td>
</tr>
</tbody>
</table>
<br />
<p>(2009-12-09)</p>
</td>
</tr>
</table>
</td>
</tr>
</table>
</td>
</tr>
</table>
程序是要抓页面内容,包括排版和样式啦~~但是要去掉广告之类的.
这种得也许并不明显,但是有些页面十数据表格,中国的报表样式太夸张了拉~~,去掉html标签后什么都看不懂
http://topic.csdn.net/u/20100428/19/46bf1fab-1498-4c17-aece-e9efa8143391.html
如果通用的话想必是必修高手之路了,提取自己想要的东西吧.
但是由于原始页面中存在格式混乱的问题,所以必定有抓出来不符合HTML格式的内容,本身就是不完整的DOM树
现在我需要 2 个处理步骤
1.检查抓到的内用时不时符合HTML规则(成对标签)
2.将多余标签去处
[align=center]***********************************************************
欢迎使用 CSDN 小秘书
.Net 学习QQ群,欢迎加入: 67784580
***********************************************************
[/align]