html源代码中提取正文 - 调试易

html源代码中提取正文

本人想做一个网页提取器，能够从网页的html中提取正文，其他的都不要，请问哪位高手能给我提取的正则表达式或其他方法。小弟已用正则表达式能提取网页的文本，但就是有无关的文本也提取进来。

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

要使用正则表达式匹配新闻页面中的新闻，首先你得分析出这个网页中的正文部分的HTML代码的首尾有什么关键字符，这样才可以编写出正则表达式来进行过滤。例如一些大型新闻网站的正文部分总有与其它部分不同的格式，于是，这个格式的名称可以拿来作为表达式的前缀。再比如，新闻正文的结尾部分一般都要一些比较固定的字符，把这些字符作为表达式的后缀。这些写出来的表达式才能准备的界定新闻的边界。
希望 tttk(网络芝麻) 能提供源码供大家来学习!