本人想做一个网页提取器,能够从网页的html中提取正文,其他的都不要,请问哪位高手能给我提取的正则表达式或其他方法。小弟已用正则表达式能提取网页的文本,但就是有无关的文本也提取进来。

解决方案 »

  1.   

    要使用正则表达式匹配新闻页面中的新闻,首先你得分析出这个网页中的正文部分的HTML代码的首尾有什么关键字符,这样才可以编写出正则表达式来进行过滤。例如一些大型新闻网站的正文部分总有与其它部分不同的格式,于是,这个格式的名称可以拿来作为表达式的前缀。再比如,新闻正文的结尾部分一般都要一些比较固定的字符,把这些字符作为表达式的后缀。这些写出来的表达式才能准备的界定新闻的边界。
      

  2.   

    希望 tttk(网络芝麻) 能提供源码供大家来学习!