关于网页正文提取的想法和疑问

htmlparser非常好用，看你怎么用了

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

老师的要求是随便给个类似sina,yahoo的新闻页面,程序能提取它的新闻正文,以备后期处理而当我提取时,由于CSS,ASP,JSP的存在...大量的变量声明,语句都被当作网页正文提取了出来...郁闷中...由于下载的源码也有这样的现象...现在就是想找个例子...屏蔽掉无用内容的...
你要提取的内容有什么相对固定的格式么?我觉得htmlparser加regexp应该可以解决大多数问题了..
我最近就在做这类的东西...觉得htmlparser还是很好用的..特别是越来越了解以后.
另外说明下..htmlparser和正文提取没什么联系...正文提取的规则肯定是要自己写的..htmlparser只是去解析html代码而已.你要结合实际情况去写一些规则才可以达到你要的效果..如果是没有任何共同格式的网页的话,用机器提取内容是很难做到的一件事情....能给些你要提取的网页的例子么?我帮你看看~
例子么...随便上新浪找个新闻页面,提取标题和正文...例如新闻页http://torch.2008.sina.com.cn/hd/other/2008-04-22/184473045.shtml当我提取时...正文后面是成堆的ASP代码行...所以...我疯了...
htmlparser  可以根据标签进行截取啊，一般那些门户网站中正文的标签都是固定的，只要找到规律，就可以一层层的扒下来的。我以前就做过类似的。
http://www.likeshow.net/article.asp?id=92
我一年前写的玩意虽然不完善但尚可用之在新闻和BLOG 论坛提取上提取的正文对于BLOG和BBS包含评论及回复具体原理也写很清楚了