关于网页正文提取的想法和疑问 htmlparser非常好用,看你怎么用了 解决方案 » 免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货 老师的要求是随便给个类似sina,yahoo的新闻页面,程序能提取它的新闻正文,以备后期处理而当我提取时,由于CSS,ASP,JSP的存在...大量的变量声明,语句都被当作网页正文提取了出来...郁闷中...由于下载的源码也有这样的现象...现在就是想找个例子...屏蔽掉无用内容的... 你要提取的内容有什么相对固定的格式么?我觉得htmlparser加regexp应该可以解决大多数问题了..我最近就在做这类的东西...觉得htmlparser还是很好用的..特别是越来越了解以后. 另外说明下..htmlparser和正文提取没什么联系...正文提取的规则肯定是要自己写的..htmlparser只是去解析html代码而已.你要结合实际情况去写一些规则才可以达到你要的效果..如果是没有任何共同格式的网页的话,用机器提取内容是很难做到的一件事情....能给些你要提取的网页的例子么?我帮你看看~ 例子么...随便上新浪找个新闻页面,提取标题和正文...例如新闻页http://torch.2008.sina.com.cn/hd/other/2008-04-22/184473045.shtml当我提取时...正文后面是成堆的ASP代码行...所以...我疯了... htmlparser 可以根据标签进行截取啊,一般那些门户网站中正文的标签都是固定的,只要找到规律,就可以一层层的扒下来的。我以前就做过类似的。 http://www.likeshow.net/article.asp?id=92 我一年前写的玩意 虽然不完善 但尚可用之在新闻和BLOG 论坛提取上 提取的正文对于BLOG和BBS包含评论及回复 具体原理也写很清楚了 想通过实现Struts2 的 Action接口 但是加载时会出现这个错误 统计James 的未读邮件个数 struts2和spring整合的一点小问题 request和response跳转的区别? 页面刷新就提交,求解! hibernate3.1双向一对多问题(高分急救!!!!!!) 【如何在CentOS安裝VMWare Tools?】 关于Struts中的Validator验证的一些请教 急!关于两个数据库同步的问题! 一个关于ejb的find的问题 AssertEquals <html:text/>标签
我最近就在做这类的东西...觉得htmlparser还是很好用的..特别是越来越了解以后.
例子么...随便上新浪找个新闻页面,提取标题和正文...例如新闻页http://torch.2008.sina.com.cn/hd/other/2008-04-22/184473045.shtml当我提取时...正文后面是成堆的ASP代码行...所以...我疯了...
我一年前写的玩意 虽然不完善 但尚可用之在新闻和BLOG 论坛提取上 提取的正文对于BLOG和BBS包含评论及回复 具体原理也写很清楚了