htmlparser非常好用,看你怎么用了

解决方案 »

  1.   

    老师的要求是随便给个类似sina,yahoo的新闻页面,程序能提取它的新闻正文,以备后期处理而当我提取时,由于CSS,ASP,JSP的存在...大量的变量声明,语句都被当作网页正文提取了出来...郁闷中...由于下载的源码也有这样的现象...现在就是想找个例子...屏蔽掉无用内容的...
      

  2.   

    你要提取的内容有什么相对固定的格式么?我觉得htmlparser加regexp应该可以解决大多数问题了..
    我最近就在做这类的东西...觉得htmlparser还是很好用的..特别是越来越了解以后.
      

  3.   

    另外说明下..htmlparser和正文提取没什么联系...正文提取的规则肯定是要自己写的..htmlparser只是去解析html代码而已.你要结合实际情况去写一些规则才可以达到你要的效果..如果是没有任何共同格式的网页的话,用机器提取内容是很难做到的一件事情....能给些你要提取的网页的例子么?我帮你看看~
      

  4.   


    例子么...随便上新浪找个新闻页面,提取标题和正文...例如新闻页http://torch.2008.sina.com.cn/hd/other/2008-04-22/184473045.shtml当我提取时...正文后面是成堆的ASP代码行...所以...我疯了...
      

  5.   

    htmlparser  可以根据标签进行截取啊,一般那些门户网站中正文的标签都是固定的,只要找到规律,就可以一层层的扒下来的。我以前就做过类似的。
      

  6.   

    http://www.likeshow.net/article.asp?id=92 
    我一年前写的玩意 虽然不完善 但尚可用之在新闻和BLOG 论坛提取上 提取的正文对于BLOG和BBS包含评论及回复 具体原理也写很清楚了