最近在写一个正文抽取的程序,是基于统计和一些规则来处理的,效果还凑和,但还是有一些杂数据会出现
我现在想将网页类型分类,提高准确度,比如 : 1 新闻类型 
2 论坛类型 
3 博客类型 
4 其他
我现在想问的是 网页类型 如何判断 , 或者这种方法不好给点新思路。谢谢

解决方案 »

  1.   

    Powered by PHPWind v5.3 Code © 2003-07 
    Powered by Discuz! 6.0.0  © 2001-2007

    比如上面一般是论坛 可以通过 IndexOf()来判断,但是不是每个论坛都用以上的一些关键字的新闻类网页一般 uri.Host 有 news 之类的关键字 还有新闻类网页正文开头都用新闻发布时间 比如下面的格式
    2009年08月10日 12:30博客类型 一般 uri.Host 有blog关键字 
    ------------------------------但是以上判断还是不太好
      

  2.   

    同求最后做的效果 及源码分享 谢谢  [email protected]