搜索引擎中的网页预处理,基于html结构分析进行净化与消重希望做过的能分享一下源码,学习一下

解决方案 »

  1.   

    本站有很多搜索引擎的源码,给个地址楼主参考下:
    http://download.csdn.net/source/776882
      

  2.   

    使用htmlparser就可以。
    这部分比较简单。
      

  3.   

    可以看看HTMLPARSER对标签什么的过滤,提取有用的资料
      

  4.   

    自己答一下吧入门可以参考这篇代码
    http://hannibal730816.javaeye.com/blog/149493我要做的是基于模板的简单的说就是通过相似网页匹配去除重复部分,剩下的部分作为相似样本集的模板如果样本集只有一个网页,则利用启发性规则查找主题信息其中模板也可以人工参与创建,提高准确率这方面的开源项目是RoadRunner,不过不太完善