搜索引擎中的网页预处理,基于html结构分析进行净化与消重希望做过的能分享一下源码,学习一下
解决方案 »
- String类中的substring(String.length())怎么能取为空?
- 如何理解for (Iterator <Entry <UpdateVO, List <UpdateVO>>>
- 打开FTP服务出错.端口冲突
- 一道java习题
- 我有一关于构造方法的题,怎么得不到正确答案
- 高手指教!用直接插入排序,直接选择排序,起泡排序,SHELL排序,快速排序这五种算法求解!!! (C语言描述)
- 用什么程序可以看CSDN的邮件期刊呀?
- 刚学JAVA,分有的是,问题也简单!
- 如何写一个COPY类实现COPY文件从一个硬盘拷到另一硬盘或文件里?
- 用过java调用*.dll的 哥们帮我个问题,急急急急急急急!!!!!!!!!!!!
- java中如何表示上个月倒数第2天和本月倒数第2天?
- 请教 :java 还原编码utf-8 转 gbk问题(实现多编码格式请求处理的web应用)
http://download.csdn.net/source/776882
这部分比较简单。
http://hannibal730816.javaeye.com/blog/149493我要做的是基于模板的简单的说就是通过相似网页匹配去除重复部分,剩下的部分作为相似样本集的模板如果样本集只有一个网页,则利用启发性规则查找主题信息其中模板也可以人工参与创建,提高准确率这方面的开源项目是RoadRunner,不过不太完善