实验4 检索模型算法(二)
一、实验目的
   建立一个简单的检索系统,实现以下功能:通过用Java或则C#语言编程实现倒排文档组织,深刻理解倒排文档的结构和组成,掌握自动抽词标引,建立倒排文档的基本原理和实现方法.二、实习内容
    编程实现文本标引和倒排文档建立,要求包括以下处理:
    选择10—20个文献款目,建立文献信息条目的顺排文档;文本是英文或中文不限,对
1.标题字段,文摘或全文字段进行自动抽词标引;
2.对文本进行分析,建立停用词表,
3.确定对关键词进行加权的方法;
4.确定抽词规则;,
5.确定对文本扫描顺序和规则;
6.建立倒排文档组织;
7.确定可检索字段,以及要实现的检索技术;
(1)先建立K—D文件;
(2)生成词典文件;
(3)生成倒排顺序文件;
8.演示编程实现的结果;
9.提交报告,内容包括:功能,处理方法和思想,算法流程描述,涉及的数据结构,源程序以及对算法效率及其改进的讨论.

本人菜鸟,刚学java,老师搞个这样的题目,看了半天,也没有一点头绪。应该是用程序实现搜索的算法。但我实在不会啊。班里面也没有人会做。哪位有兴趣挑战的,麻烦给个代码吧。说说思路也好啊。

解决方案 »

  1.   

    降低要求,把思路简化一下:用一个TXT文本。里面有序记录有十几条文献记录。像数据库的表那样。有id号,有英文文献名ArticleName(简单起见,暂时只考虑英文的)。
    然后用算法实现对文本里的东西进行对比查询。有点像搜索引擎那样的,输入任意2个或多个字符,可以自动查询得到相应的英文文献名ArticleName。
    我自己都觉得这像开发搜索引擎了。哪位,给个代码,给个思路吧。实在不会。
      

  2.   

    降低要求,把思路简化一下:用一个TXT文本。里面有序记录有十几条文献记录。像数据库的表那样。有id号,有英文文献名ArticleName(简单起见,暂时只考虑英文的)。
    然后用算法实现对文本里的东西进行对比查询。有点像搜索引擎那样的,输入任意2个或多个字符,可以自动查询得到相应的英文文献名ArticleName。
    我自己都觉得这像开发搜索引擎了。哪位,给个代码,给个思路吧。实在不会。
      

  3.   

    1。写一个类,对应表记录的内容,每条记录对应一个对象。
    2。如果,表长度不是很大(像楼主说的只有十几条),那就先把所有数据都读进来,生成一个(1。)对象的集合。
    3。确定检索的算法。
      我这里,只会通过逐个的比较,进行检索。
      叠代对象的集合,针对集合当中的每个对象中的ArticleName,进行匹配。
    4。创建一个用于存放检索结果的集合。将匹配成功的对象放入该结果集合。
    5。结果对象的输出。
      可以生成一个文件。也可以显示在控制台上。或者其他的什么地方。关键看楼主的要求了。
      

  4.   

    一下
    http://www.sudu.cn/info/html/edu/java/20080403/259097.html