实现一个中文全文搜索引擎,能够快速检索中文关键字在文本集中出现的位置(假设文本已经进过分词工具处理)。要求:
1、假设文本集都是纯文本的,不需要考虑非纯文本格式的预处理过程。
2、允许使用ICTCLAS先对文本做分词,即文本集都已经分好词。
3、必须以一定的数据结构为文本集建立索引。可以假设内存能够装下整个文本集。
4、查询速度要求是以秒计算的。
5、命令行界面可以接受,输入为中文关键字,查询结果必须起码给出查询到的文档们的路径。
会的朋友说下思路,我想用C#语言实现。