最好能自己添加词汇的。utf8的。能无平台限制最好。
有谁用过的推荐一下。
我要弄站内全文搜索。
还有分词后如何建索引比较好?

解决方案 »

  1.   

    我好像看过有开源的cms有lz说的那个功能,不过忘了是那款了,楼下的继续.....
      

  2.   

    你说mysql的全文索引啊?  分词->中文->转字母->索引 ?  性能跟得上吗 ... 
      

  3.   

    为啥不考虑 sphinx 呢?这个不要重新发明轮子啊。
    ————————————————————————————————
    基于CSDN论坛提供的插件扩展功能,自己做了个签名档工具,分享给大家,欢迎技术交流 :)
      

  4.   

    支持sphinx和lucent等工具,不要自己发明轮子,
    况且拿php写的分词,性能不可接受,得写php扩展。
      

  5.   

    说得还不够明白?Sphinx 就是专业的全文检索引擎啊,是一个单独部署的网络服务器,有 PHP 的 Client API 包用于检索查询。不可能什么东西都用“纯PHP”实现,估计你找到的“分词系统”也不会是纯 PHP 的吧?
    ————————————————————————————————
    基于CSDN论坛提供的插件扩展功能,自己做了个签名档工具,分享给大家,欢迎技术交流 :)
      

  6.   

    本帖最后由 xuzuning 于 2011-10-11 07:24:00 编辑
      

  7.   

    每秒分14000个词,处理千字短文,每秒才几十个,
    除非分词效果特别好,否则是不可接受的,可以跟ICTCLAS对比下,
    有人做成http服务了,每秒能处理几千次请求,词库19万。http://code.google.com/p/httpcws/如果切词切的比这个效果好,恭喜你,打败中科院几年前的记录了。
      

  8.   

    楼上各位。我不使用sphinx、lucent这些工具可行吗。
    我不是专做什么垂直搜索。用那些工具感觉有些碍手啊。我本想这么弄的。
    用mysql建表存分析后的分词数据。有一词汇表,字段:
    w_id
    word另一个文章分析的词汇表,字段:
    a_id(文章id)
    w_id(词汇id,使用索引)
    词汇占全文的百分率
    词汇出现的频率
    向上面那样弄的话。词汇表应该没什么问题。多也就是上百万词汇。差不多固定的。文章分析的词汇表可能数据量就很大了。但只有4个字段。且都是几位数字。以后用户搜索的话。先分词用户搜索的内容(很快)。再取各分词的id(也很快)。再取各词汇id对应有哪些文章然后再分析各文章的词汇权重因素(出现频率、支持投票数等)排序,最后集合结果。这样有什么不妥吗
      

  9.   

    一个旧project
    http://code.google.com/p/httpcws/
      

  10.   

    没什么不妥的,算法不错,据我了解,好像 Sphinx 无非也就是这些。
      

  11.   

    简单点儿的话,在全文检索领域里,就是同义词/近义词表。要搞高深的……语义搜索?hehe,那个牛大了……
    ————————————————————————————————
    基于CSDN论坛提供的插件扩展功能,自己做了个签名档工具,分享给大家,欢迎技术交流 :)