求php中文分词源码

最好能自己添加词汇的。utf8的。能无平台限制最好。
有谁用过的推荐一下。
我要弄站内全文搜索。
还有分词后如何建索引比较好?

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

我好像看过有开源的cms有lz说的那个功能，不过忘了是那款了，楼下的继续.....
你说mysql的全文索引啊? 　分词->中文->转字母->索引 ?　　性能跟得上吗　...　
为啥不考虑 sphinx 呢？这个不要重新发明轮子啊。
————————————————————————————————
基于CSDN论坛提供的插件扩展功能，自己做了个签名档工具，分享给大家，欢迎技术交流 :)
支持sphinx和lucent等工具，不要自己发明轮子，
况且拿php写的分词，性能不可接受，得写php扩展。
说得还不够明白？Sphinx 就是专业的全文检索引擎啊，是一个单独部署的网络服务器，有 PHP 的 Client API 包用于检索查询。不可能什么东西都用“纯PHP”实现，估计你找到的“分词系统”也不会是纯 PHP 的吧？
————————————————————————————————
基于CSDN论坛提供的插件扩展功能，自己做了个签名档工具，分享给大家，欢迎技术交流 :)
本帖最后由 xuzuning 于 2011-10-11 07:24:00 编辑
每秒分14000个词，处理千字短文，每秒才几十个，
除非分词效果特别好，否则是不可接受的，可以跟ICTCLAS对比下，
有人做成http服务了，每秒能处理几千次请求，词库19万。http://code.google.com/p/httpcws/如果切词切的比这个效果好，恭喜你，打败中科院几年前的记录了。
楼上各位。我不使用sphinx、lucent这些工具可行吗。
我不是专做什么垂直搜索。用那些工具感觉有些碍手啊。我本想这么弄的。
用mysql建表存分析后的分词数据。有一词汇表，字段:
w_id
word另一个文章分析的词汇表，字段:
a_id（文章id）
w_id（词汇id,使用索引）
词汇占全文的百分率
词汇出现的频率
向上面那样弄的话。词汇表应该没什么问题。多也就是上百万词汇。差不多固定的。文章分析的词汇表可能数据量就很大了。但只有4个字段。且都是几位数字。以后用户搜索的话。先分词用户搜索的内容(很快)。再取各分词的id(也很快)。再取各词汇id对应有哪些文章然后再分析各文章的词汇权重因素(出现频率、支持投票数等)排序,最后集合结果。这样有什么不妥吗
一个旧project
http://code.google.com/p/httpcws/
没什么不妥的，算法不错，据我了解，好像 Sphinx 无非也就是这些。
简单点儿的话，在全文检索领域里，就是同义词/近义词表。要搞高深的……语义搜索？hehe，那个牛大了……
————————————————————————————————
基于CSDN论坛提供的插件扩展功能，自己做了个签名档工具，分享给大家，欢迎技术交流 :)