求php中文分词源码 最好能自己添加词汇的。utf8的。能无平台限制最好。有谁用过的推荐一下。我要弄站内全文搜索。还有分词后如何建索引比较好? 解决方案 » 免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货 我好像看过有开源的cms有lz说的那个功能,不过忘了是那款了,楼下的继续..... 你说mysql的全文索引啊? 分词->中文->转字母->索引 ? 性能跟得上吗 ... 为啥不考虑 sphinx 呢?这个不要重新发明轮子啊。————————————————————————————————基于CSDN论坛提供的插件扩展功能,自己做了个签名档工具,分享给大家,欢迎技术交流 :) 支持sphinx和lucent等工具,不要自己发明轮子,况且拿php写的分词,性能不可接受,得写php扩展。 说得还不够明白?Sphinx 就是专业的全文检索引擎啊,是一个单独部署的网络服务器,有 PHP 的 Client API 包用于检索查询。不可能什么东西都用“纯PHP”实现,估计你找到的“分词系统”也不会是纯 PHP 的吧?————————————————————————————————基于CSDN论坛提供的插件扩展功能,自己做了个签名档工具,分享给大家,欢迎技术交流 :) 本帖最后由 xuzuning 于 2011-10-11 07:24:00 编辑 每秒分14000个词,处理千字短文,每秒才几十个,除非分词效果特别好,否则是不可接受的,可以跟ICTCLAS对比下,有人做成http服务了,每秒能处理几千次请求,词库19万。http://code.google.com/p/httpcws/如果切词切的比这个效果好,恭喜你,打败中科院几年前的记录了。 楼上各位。我不使用sphinx、lucent这些工具可行吗。我不是专做什么垂直搜索。用那些工具感觉有些碍手啊。我本想这么弄的。用mysql建表存分析后的分词数据。有一词汇表,字段:w_idword另一个文章分析的词汇表,字段:a_id(文章id)w_id(词汇id,使用索引)词汇占全文的百分率词汇出现的频率向上面那样弄的话。词汇表应该没什么问题。多也就是上百万词汇。差不多固定的。文章分析的词汇表可能数据量就很大了。但只有4个字段。且都是几位数字。以后用户搜索的话。先分词用户搜索的内容(很快)。再取各分词的id(也很快)。再取各词汇id对应有哪些文章然后再分析各文章的词汇权重因素(出现频率、支持投票数等)排序,最后集合结果。这样有什么不妥吗 一个旧projecthttp://code.google.com/p/httpcws/ 没什么不妥的,算法不错,据我了解,好像 Sphinx 无非也就是这些。 简单点儿的话,在全文检索领域里,就是同义词/近义词表。要搞高深的……语义搜索?hehe,那个牛大了……————————————————————————————————基于CSDN论坛提供的插件扩展功能,自己做了个签名档工具,分享给大家,欢迎技术交流 :) 敏感字处理 看见有人发帖“php能做什么”,我不得不也发帖了(继陪聊机器人后再发帖)~ php登陆页面具体实现 DIV+CSS JpGraph中文乱码完美解决方案 如何实现像驱动之家或百度mp3等网站,即时测试出用户连接文件的速度? [急求:]使用XML取得数据后在本地电脑可以显示,上传到服务器上就无法显示数据的问题 zend studio 10.0.1 调试 各位请问 : 用PHP如何做网页排版。。(如ASP用dreamwave排版) 能在win2k下通过shmop_*()函数操作共享内存嘛? foreach语句以及判定问题 哪位帮忙看一下以下测试php64位的程序如何理解?谢谢
————————————————————————————————
基于CSDN论坛提供的插件扩展功能,自己做了个签名档工具,分享给大家,欢迎技术交流 :)
况且拿php写的分词,性能不可接受,得写php扩展。
————————————————————————————————
基于CSDN论坛提供的插件扩展功能,自己做了个签名档工具,分享给大家,欢迎技术交流 :)
除非分词效果特别好,否则是不可接受的,可以跟ICTCLAS对比下,
有人做成http服务了,每秒能处理几千次请求,词库19万。http://code.google.com/p/httpcws/如果切词切的比这个效果好,恭喜你,打败中科院几年前的记录了。
我不是专做什么垂直搜索。用那些工具感觉有些碍手啊。我本想这么弄的。
用mysql建表存分析后的分词数据。有一词汇表,字段:
w_id
word另一个文章分析的词汇表,字段:
a_id(文章id)
w_id(词汇id,使用索引)
词汇占全文的百分率
词汇出现的频率
向上面那样弄的话。词汇表应该没什么问题。多也就是上百万词汇。差不多固定的。文章分析的词汇表可能数据量就很大了。但只有4个字段。且都是几位数字。以后用户搜索的话。先分词用户搜索的内容(很快)。再取各分词的id(也很快)。再取各词汇id对应有哪些文章然后再分析各文章的词汇权重因素(出现频率、支持投票数等)排序,最后集合结果。这样有什么不妥吗
http://code.google.com/p/httpcws/
————————————————————————————————
基于CSDN论坛提供的插件扩展功能,自己做了个签名档工具,分享给大家,欢迎技术交流 :)