我现在想做个查询的检索,但输入时需要对输入的文字进行“分词”,各位高手有没有对检索,分词好一点的源程序(支持utf-8),提供给在下,在下不胜感激!

解决方案 »

  1.   

    如果是虚拟主机的话可以用织梦分词算法V1.0
    http://www.dedecms.com/html/chanpinxiazai/20061229/3.html如果你有自己的服务器可以考虑安装PHP的扩展SCWS - 简易中文分词系统
    http://www.hightman.cn/index.php?scws
      

  2.   

    UTF8本身做分词是不实际的,因为它是万国码,所以是不可能的,如果你以中文为主的,你就使用中文的分词,如织梦的分词类,然后分词前先把UTF8转为gbk,分好后再转回utf-8,相对于分词本身而言,这个转换时间是很轻微的
      

  3.   

    织梦分词,我试过,效果也是一般,问题是他里面有几个参数我不大懂。例如:
    神奇 1381 a
    社旗 10 ns
    实权 81 n
    水汽 10 n
    山丘 24 n
    沙丘 48 n
    切分 6 v
    事前 509 t
    赛区 972 n
    受气 94 v
    深秋 109 t
    受权 46 v   后面的文字和字母都代表什么?不太懂?兄台可否帮忙解决一下?
      

  4.   

    我现在需的功能,很小,这个已经足已,不过就不知道后面参数是怎么用的,有没有哪位朋友用过的,指点一下!例如:
    神奇 1381 a
    社旗 10 ns
    实权 81 n
    水汽 10 n
    山丘 24 n
    沙丘 48 n
    切分 6 v
    事前 509 t
    赛区 972 n
    受气 94 v
    深秋 109 t
    受权 46 v  
      

  5.   

    后面两个变量自己添加就行了,一个是数字,一个是字母,在简版的分词系统中没有使用这两个值,只要有就ok,可以看库里面的263行isset($this->RankDic[$slen][$okWord])看了完整的我猜想后面的字母是标注词性的(n名词,v动词等等),中间的数字嘛,跟拼音有关,比如6的都是s开头的字,其他没有深究,简单版的够用就行。如果要强大的分词还是建议用SCWS