不能说是提取关键字了,可以说是取词,根据就是出现2次以上就可以认为是词,做些修改可以提取指定词频的词,效果还不算好,有些高词频的词,由于其会形成组词,这样这个词的子词取代其,因此没有取到基本方法:2个字符构成最小的词,而其的词频必定是从该词的起点构成的词中最大的,通过不断的加字符,路过出现小于这个最大的次品,可以认为这个词到了结束位置,取出这个词,并且把所有的该词占据的位置记录下来,以减少重复判断加了些过滤的标识符---词不能包含标点符号等不足:对歧义没有过多处理,利用的是最大正向遍历,取2个字符假设为初始词,可能是词的一部分,路过出现没有取到应该取到的词(路前面说的组合词,只能证明这个词还可以再分,是由几个词组合而来,按照最小词原则,可以认为这样是可以的)返回数组:[0] => Array ( [0] => 大话西游 [1] => 2 [2] => Array ( [0] => 1 [1] => 892 ) [3] => 4 )[0] =>词字符串      [1] => 词频          [2] => 该词出现的各个位置           [3] => 词的长度,几个字符
PHP代码:里面的词“周星星”出现了问题,因为前面有  “周星驰“,周星最多出现的,所以还是不好,速度也不行,可能判断重复的数组,修改下用键直接引用会快些