有没有人用过scws分词模块，帮我解决下问题，谢谢

本帖最后由 xuzuning 于 2012-07-17 17:02:20 编辑

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

出现乱码那就肯定是编码不同意导致的。
检查你的编码，把他们统一就好了，普遍统一utf8编码。
你把你的记事本编码改为utf8，估计就会好了，你试试~~   点击保存，那里有个编码设置
看了下，实在不会改，scws提供的代码是对gbk编码串进行处理，但是它给的规则集文件又是utf8的，我是直接用的它的代码，都没改动，也不会改，实在是头疼了。我顺便附下网址，有兴趣有时间的麻烦研究下：http://www.ftphp.com/scws/download.php#dll
谢谢了哦！
在linux下编译出了scws.so 结果加载没反应...真蛋痛
你只要浏览一下你提供的连接中的内容，就可以发现他是gbk、utf-8分别提供的
能不能帮我试下在win7下安装运行？linux不会用
我还没看懂代码。不过我发现它在分词过程中有将字符转换成ASCII码。这个貌似只适合gbk吧？我大概看了下。所有代码都是将字符进行gbk处理的，只有它提供的规则集文件是utf8的，但那个规则集文件到底是啥我就不懂了。嘿嘿
gbk 与 unicode 的 ucs-2 是查表对应的
ucs-2 通过位移可变换至 utf-8
于是双字节的 gbk 要比三字节的 utf-8 要节省1/3的空间，当然也要节省不少处理时间
因此 scws 的作者一开始就选择了 gbk 作为处理的基点
对于 utf-8 编码环境只需简单的iconv就可变换过去如果你是在学习使用 scws 那么可以先尝试使用它提供的纯php版本
正式使用时再换用php扩展版本（由于服务器的原因，你有可能无法安装）
在他的网站上有详尽的说明文档和示例代码，建议你写认真阅读一下
唉，终于搞定了，我在分词模块的出进接口都进行了字符串编码转换，现在是清楚了乱码的问题了，但是现在又来问题了，我得到的分词结果是一个字一个字的，而且只对汉字有用，起scws代码我都没改，只是在进出口进行了编码转换，在网上的演示都正确，在我这就不对了，真是头大了
网站上市这样说的，输入要切分的文本，词典，规则文件这三者的字符集必须统一为该 charset 值。  按照这样做了，切分出来的词语，有中文，有乱码，不知道楼主的乱码最终是怎么解决的，顶一下，麻烦楼主赐教
楼主也可以试试看用织梦的分词类，包括英文，特殊符号都适用在这里看到http://www.phper.org.cn/?post=34 。