本帖最后由 xuzuning 于 2012-07-17 17:02:20 编辑

解决方案 »

  1.   

    出现乱码那就肯定是编码不同意导致的。
    检查你的编码,把他们统一就好了,普遍统一utf8编码。
    你把你的记事本编码改为utf8,估计就会好了,你试试~~   点击保存,那里有个编码设置
      

  2.   

    看了下,实在不会改,scws提供的代码是对gbk编码串进行处理,但是它给的规则集文件又是utf8的,我是直接用的它的代码,都没改动,也不会改,实在是头疼了。我顺便附下网址,有兴趣有时间的麻烦研究下:http://www.ftphp.com/scws/download.php#dll
    谢谢了哦!
      

  3.   

    在linux下编译出了scws.so 结果加载没反应...真蛋痛
      

  4.   

    你只要浏览一下你提供的连接中的内容,就可以发现他是gbk、utf-8分别提供的
      

  5.   

    能不能帮我试下在win7下安装运行?linux不会用
      

  6.   

    我还没看懂代码。不过我发现它在分词过程中有将字符转换成ASCII码。这个貌似只适合gbk吧?我大概看了下。所有代码都是将字符进行gbk处理的,只有它提供的规则集文件是utf8的,但那个规则集文件到底是啥我就不懂了。嘿嘿
      

  7.   

    gbk 与 unicode 的 ucs-2 是查表对应的
    ucs-2 通过位移可变换至 utf-8
    于是双字节的 gbk 要比三字节的 utf-8 要节省1/3的空间,当然也要节省不少处理时间
    因此 scws 的作者一开始就选择了 gbk 作为处理的基点
    对于 utf-8 编码环境只需简单的iconv就可变换过去如果你是在学习使用 scws 那么可以先尝试使用它提供的纯php版本
    正式使用时再换用php扩展版本(由于服务器的原因,你有可能无法安装)
    在他的网站上有详尽的说明文档和示例代码,建议你写认真阅读一下
      

  8.   

    唉,终于搞定了,我在分词模块的出进接口都进行了字符串编码转换,现在是清楚了乱码的问题了,但是现在又来问题了,我得到的分词结果是一个字一个字的,而且只对汉字有用,起scws代码我都没改,只是在进出口进行了编码转换,在网上的演示都正确,在我这就不对了,真是头大了
      

  9.   

    网站上市这样说的,输入要切分的文本,词典,规则文件这三者的字符集必须统一为该 charset 值。  按照这样做了,切分出来的词语,有中文,有乱码,不知道楼主的乱码最终是怎么解决的,顶一下 ,麻烦楼主赐教
      

  10.   

    楼主也可以试试看用织梦的分词类,包括英文,特殊符号都适用 在这里看到http://www.phper.org.cn/?post=34 。