如题,如何判断字符串里面的非gbk字符?并给这个字符的unicode编码值。
比如,一下这一段:
无数珍宝金银车

解决方案 »

  1.   

    非gbk字符 这个含义太泛了,像cjk、utf8等,不同的编码转换unicode值是不一样的,你最起码要搞清楚你非gbk字符的编码是什么编码!“
      

  2.   

    CJK Unified Ideographs (4E00-9FCF)CJK Extension-A (3400-4DBF)CJK Extension B (20000-2A6DF)CJK Extension C (2A700-2B73F)CJK Extension D (2B740-2B81F)以上为unicode 第六版标准已发布的汉字字符(不包含标点符号等)内码,其中4e00-9fcf为常见的utf-8包含的“常用”汉字
      

  3.   

    [Quote=引用楼主 ipbdq 的回复:]
    如题,如何判断字符串里面的非gbk字符?并给这个字符的unicode编码值。
    比如,一下这一段:
    无数珍宝金银车
      

  4.   

    [Quote=引用 3 楼 falizixun2 的回复:]
    引用楼主 ipbdq 的回复:
    如题,如何判断字符串里面的非gbk字符?并给这个字符的unicode编码值。
    比如,一下这一段:
    无数珍宝金银车
      

  5.   

    首先你要把需求说细致一点,具体想怎么做?如一楼所说“非GBK”含义太广泛,希伯来文、德文、藏文、蒙古文……都不属于GBK,是否都要考虑呢?
    还是仅仅考虑汉字,如果只考虑汉字(不包括符号),utf-8下用正则/[\u4e00-\u9fcf]+/u基本能检测出来
      

  6.   

    [Quote=引用 1 楼 hnxxwyq 的回复:]非gbk字符 这个含义太泛了,像cjk、utf8等,不同的编码转换unicode值是不一样的,你最起码要搞清楚你非gbk字符的编码是什么编码!“