以下页面可以将繁简汉字转换为UNICODE代码:http://www.xyzonline.cn:7777/gbk2htm.jsp?p_gbks=

解决方案 »

  1.   


    如果BS结构和JSP页面都怕有病毒,估计天底下没有几个人敢上网了。
      

  2.   

    1980年的GB2312一共收录了7445个字符,包括6763个汉字和682个其它符号。汉字区的内码范围高字节从B0-F7,低字节从A1-FE,占用的码位是72*94=6768。其中有5个空位是D7FA-D7FE。这6763个汉字在Unicode中不是连续的,分布在CJK统一汉字字符区(0x4E00-0x9FA5)的20902个汉字中。中日韩统一表意文字中日韩统一表意文字(英语:CJK Unified Ideographs),目的是要把分别来自中文、日文、韩文、越文中,本质相同、形状一样或稍异的表意文字(主要为汉字,但也有仿汉字如日本国字、韩国独有汉字、越南的喃字)于ISO 10646及Unicode标准内赋予相同编码。
    历史于1990年代初ISO 10646制订时,来自台湾的代表提出将源自中国的中日韩汉字予以统一(Unify, ISO术语称为认同),可以大量节省编码空间,获其他代表接纳。 最初期的统一汉字(20,902字)字源来自以下字集:
    大陆的G源: 17,124字 (G0,G1,G3,G5,G7,G8)
    台湾的T源: 17,258字 (T1,T2,TE)
    日本的J源: 12238字 (J1,J2,JI)
    韩国的K源: 7,744字 (K0,K1)
    以上的来源字集会实施字源分离原则,如下字:
    U+4E1F丟U+4E22丢 U+4E48么U+5E7A幺 U+4E89争U+722D爭。
      

  3.   

    1995年的汉字扩展规范GBK1.0收录了21886个符号,包括21003个汉字和883个其它符号。这21003汉字包括CJK统一汉字区的20902个汉字。余下的101个汉字包括:增补汉字和部首80个,包括28个部首和52个汉字。GBK编码是从FE50-FE7E,FE80-FEA0。下图标注了Unicode编码。在制定GBK时,Unicode中还没有这些字符,所以使用了专用区的码位,这80个字符的码位是0xE815-0xE864。后来,Unicode将52个汉字收录到“CJK统一汉字扩充A”。28个部首中有14个部首被收录到“CJK部首补充区”。所以在上图中,这些字符都有两个Unicode编码。上图中淡黄色背景的8个部首被收录到“CJK统一汉字区”的Unicode4.1新增U+9FA6—U+9FBB域的8个GB18030用字。还有6个淡灰色背景的部首被Unicode收录到“CJK统一汉字扩充B”(网友slt指正)。
      

  4.   

    请注意,淡黄色和淡灰色的14个字符按照GB18030_2000还是应该映射到PUA码位。这14个字符与非PUA码位的映射关系只是网友找出来的,不是标准规定的。如果按照GBK编码,这80个字符应该全部映射到PUA码位。GB18030_2000将其中66个字符映射到了非PUA码位。不过在Windows中,简体中文区域的默认代码页还是GBK,不是GB18030。