如何区分两个字节的unicode和四个字节的unicode?我看一些资料发现,UCS-2是用两个字节来表示代码点,其取值范围为 U+0000~U+FFFF。这个两个字节的unicode,好像没有空间留给区分四个字节unicode的空间。因为围为 U+0000~U+FFFF,都包含所有的字符空间,怎么会留有空间表示四个字节的unicode呢?并且,我用记事本保存一些偏僻字的时候,发现两个字节的unicode和四个字节unicode都在一起。
解决方案 »
- VC 6.0 mfc jmail
- Visual C++调用activemovie的问题
- 怎样提取表格中每个记录的字段值?
- 出现了非常怪异的“找不到vids:MSVC解压程序”的错误了,非常有挑战性,寻求高手!
- FlashGet是用什么工具开发,用什么方法开发的?
- 数据库中的数据太多了,但是我不得不把它们全部读出放在Treectrl中,一次读出的话太消耗内存了,有什么好办法呀
- 请问各位,WIN2000 SERVER能够让其自动登陆吗?这么设置?
- 汇编能不能设置调用规则,就像c里面的_stdcall,_cdecl等一样???
- 在线等待!谁能告诉我串口通讯中关于端口的地址?
- 问这个问题的时候我都不大好意思:关于数据存储方面的
- mfc 如何建立整个工程的全局变量
- 基于对话框的程序一个简单的总是
打开的记事本,选“另存为”,在“另存为”对话框中,看“编码”包含什么,Windows就支持什么。
是unicode,因为是我要把这个文件放到自己的输入法里,会注意到这个问题的。而我的输入法是基于unicode开发的,目前可以输入2万多个汉字,现在想升级它,让它可以输入7、8万个汉字,就发现了这些疑问。我很郁闷,为什么两个字节的unicode和四个字节的unicode是可以放到一起的?
我几天没来了。你查一下GB18030,上面有27533个汉字,支持中日韩三国文字。每个汉字的下面是4个字节的国标码,国标码的下面是2个字节的UNICODE码。任何“四个字节”的文字,都有它的两个字节的UNICODE编码。
你在记事本中,保存一个四个字节的“偏僻字”,查看这个文件的大小,究竟占几个字节。别忘了,UNICODE文本,有两个字节的文件头(0xFE、0xFF),还有文件结束符。
或者找个hex软件,把16进制数记下来发出来,比如81 32 e8 34等等。