utf-8是unicode的一个新的编码标准,其实unicode有过好几个标准.
我们知道一直以来使用的unicode字符内码都是16位,它实际上还不能把全世界的所有字符编在一个平面系统,比如中国的藏文等小语种,所以utf-8扩展到了32位,也就是说理论在utf-8中可容纳二的三十二次方个字符.UNICODE的思想就是想把所有的字符统一编码,实现一个统一的标准.big5、gb都是独立的字符集,这也叫做远东字符集,把它拿到德文版的WINDOWS上可能将会引起字符编码的冲突....
早期的WINDOWS默认的字符集是ANSI,Notepad.exe生成的纯文本就是这种字符集.
我们知道一直以来使用的unicode字符内码都是16位,它实际上还不能把全世界的所有字符编在一个平面系统,比如中国的藏文等小语种,所以utf-8扩展到了32位,也就是说理论在utf-8中可容纳二的三十二次方个字符.UNICODE的思想就是想把所有的字符统一编码,实现一个统一的标准.big5、gb都是独立的字符集,这也叫做远东字符集,把它拿到德文版的WINDOWS上可能将会引起字符编码的冲突....
早期的WINDOWS默认的字符集是ANSI,Notepad.exe生成的纯文本就是这种字符集.
解决方案 »
- 菜鸟问老鸟,求100-200之间的质数。稍微有点思路,望老鸟指点!!!
- 为什么不能用for循环。单个使用却可以
- 求一正则表达式
- java新建数据库sql server 2000
- 如何使SimpleDateFormat("MMM dd hh:mm")函数显示的月份不为中文????
- jdk1.40的replaceAll函数在1.30版本里面怎么写??
- 菜单的事件处理!
- 用java到底能实施些什么
- 如何让java调用外部程序,并且不等待外部程序执行完毕,直接返回?
- 简单问题! java中可以使用类似于 X + =10;的语句?
- class文件的运行问题。向各位大侠请求帮助
- 一个初级问题,但真难住我了,还请指教
在notepad.exe中输入的汉字以那种字符集编码存储的?
在Unicode中编码为 0080 - 07FF 的 UTF-8 中编码形式为: 110xxxxx 10xxxxxx
在Unicode中编码为 0000 - 007F 的 UTF-8 中编码形式为: 1110xxxx 10xxxxxx 10xxxxxx你可以去http://www.unicode.org 参考详细的标准。所以它们实际上就是一样的东西,UTF-8的编码目的是这样的:UNICODE的编码对于正常的拉丁语系来讲是成倍的浪费,而UTF-8使得一般的拉丁语系的文件不需转换就是符合UNICODE标准的了,而且不是拉丁语系的文字编码也很容易就可以定位在正确的边界上,大家可以注意,只需从每个字节前两位就可以分辨出它所属的位置。BIG5、GB2312等均属于独立的字符集,就象楼上的讲的一样。用NOTEPAD生成的纯文本文件如果就是拉丁(罗马)文字的话,可以说就是UTF-8的文件了!但要是含有中文(GB/BIG5)或日文等,就要具体看你用的是什么平台了,一般来说它是会存成本地字符集的,但在NT/2000内部是可以直接支持UNICODE的。