如何判断出字符集？

http://expert.csdn.net/Expert/topic/989/989888.xml?temp=8.301944E-02

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

在JAVA源文件-->JAVAC-->Class-->Java-->getBytes()-->new String()-->显示的过程中，每一步都有编码的转换过程，这个过程总是存在的，只是有的时候用默认的参数进行。
HelloWorld.java:
------------------------
public class HelloWorld
{
public static void main(String[] argv){
    try{
System.out.println("中文");//1
System.out.println("中文".getBytes());//2
System.out.println("中文".getBytes("GB2312"));//3
System.out.println("中文".getBytes("ISO8859_1"));//4 System.out.println(new String("中文".getBytes()));//5
System.out.println(new String("中文".getBytes(),"GB2312"));//6
System.out.println(new String("中文".getBytes(),"ISO8859_1"));//7 System.out.println(new String("中文".getBytes("GB2312")));//8
System.out.println(new String("中文".getBytes("GB2312"),"GB2312"));//9
System.out.println(new  String("中文".getBytes("GB2312"),"ISO8859_1"));//10 System.out.println(new String("中文".getBytes("ISO8859_1")));//11
System.out.println(new  String("中文".getBytes("ISO8859_1"),"GB2312"));//12
System.out.println(new  String("中文".getBytes("ISO8859_1"),"ISO8859_1"));//13
}
catch(Exception e){
e.printStackTrace();
}
  }
} 为了方便起见，在每个转换的后面加了操作序号，分别为1,2,...,13。需要说明的是，JAVAC是以系统默认编码读入源文件，然后按UNICODE进行编码的。在JAVA运行的时候，JAVA也是采用UNICODE编码的，并且默认输入和输出的都是操作系统的默认编码，也就是说在new String(bytes[,encode])中，系统认为输入的是编码为encode的字节流，换句话说，如果按encode来翻译bytes才能得到正确的结果，这个结果最后要在JAVA中保存，它还是要从这个encode转换成Unicode，也就是说有bytes-->encode字符-->Unicode字符的转换；而在String.getBytes([encode])中，系统要做一个Unicode字符-->encode字符-->bytes的转换。在这个例子中，除那个英文窗口编码的时候除外，其实情形下默认编码都是GBK（在本例中，我们暂且把GBK和GB2312等同看待）。由于在未指明在上面的两个用代码实现的转换中，如果未指定encode，系统将采用默认的编码（这里为GBK），我们认为上面的5,6,7和8,9,10是一样的，8和9、11和12也是一样的，所以我们在讨论中将只讨论1,9,10,12,13。其中的2,3,4只是用于测试，不在我们的讨论范围之内。下面我们来跟踪程序中的“中”字的转换历程，我们先说在中文窗口下作的编译和运行过程，注意在下面的字母下标中，我有意识地使用了一些数字，以表示相同，相异还是相关
我们先以上面的13个代码段中的的代码9为例： 01： C1 HelloWorld.java C1泛指一个GBK字符
02： U1 JAVAC读取 U1泛指一个Unicode字符
03： C1 getBytes()第一步 JAVA先和操作系统交流
04： B1,B2 getBytes()第二步然后返回字节数组
05： C1 new String()第一步 JAVA先和操作系统交流
06： U1 new String()第二步然后返回字符
07： C1 println(String) 能显示“中”字，内容和原来的相同然后再以代码段10为例，我们注意到只是：
01： C1 HelloWorld.java C1泛指一个GBK字符
02： U1 JAVAC读取 U1泛指一个Unicode字符
03： C1 getBytes()第一步 JAVA先和操作系统交流
04： B1,B2 getBytes()第二步然后返回字节数组
05： C3,C4 new String()第一步 JAVA先和操作系统交流，这时解析错误
06： U5,U6 new String()第二步然后返回字符
07： C3,C4 println(String) 由于中字给分成了两半，在ISO8859_1中刚好也没有字符
http://www.javaresearch.org/article/showarticle.jsp?column=106&thread=2425
http://www.cn-java.com/target/news.php?news_id=2264