页面上都有这样一句:
<?xml version='1.0' encoding='GB2312'?>根据它就可以知道该页面的编码了

解决方案 »

  1.   

    楼上的办法直接。
    如果得不到encoding,只根据字串判断的话,请到这里:
    http://jchardet.sourceforge.net/
      

  2.   

    XML:查找字符串“encoding=XXX“,取出相应字串无视大小写匹配。html:<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />     “charset=XXX”类似
      

  3.   

    问题是根据
    html:<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />   
    查找出来的不一定是正确的
    并且,这个标签也不是所有的网页都有的试过这个了
    http://jchardet.sourceforge.net/
    准确度不够那个包在http://jchardet.sourceforge.net/