璧疯瘔鐘?.doc
鎺堟潈濮旀墭涔﹁瘔璁兼尟鐢?doc
娉曞畾浠h〃浜鸿韩浠借瘉鏄庝功(1).doc想这种乱码。如何判断的出来。我只要判断出来就行了。

解决方案 »

  1.   

    用汉字的字频来判断:
    http://www.360doc.com/content/09/0822/09/30500_5135228.shtml
    如果字里面的大部分字都是低频字的话那可能就是乱码。
    如果是英文的话直接判断aeiou的频率应该就行了。
    准确率应该无法达到100%。不过通过大量乱码进行测试并添加一些其他的规则应该能将准确率尽量提高一些。貌似统计词频是破译密码的一个步骤。
      

  2.   

    我刚才又试了一个方法。不过实现这个可能会更困难一些,但是弄好了的话准确率应该比上面那个更高。
    这种方法应该只对汉字有效,所以还是有点局限的。
    首先将字符串通过Google翻译从中文翻译成英文,然后再将结果从英文翻译成中文。如果原来的字符串不是乱码的话,最终的中文和原来的字符串肯定会非常相似,但是如果是乱码的话,结果会非常不同。
    Google翻译的API好像要钱,好像只能抓取网页了。
    这种方法主要是判断字符串中是否具有汉语应该具有的模式,而自动翻译软件绝对是提取模式的比较好的工具。