1、由于描述简单起见,那个贴中我以gbk编码为例。
2、目前可以在网上找到的编码标准是page936,即gbk-unicode的对照表。而utf-8与unicode间存在着唯一的转换公式
3、能直接使用utf-8的编辑器并不广泛,况且gbk编码的文档使用极为普遍。
4、简繁读照表可从网上找到《简化字总表》,当然也是gbk编码的。
5、正则表达式 /[\u4E00-\u9FA5]./ 只在支持unicode编码的js、vbs中使用,php并不支持宽字符
6、utf-8编码有1-4个字节组成,并不如你所说“utf8编码以三字节来表示中文汉字…………”,ˉ、ˇ就只有2字节。注意中文符号是不应忽略的
7、识别utf-8编码字符的正则表达式应为 "/[\xf0-\xf7][\x80-\xbf]{3}|[\xe0-\xef][\x80-\xbf]{2}|[\xc2-\xdf][\x80-\xbf]|[\x01-\x7f]/
8、这个表达式你可以从unicode——utf-8转换的算法中推出根据上述理由,可见并不存在“唠叨老兄的一个小错误”