在最近的一个项目中,要生成文章的摘要。中间过程中有很多字符串处理过程,比如文件格式转换,编码转换、截断字符串等等。在这些操作中难免会产生异常的字符,比如将一个汉字截断成两个,或者其他情况产生了类似于乱码的字符,那么如何清理掉这些非法字符呢?我的程序是用的UTF-8编码,所有的内容也都是UTF-8编码格式。