在最近的一个项目中,要生成文章的摘要。中间过程中有很多字符串处理过程,比如文件格式转换,编码转换、截断字符串等等。在这些操作中难免会产生异常的字符,比如将一个汉字截断成两个,或者其他情况产生了类似于乱码的字符,那么如何清理掉这些非法字符呢?我的程序是用的UTF-8编码,所有的内容也都是UTF-8编码格式。
解决方案 »
- 一个奇怪的问题
- 谁知道哪有免费的FTP,用来测试Discuz论坛
- 求助php,对特定网页进行在线编辑(急急急)
- 链接样式表改变表格背景问题
- 求一正则,英文字母加数字且在6-16个字符以内
- 怪事了,帮帮我吧,MySQL 4.1.18中不能写入“禤”这个字!!!
- APACHE下目录访问的问题
- 紧急求救:自动刷新页面,如何能让页面不闪。只是表里的数据动。(在线等待)
- 连接mssql数据库错误,help
- 用户登录信息放在session改用redis存储,登录的用户经常掉线,有谁遇到过
- form post 如何替换原来文本的值?
- 网站换了空间后,其他页面可以打开浏览,后台页面打不开了,怎么解决啊?在原先的空间中时是可以的。
截取部分是不可控的,由sphinx根据关键字生成的,doc转txt的时候也会产生一些异常字符的