请问各位大人:如何把文本中的非中文字符过滤掉 我对中文问题一直都比较头大,现在对一个文档集进行处理,我想先把非中文字符全部过滤掉。开始感觉不难,但想具体做时却没招了,在此请教各位高手。不胜感激 解决方案 » 免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货 刚才在别的贴子里发现一个,人家是这么写的,不过我没测试,你看看行不行。 回复人: interhanchi(Stallman'fans) ( ) 信誉:105 2005-10-27 18:49:00 得分: 0 import java.util.regex.*;public class TestString { /** * @param args */ public static void main(String[] args) { // TODO Auto-generated method stub String s= "sfa10你cc"; Pattern pa = Pattern.compile("[\u4e00-\u9fa5]+"); Matcher ma = pa.matcher(s); while(ma.find()){ System.out.print(ma.group()); } }} Top 回复人: believefym(暮色,miss,迷失,miss) ( ) 信誉:100 2005-10-27 18:59:00 得分: 0 只允许汉字的话改成Pattern pa = Pattern.compile("^[\u4e00-\u9fa5]*$");//0个汉字应该也行的吧Matcher m = pa.macther("我们")return m.find();//true为全部汉字,否则是false Top System.out.println("asd我们asd分k".replaceAll("[^\u4E00-\u9FA0]","")); 十分感谢各位的帮助和关注,特别是lcwlyl(网络幽灵)我以前没怎么关注过正则表达式,现在看来得好好学学了。刚才我套用了上面的程序,循环处理了几个文本文件,没什么问题。 当然,还是如lcwlyl说的,希望还有别的方法,望大家不吝赐教 StreamTokenizer也能处理?楼上的给点代码看看 新人求帮助!谢谢了啊 数据类型的计算问题 一个小程序..别人问.没空写..大虾们热下身吧.解决即结贴 弄个封包检测,有说明怎么弄.可是我不会. 关于超链接的字符串替换... 用JAVA实现检测邮件箱的新邮件,如果附件有文件,把它读出来的程序,希望各位高手给D意见??? 关于目录分隔符的问题 哎!郁闷,HelloWorldApp的问题!(online waiting) 新手请教:LINUX下JDK的问题 请教一个例外类的问题 心力憔悴跪求:如何遍历TreeMap? java io方面
回复人: interhanchi(Stallman'fans) ( ) 信誉:105 2005-10-27 18:49:00 得分: 0
import java.util.regex.*;
public class TestString { /**
* @param args
*/
public static void main(String[] args) {
// TODO Auto-generated method stub
String s= "sfa10你cc";
Pattern pa = Pattern.compile("[\u4e00-\u9fa5]+");
Matcher ma = pa.matcher(s);
while(ma.find()){
System.out.print(ma.group());
}
}}
Top
回复人: believefym(暮色,miss,迷失,miss) ( ) 信誉:100 2005-10-27 18:59:00 得分: 0
只允许汉字的话改成
Pattern pa = Pattern.compile("^[\u4e00-\u9fa5]*$");//0个汉字应该也行的吧
Matcher m = pa.macther("我们")
return m.find();//true为全部汉字,否则是false
Top
我以前没怎么关注过正则表达式,现在看来得好好学学了。
刚才我套用了上面的程序,循环处理了几个文本文件,没什么问题。
楼上的给点代码看看