有一段文本,我要把它不重复的字与词都提取出来,即去掉重复词语。
比如有如下文本内容:
这是文本内容一,认真看
这是文本内容二,简单看
这是文本内容三,深入看处理后,我要得到如下的文本:
这是文本内容一二三,认真简单深入看注:标点符号也可以去掉,词语规定为两个字吧,三个字以上的忽略。感觉有点不好想,也不知道这能否实现?请高人指教。
本人现正在研究全文搜索,这个是突发感想,不知道这可否实现呢?

解决方案 »

  1.   


    import java.io.BufferedReader;
    import java.io.FileReader;
    import java.io.IOException;
    import java.util.HashSet;
    import java.util.Set;
    public class Test {
    public static void main(String args[]) throws IOException {
     BufferedReader br=new  BufferedReader(new FileReader("f:\\test.txt"));
     String str=null;
     Set<String> set=new HashSet<String>();
     while((str=br.readLine())!=null){
     String[] array=str.split("(?<!^)(?!\\s)");
     for(String key:array)
     set.add(key);
     }
     System.out.println(set);
     br.close(); }
    }测试txt:
    这是文本内容一,认真看
    这是文本内容二,简单看
    这是文本内容三,深入看
      

  2.   

    先分词吧,中科院分词ICTCLAS~