有一段文本,我要把它不重复的字与词都提取出来,即去掉重复词语。
比如有如下文本内容:
这是文本内容一,认真看
这是文本内容二,简单看
这是文本内容三,深入看处理后,我要得到如下的文本:
这是文本内容一二三,认真简单深入看注:标点符号也可以去掉,词语规定为两个字吧,三个字以上的忽略。感觉有点不好想,也不知道这能否实现?请高人指教。
本人现正在研究全文搜索,这个是突发感想,不知道这可否实现呢?
比如有如下文本内容:
这是文本内容一,认真看
这是文本内容二,简单看
这是文本内容三,深入看处理后,我要得到如下的文本:
这是文本内容一二三,认真简单深入看注:标点符号也可以去掉,词语规定为两个字吧,三个字以上的忽略。感觉有点不好想,也不知道这能否实现?请高人指教。
本人现正在研究全文搜索,这个是突发感想,不知道这可否实现呢?
import java.io.BufferedReader;
import java.io.FileReader;
import java.io.IOException;
import java.util.HashSet;
import java.util.Set;
public class Test {
public static void main(String args[]) throws IOException {
BufferedReader br=new BufferedReader(new FileReader("f:\\test.txt"));
String str=null;
Set<String> set=new HashSet<String>();
while((str=br.readLine())!=null){
String[] array=str.split("(?<!^)(?!\\s)");
for(String key:array)
set.add(key);
}
System.out.println(set);
br.close(); }
}测试txt:
这是文本内容一,认真看
这是文本内容二,简单看
这是文本内容三,深入看