小弟现在需要做这个东西,其实就是一片大概100多个单词的文章,在文章发表的时候,我需要提取文章中出现频率较高的词和词组做为Tag。
很多博客都实现了这个功能,但是我不知道这个算法应该如何去实现。那位指导一下。谢谢啦。
我现在处理的只是英文文章,不需要处理中文,所以应该会简单一点。
很多博客都实现了这个功能,但是我不知道这个算法应该如何去实现。那位指导一下。谢谢啦。
我现在处理的只是英文文章,不需要处理中文,所以应该会简单一点。
trim()把前后的空格删除
存入HashTable去除重复值,
key=word
value=出现次数.排序出value最高的几个
你也可以通过split("\\s+")截取后的数组,然后循环遍历通过"\b单词\b"的形式去正则匹配你的文章。
find多少次,就获取到多少的次数。