用java如何统计给出的一段文章中的所有中文词组的数量？

用java如何统计给出的一段文章中的所有中文词组的数量？谢谢！

用lucene怎么样？这个是一个全文检索的，可以支持中文分词
StringTokenizer类可以分析处字符串并将字符串分解成可被独立使用的单词（识别英文单词没有问题就是不知道能不能识别中文单词）这个类有两个常用的构造方法：
StringTokenizer（String s）为字符串构造一个分析器，使用默认的分隔符集合，－－>即空格符、换行符、回车符、Tab符；
StringTokenizer（String s，String delim）为字符串构造一个分析器，参数dilim中的字符作为分隔符、另外可以调用countTokens（）方法得到计数变量的值。
楼主可以参考这个类看看
该类包含在 java.util包中。（jdk 1.5)
分词算法可以分为三大类：基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。
分词词典是中文自动分词系统的一个基本组成部分。
中文分词的词典一般分为三类：
1、基于整词二分的分词词典
2、基于TRIE索引树的分词词典机制
3、基于逐字二分的分词词典机制
to: ericqxg007(一笑而过)
建议你看看正则式，看了之后你以后可能都不太会去用StringTokenizer了
分词不是个简单的问题，现在也不知道有什么好的基于JAVA的中文分词工具。
www.nlp.org.cn上有一个开源项目，是中文分词的，还有java的调用方法