用java如何统计给出的一段文章中的所有中文词组的数量?谢谢!

解决方案 »

  1.   

    用lucene怎么样?这个是一个全文检索的,可以支持中文分词
      

  2.   

    StringTokenizer类可以分析处字符串并将字符串分解成可被独立使用的单词(识别英文单词没有问题就是不知道能不能识别中文单词)这个类有两个常用的构造方法:
    StringTokenizer(String s)为字符串构造一个分析器,使用默认的分隔符集合,-->即空格符、换行符、回车符、Tab符;
    StringTokenizer(String s,String delim)为字符串构造一个分析器,参数dilim中的字符作为分隔符、另外可以调用countTokens()方法得到计数变量的值。
    楼主可以参考这个类看看
      

  3.   

    该类包含在 java.util包中。(jdk 1.5)
      

  4.   

    分词算法可以分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。
    分词词典是中文自动分词系统的一个基本组成部分。
    中文分词的词典一般分为三类:
    1、基于整词二分的分词词典
    2、基于TRIE索引树的分词词典机制
    3、基于逐字二分的分词词典机制
      

  5.   

    to: ericqxg007(一笑而过)
    建议你看看正则式,看了之后你以后可能都不太会去用StringTokenizer了
      

  6.   

    分词不是个简单的问题,现在也不知道有什么好的基于JAVA的中文分词工具。
      

  7.   

    www.nlp.org.cn上有一个开源项目,是中文分词的,还有java的调用方法