用java如何统计给出的一段文章中的所有中文词组的数量? 用java如何统计给出的一段文章中的所有中文词组的数量?谢谢! 解决方案 » 免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货 用lucene怎么样?这个是一个全文检索的,可以支持中文分词 StringTokenizer类可以分析处字符串并将字符串分解成可被独立使用的单词(识别英文单词没有问题就是不知道能不能识别中文单词)这个类有两个常用的构造方法:StringTokenizer(String s)为字符串构造一个分析器,使用默认的分隔符集合,-->即空格符、换行符、回车符、Tab符;StringTokenizer(String s,String delim)为字符串构造一个分析器,参数dilim中的字符作为分隔符、另外可以调用countTokens()方法得到计数变量的值。楼主可以参考这个类看看 该类包含在 java.util包中。(jdk 1.5) 分词算法可以分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。分词词典是中文自动分词系统的一个基本组成部分。中文分词的词典一般分为三类:1、基于整词二分的分词词典2、基于TRIE索引树的分词词典机制3、基于逐字二分的分词词典机制 to: ericqxg007(一笑而过)建议你看看正则式,看了之后你以后可能都不太会去用StringTokenizer了 分词不是个简单的问题,现在也不知道有什么好的基于JAVA的中文分词工具。 www.nlp.org.cn上有一个开源项目,是中文分词的,还有java的调用方法 为什么在同一个包里面对一个public 类编译时提示找不到符号 log4j怎么实现给每个任务记录日志 如何使后放上的控件位于前边已放上的控件之上? 如何来检测用户有一段时间没有动键盘鼠标了? +操作符的问题----小小疑问~ 请教--汉字编码! java多线程的疑问 一个小程序输出问题请教 请问谁有开发IDE的经验?熟悉JEdit开源项目吗? 如何使这个JTextField获得焦点? java application形式操作MySQL4.0.21数据库,如何能节约资源,提高效率? 请问,JBuilder下添加的组件为何总是变得很大?
StringTokenizer(String s)为字符串构造一个分析器,使用默认的分隔符集合,-->即空格符、换行符、回车符、Tab符;
StringTokenizer(String s,String delim)为字符串构造一个分析器,参数dilim中的字符作为分隔符、另外可以调用countTokens()方法得到计数变量的值。
楼主可以参考这个类看看
分词词典是中文自动分词系统的一个基本组成部分。
中文分词的词典一般分为三类:
1、基于整词二分的分词词典
2、基于TRIE索引树的分词词典机制
3、基于逐字二分的分词词典机制
建议你看看正则式,看了之后你以后可能都不太会去用StringTokenizer了