用纯C语言开发了一个中文分词系统,速度大约1万字/1秒,大小100K(免费+开源+86万词库+操作示意图+测试用例)高速下载地址1: http://tieba.cangzhuo.com/tieba-%25B2%25D8%25D7%25BE-kz-217ac780f66411dd800065ed000065ed.html用法很简单,比如:你把中文分词系统解压后保存到D:\那你直接在 dos 窗口下输入:
d:\cfenci.exe
然后回车就可以了! 启动无需任何参数。目前系统在进行了大规模分词测试后的大致性能指标如下:
1000字以内的文章完全切分,用时间不超过 10毫秒!
5000字以内的文章完全切分,用时间不超过 500毫秒!
10000字以内的文章完全切分,用时间不超过 1秒!
本版本是简易版,分词准确率为 91.8%,系统稳定性为99.99%,中文分词系统符合工业化的标准!目前支持中英文混合切分词,各种全角,半角标点符号的过滤!
系统自带词库含有 86万多个中文词汇!
支持词汇的动态添加,新增词汇持久化保存!有需要提供动态链接库(dll)版本或Linux版本的,可以跟我联络!注1:词库文件是 cangzhuo.dat 请与分词程序 cfenci.exe 保存在同一目录下,另不得更改文件名,否则系统将无法加载词库!
注2:测试用例文件是 测试内容.txt 仅供参考,无任何其他作用!
注3:藏拙简易分词系统在遇到换行符的时候自动进行切分!所以在输入含有回车换行符的时候就认为输入完毕,开始切分!我打算等有 200人回复说好的时候就开源!大家要是喜欢就回复哈!
d:\cfenci.exe
然后回车就可以了! 启动无需任何参数。目前系统在进行了大规模分词测试后的大致性能指标如下:
1000字以内的文章完全切分,用时间不超过 10毫秒!
5000字以内的文章完全切分,用时间不超过 500毫秒!
10000字以内的文章完全切分,用时间不超过 1秒!
本版本是简易版,分词准确率为 91.8%,系统稳定性为99.99%,中文分词系统符合工业化的标准!目前支持中英文混合切分词,各种全角,半角标点符号的过滤!
系统自带词库含有 86万多个中文词汇!
支持词汇的动态添加,新增词汇持久化保存!有需要提供动态链接库(dll)版本或Linux版本的,可以跟我联络!注1:词库文件是 cangzhuo.dat 请与分词程序 cfenci.exe 保存在同一目录下,另不得更改文件名,否则系统将无法加载词库!
注2:测试用例文件是 测试内容.txt 仅供参考,无任何其他作用!
注3:藏拙简易分词系统在遇到换行符的时候自动进行切分!所以在输入含有回车换行符的时候就认为输入完毕,开始切分!我打算等有 200人回复说好的时候就开源!大家要是喜欢就回复哈!
解决方案 »
- 什么是“从元数据”啊
- 如何点击框架左页面一按钮绑定右页面listview?
- 都快疯了,帮帮忙,vs文件系统打不开文档
- web项目发布。一些项目文件无法发布到bin
- 用c#.net如何使用手写板做输入??包括在手写板上做的几何图!
- C#中怎麼得到IE狀態欄的信息啊?有知道的請進來教教我啊!!!
- 门户网站开发问题
- 当我向活动目录的单元中添加一个组时,"出现一个约束冲突"的错误提示.请问是什么原因?
- 新手求教~~~~~用cdo发送邮件;System.NullReferenceException: 未将对象引用设置到对象的实例
- 为什么var wsh=new ActiveXObject("WScript.Shell");不成功?(在线解决就送分)
- 列表框读取不出数据,奇怪
- Server.Transfer的问题
http://tieba.cangzhuo.com/fenci.rar稍后(2009年2月11日)将更新高速下载!
高速下载地址:
http://www.800ebay.com/fenci.rar 另补充说明:输出顺序没乱,只是排了个序而已!
放在下面供大伙参考众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很轻易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。我是一个学生,分词的结果是:我 是 一个 学生。