请教：C# 截词算法 - 调试易

请教：C# 截词算法

请教：
我想从一句话里提取出多个字符串，但是不知道怎么来分辨取出的字符串就是一个词组，有这样牛逼的算法吗？急！！！比如：“中国工程院院士增选标准中增加品行端正内容”这句话，我想提取三个长度在5以内的字符串，怎么保证每个字符串就是一个没有语法错误的词？
谢谢！！！

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

嗯，中文分词技术，baidu做的不错。
可以看看 Lucene.Net
我们可以看看
这个http://www.baidu.com/s?wd=%D6%D0%B9%FA%B9%A4%B3%CC%D4%BA%D4%BA%CA%BF%D4%F6%D1%A1%B1%EA%D7%BC%D6%D0%D4%F6%BC%D3%C6%B7%D0%D0%B6%CB%D5%FD%C4%DA%C8%DD你会发现后面的记录他就是按照分词中的比如:
,品行端正
,内容
然后用一个临时表或者自定义函数或者物理索引来保存匹配强度,根据需求排序来排序
,可以说百度的全文索引做的相当出错,我也只能猜测
来分的
其他好几个都是完全匹配
如果你研究过T-SQL的话 ,其实发现分词并不是最难得
搜索引擎中,踩连接才是最难的...匹配强度那些都是公司自己定义的