请教:
     我想从一句话里提取出多个字符串,但是不知道怎么来分辨取出的字符串就是一个词组,有这样牛逼的算法吗?急!!!     比如:“中国工程院院士增选标准中增加品行端正内容”这句话,我想提取三个长度在5以内的字符串,怎么保证每个字符串就是一个没有语法错误的词?
   谢谢!!!

解决方案 »

  1.   

    嗯,中文分词技术,baidu做的不错。
    可以看看 Lucene.Net
      

  2.   

    我们可以看看
    这个http://www.baidu.com/s?wd=%D6%D0%B9%FA%B9%A4%B3%CC%D4%BA%D4%BA%CA%BF%D4%F6%D1%A1%B1%EA%D7%BC%D6%D0%D4%F6%BC%D3%C6%B7%D0%D0%B6%CB%D5%FD%C4%DA%C8%DD你会发现 后面的记录他就是按照分词中的 比如:
    ,品行端正
    ,内容
    然后用一个临时表或者自定义函数 或者物理索引来保存匹配强度,根据需求 排序来排序
    ,可以说百度的 全文索引做的 相当出错,我 也只能猜测
    来分的
    其他好几个都是完全匹配
      

  3.   

    如果你研究过T-SQL的话 ,其实发现分词 并不是最难得
    搜索引擎中,踩 连接才是最难的...匹配强度 那些都是公司自己定义的