[求助]模糊查找文本
现有一个表myta  ,内有一个字段为txt,记录为几千条文本语句,记录中有的完全重复,有的部分重复(即某二行或多行中有部分5个字以上的文字相同),如:“各单位必须依法设置会计帐簿,并保证其真实、完整” 、“各单位必须依法设置会计帐簿”、“会计工作和会计资料保证其真实、完整”。现想把重复的记录单独取出来,插入到一个新表中。
请问能否实现,谢谢!
说明,可以只考虑相同文字是连续重复的,即二条或以上记录中至少存在连续一起5个字以上相同

解决方案 »

  1.   

    用SQL做相似度查询
    貌似很难
    等楼下
    顺便学习
      

  2.   

    楼主可以去看看google baidu 他们都不能很好的解决分词问题.百度这点还算用心,自己在不断研发.google索性就用别人的分词技术,这就是中文的特点,英文就相对简单多
      

  3.   

     首先 分行,把每行插入一个临时表中,
    再使用patindex正规表过式匹配。
    语法
     
    PATINDEX ( '%pattern%' , expression )
     参数
    pattern 
    一个文字字符串。可以使用通配符,但 pattern 之前和之后必须有 % 字符(搜索第一个或最后一个字符时除外)。pattern 是字符串数据类型类别的表达式。expression 
    一个表达式,通常为要在其中搜索指定模式的列,expression 为字符串数据类型类别。