[求助]模糊查找文本
现有一个表myta ,内有一个字段为txt,记录为几千条文本语句,记录中有的完全重复,有的部分重复(即某二行或多行中有部分5个字以上的文字相同),如:“各单位必须依法设置会计帐簿,并保证其真实、完整” 、“各单位必须依法设置会计帐簿”、“会计工作和会计资料保证其真实、完整”。现想把重复的记录单独取出来,插入到一个新表中。
请问能否实现,谢谢!
说明,可以只考虑相同文字是连续重复的,即二条或以上记录中至少存在连续一起5个字以上相同
现有一个表myta ,内有一个字段为txt,记录为几千条文本语句,记录中有的完全重复,有的部分重复(即某二行或多行中有部分5个字以上的文字相同),如:“各单位必须依法设置会计帐簿,并保证其真实、完整” 、“各单位必须依法设置会计帐簿”、“会计工作和会计资料保证其真实、完整”。现想把重复的记录单独取出来,插入到一个新表中。
请问能否实现,谢谢!
说明,可以只考虑相同文字是连续重复的,即二条或以上记录中至少存在连续一起5个字以上相同
貌似很难
等楼下
顺便学习
再使用patindex正规表过式匹配。
语法
PATINDEX ( '%pattern%' , expression )
参数
pattern
一个文字字符串。可以使用通配符,但 pattern 之前和之后必须有 % 字符(搜索第一个或最后一个字符时除外)。pattern 是字符串数据类型类别的表达式。expression
一个表达式,通常为要在其中搜索指定模式的列,expression 为字符串数据类型类别。