可以采用编辑距离的方法来判断,不过蛮复杂的,效率不高有没有算法比较高效的方式来判断两句中文句子的相似程度?
PS:我自己设计了一种简单算法,但是效果不是很理想
把中句子按相邻两字拆分,英文字母和符号独立拆分
比如“在  VC/MFC 图形处理/算法  社区发表新贴子”这句话就拆成
“在”,“VC/MFC”,“图形”,“形处”,“处理”,“/”,"算法","社区","区发","发表","表新","新贴","贴子"这12个词,然后用这些词和另一句子匹配
将这12个词中在新句子中匹配的数量和词的数量的比作为相似程度