我在网上搜了一圈,源根本没有,做法描述都很少,就有几个产品的广告,我只是想简单做一下,两篇WORD文档的相似度比较。不知道大家有什么好的办法没有,我现在的想法就是:1。中文分词,将文档分成若干词语,然后对这些词语做词频统计,然后根据词频统计结果得出结论,比如:A,B,C三个词,甲文档出现20,50,70次,乙文档出现19,51,72次,那么我基本可以得出两篇文档雷同的结论。2。第二种就是想采用最大最长匹配算法,先读甲的一个字,到乙里面找,如果有的话,甲接着读一个字,然后到乙中找这两个字,这样如果有很多很长内容一样的那么就可以得出两篇文档雷同的结论.现在不知道如何下手了,希望大家能给我点建议,谢谢大家