最近老师给了一个题目,内容是 有一篇文章 ,要判断他是不是网上抄袭来的,就把这篇文章分成若干个句子,然后把这些句子放到百度上或者谷歌上去搜索,然后把返回的结果网页下载下来,再把这些页面的内容和整篇文章进行对比,通过一定的算法算出相似度。
但是这一下就遇到问题了,是老师想得太简单了吗 还是最近太笨了点,如果把文章中的句子当成关键字放在百度上去搜,搜出来的很多都是与文章没多大关系的网页,因为我们放上去的是文章的内容,而百度把他当成的是关键字,去和其他网页的meta元素里面的东西进行对比,并不是和网页的内容进行对比得出的结果。
如果要和其他网页的内容进行对比 再返回结果该怎么做呢? 
是不是也要有个大型数据库的支持 把很多网页放进去 然后再去数据库里面找到内容相似的网页。这样的话不跟个搜索引擎似地了吗,有什么办法能让输入的文本和其他网页的内容进行对比 而不是其他网页的关键字啊

解决方案 »

  1.   

    谷歌不清楚,百度的话,可以用高级搜索的语法
    http://www.baidu.com/search/page_feature.html#09
    百度的话,用双引号去把文章的句子括起来,
    然后查找其中一句。把网页的地址都保存进一个集合
    然后查找另一句,在集合中查找有没有相同的网址,
    之后再接着查找第3句,再找。
    然后就这样一直找,最后集合中如果有网址的话,就打印出来
    然后你就手动上那个网址去看就可以了