一个我认为很难的问题希望高手指点下

最近老师给了一个题目，内容是有一篇文章，要判断他是不是网上抄袭来的，就把这篇文章分成若干个句子，然后把这些句子放到百度上或者谷歌上去搜索，然后把返回的结果网页下载下来，再把这些页面的内容和整篇文章进行对比，通过一定的算法算出相似度。
但是这一下就遇到问题了，是老师想得太简单了吗还是最近太笨了点，如果把文章中的句子当成关键字放在百度上去搜，搜出来的很多都是与文章没多大关系的网页，因为我们放上去的是文章的内容，而百度把他当成的是关键字，去和其他网页的meta元素里面的东西进行对比，并不是和网页的内容进行对比得出的结果。
如果要和其他网页的内容进行对比再返回结果该怎么做呢？
是不是也要有个大型数据库的支持把很多网页放进去然后再去数据库里面找到内容相似的网页。这样的话不跟个搜索引擎似地了吗，有什么办法能让输入的文本和其他网页的内容进行对比而不是其他网页的关键字啊