最近在研究搜索引擎算法涉及到一个搜索引擎判断文章伪原创技术,我现在想不通的是搜索引擎现在已经搜索了好几百亿个网页,而且现在每天还搜索新的页面,不知道他们是如何判断新文章的伪原创的,如果是把新收录的文件和已经存在数据库当中的好几百亿文章对比判断的话([color=#FF0000]当然这里不去考虑伪原创算法效率问题),那也得好长时间啊,何况内容长度一般不会少于300个汉字吧?如果把所有收录文章的内容都生成md5去比较也得好长时间啊?如果这样的话搜索引擎根本完成不了现有的工作量,这也是我非常迷惑不解的地方,有新思路新想法或者了解这块的朋友欢迎解开我的困惑,谢谢了[/color]