蜘蛛"(Spider)系统:也称为"机器人"(Robot),能自动从互联网上收集网页的数据并充实到本地数据库中,定期检查网页是否更新或链接是否失效,同时需要比较哪些是重复信息,互联网上互相转载的内容相当多,重复信息也很多,识别它们需要经过很多处理,另外变化无穷的动态网页还会对"蜘蛛"运行产生影响等等。而传统的数据搜索只是搜索自身数据库的内容,或者用户登记到数据库的信息,信息量太少。
搜索结果排列(检索模型):长久以来,如何将搜索结果按照相关性进行排序一直是困扰搜索引擎技术的一大难题,除了要分析网页的链接数以外,还要判断这些链接的质量,还要分析网站的结构,分析客户的点击行为,以及要识别大量的针对搜索引擎的"作弊"行为。现在还出现了用对等搜索理念进行搜索的新方法,要采用先进的数学理论模型,各搜索引擎公司也高度保密自己的相当复杂的算法。
海量数据处理:互联网上的网页已经有几百亿,每天增长的速度是相当惊人的,而且这些网页不停地更新内容、变换地址。
时间:传统的信息检索只要判断信息创建时间即可,然而要去搜集别人的服务器信息的话,并不是每台互联网服务器都会提供时间的,由于网页本身每天都在更新,时间标准也难以确定。
检索速度:当查询一个关键词的时候各大搜索引擎都差不多,但为了得到精确的检索结果通常会用两个以上关键词并附加逻辑条件的组合,这种情况下搜索引擎的速度得到了考验,由于采用的算法不同就会产生很大的差异。
Internet中文搜索引擎还要面对简繁体不同内码的问题,中西文不同的分词方法,以及中文混合搜索的复杂问题。