我我猜测:
google有一个后台扫描程序,按某种策略从1.0.0.1---254.254.254.254扫描主机的80端口;
如果开放,则获取html代码,分析程序对html进行语法分析,把title,href,meta之类的文本和连接放入数据库...
当然google的后台完全是分布式的,算法也非常复杂...

解决方案 »

  1.   

    关于google的搜索算法,我记得程序员2002年合订本和03年4期还是5期上有介绍,
    sina好像就是基于google的搜索引擎
      

  2.   

    我听说google对每次搜索初始化一个含有50亿个参数的方程组,计算后就得到了搜索列表
    好象非常非常复杂,去问问国外的数学家估计会告诉你答案,搜索算法非常非常复杂。
      

  3.   

    回去查程序员吧,上面有google的作者在97年国际互联网大会上的论文