我我猜测:
google有一个后台扫描程序,按某种策略从1.0.0.1---254.254.254.254扫描主机的80端口;
如果开放,则获取html代码,分析程序对html进行语法分析,把title,href,meta之类的文本和连接放入数据库...
当然google的后台完全是分布式的,算法也非常复杂...
google有一个后台扫描程序,按某种策略从1.0.0.1---254.254.254.254扫描主机的80端口;
如果开放,则获取html代码,分析程序对html进行语法分析,把title,href,meta之类的文本和连接放入数据库...
当然google的后台完全是分布式的,算法也非常复杂...
sina好像就是基于google的搜索引擎
好象非常非常复杂,去问问国外的数学家估计会告诉你答案,搜索算法非常非常复杂。