最近我研究 全文搜索引擎的心得(二)我最近在做搜索引擎最后的一个工序的两个程序(任务调度中心和任务执行)我现在有 10太工作站,每台上面有 200万笔资料,电脑启动时就加载到内存中,由任务调度中心给他们分配工作任务,执行完毕后由任务中心将结果返回客户端 每个任务调度中心下面可以管理 254个工作站,每个工作站分配  200万笔数据信息,这样一来就可以满足更大数据量的处理了, 同时工作站的数据一开始就在内存中,所以处理起来速度会非常快,我想也许这是最好的方法了, baidu 或 google 也不可能有比这更好的办法了。(也许你会说这家伙太狂了),是的,确实有点。(在这些工作站里面会考虑专门给交费客户专用的工作站,专门用于新闻信息的工作站等划分)

解决方案 »

  1.   

    问题是baidu、google的数据是动态的,是随时更新的。
    不是象你那样的启动就放到内存中。
      

  2.   

    问题是baidu、google的数据是动态的,是随时更新的。
    不是象你那样的启动就放到内存中。你怎么知道我不是随时更新的?我一个工作站群是死的,第二个第三个工作站群难道也是死的吗?哈哈
      

  3.   

    google的big什么的就是类似这种结构。
      

  4.   

    今天有好几个人都要求我去baidu的,还说我要是没有去baidu将是一种遗憾:) 哈哈
      

  5.   

    google和baidu用的网格技术,不要用通常的思路考虑搜索