看看这个,也许能知道你想要的,是google 的数据处理源码 及 Readme
http://research.google.com/contest/prog-contest-src.tar.gz(要用Linux……)

解决方案 »

  1.   

    赢利先锋搜索之王 Google总部探秘  
     
    2002/01/14-03:01  桂亮  
     
     
    列位,我现在就在大名鼎鼎的搜索引擎Google的总部里!现在,就请大家跟着我到处参观一下吧!     走进Google   众所周知,Google是目前世界上为数不多的几个尚能赢利的网络公司之一。它的搜索速度快得令人咋舌,搜索结果又是如此精确,每天世界上都有数百万人在用它来查找自己想要的资料。因此我一直都想到他们公司去,看看他们到底有什么神奇的魔法才做到这些。机会终于来啦!日前笔者终于有机会实现了自己的这个心愿。  
      列位,我现在就在大名鼎鼎的搜索引擎Google的总部里!现在,就请大家跟着我到处参观一下吧!一走进Goole公司的厦门上,迎面就是一架体积庞大的钢琴,看来他们还是蛮讲究文化品位的。   Google总部的心脏部分-电脑工作间大约有二十来名员工坐在各自的电脑前紧张地忙碌着,他们身上穿着黑衣黑裤头戴黑帽。我感到有些奇怪,因为先前听说这里总共有280名职工,怎么只剩了这么几个人呢?一打听才知道,其他200多号人那天都集体看电影去了--看的是《哈利-波特和魔法石》。   在Google现任CEO的埃里克-斯克赫米德特的陪同下,我在公司里到处转悠。斯克赫米德特今年46岁,他本来是SUN微系统的首席技术官,后来又跳槽到了Novell当CEO。2001年8月他又接着跳到了Google。“跳槽是一个可以不断听到恭维话的好办法。”他自嘲地说。   Google的现在   埃里克-斯克赫米德特介绍说,Google的搜索引擎2001年被《雅虎网络生活》杂志评为全世界功能最强大的搜索引擎。   Google每天都要为来自全球的因特网用户们总共约1.5亿次的搜索请求提供服务。从大约1年多前,Google就成了诸如雅虎和Netscape之类许多著名大型网站提供的搜索引擎的幕后英雄。在过去的1年中,Google一直处于赢利状态,其中一半的收入是来自广告,另一半的收入就是为其他网站提供搜索引擎服务。  
      

  2.   

    闪电速度之谜 
    Google闪电般的速度一直以来都是最为人们津津乐道也是最为迷惑不解的事情。事实上以前我就一直在纳闷Google怎么可能查得那么快——通常别的搜索引擎要花十几秒才能查到的结果,他们一般只用不到一秒的时间就弄出来了,愣像是他们事先就知道我要查什么而把答案先准备好放在那里似的。 我把这个问题向Google的负责人乌斯·霍尔热提了出来。他是参观那天白班的主管,身穿一件白色的高尔夫衬衫、牛仔裤和亮红色的短袜。他比比画画了好半天,给我讲解如何把一条信息分配给100台计算机来同时完成,虽然其中好多专业术语让我听得迷迷糊糊,但最终我还是有了个大致的概念。原来,第一条搜索请求传到Google总部之后,都会将这条搜索指令下达到许多不同的计算机让它们同时进行搜索工作,这样的话就比一台计算机单个搜索快了许多。在一般情况下,会有多少台计算机同时参与搜索工作呢?一说可就把吓了一跳——大约1200台! 参观了整个下午,我打算离开了。我走的时候,斯克赫米德特送给我一个纪念品。很多公司送给我的一般都是画着公司商标的T恤衫或棒球帽子什么的,但是他送我的礼物我还是第一次收到——两条Google标志的拳击短裤,Google不愧是Google。
      

  3.   

    好象google总查询时间只有0.几秒,传输到分机上都要这么久的
      

  4.   

    初阶搜索 在上例子中,你已经知道了最基本的搜索,即查询包含单个关键字的信息。现在,进一步探讨多个关键字以及关键字间不同逻辑关系的查询。 6.1,搜索结果要求包含两个及两个以上关键字 一般搜索引擎需要在多个关键字之间加上“+”,而GOOGLE无需用明文的“+”来表示逻辑“与”操作,只要空格就可以了。 示例:搜索所有包含关键词“易筋经”和“吸星大法”的中文网页 
    搜索:“易筋经 吸星大法” 
    结果:已搜索有关易筋经 吸星大法的中文(简体)网页。 共约有774项查询结果,这是第1-10项 。 搜索用时0.24秒。 注意:文章中搜索语法外面的引号仅起引用作用,不能带入搜索栏内。 6.2,搜索结果要求不包含某些特定信息 GOOGLE用减号“-”表示逻辑“非”操作。 示例:搜索所有包含“易筋经”而不含“吸星大法”的中文网页 
    搜索:“易筋经 -吸星大法” 
    结果:已搜索有关易筋经 -吸星大法的中文(简体)网页。 共约有5,150项查询结果,这是第1-10项 。 搜索用时0.40秒。 注意:这里的“+”和“-”号,是英文字符,而不是中文字符的“+”和“-”。此外,操作符与作用的关键字之间,不能有空格。比如“易筋经 - 吸星大法”,搜索引擎将视为关键字为易筋经和吸星大法的逻辑“与”操作,中间的“-”被忽略。 6.3,搜索结果至少包含多个关键字中的任意一个 GOOGLE用大写的“OR”表示逻辑“或”操作。假定你是布兰妮和批头士的歌迷,现在要查找所有关于布兰妮和批头士的中文网页。 示例:搜索包含布兰妮“Britney”或者披头士“Beatles”、或者两者均有的中文网页。 
    搜索:“Britney OR Beatles OR 布兰妮 OR 批头士” 
    结果:已搜索有关Britney OR Beatles OR 布兰妮 OR 批头士的中文(简体)网页。 共约有31,300项查询结果,这是第1-10项 。 注意:小写的“or”,在查询的时候将被忽略;这样上述的操作实际上变成了一次“与”查询。 6.4,“+”、“-”和“OR”的混合查询 混合查询涉及到逻辑操作符的顺序问题。一般而言,搜索引擎按照从左往右的顺序读取操作符号。如果只涉及“与”操作和“非”操作,则不会产生顺序问题,搜索结果数量和关键字顺序无关,不过,具体搜索的结果顺序会视关键字的顺序而定。单纯的“或”操作也同样道理。但是,如果“或”查询和其他两种查询混合在一起,问题就复杂了。现在我们做这样的查询:“所有关于Britney或者Beatles、但是没有Madonna相关信息的中文网页”。 搜索:“Britney OR Beatles -Madonna” 
    结果:已搜索有关Britney OR Beatles -Madonna的中文(简体)网页。 共约有16,200项查询结果,这是第1-10项 。 搜索用时0.23秒。 搜索:“-Madonna Britney OR Beatles” 
    结果:已搜索有关-Madonna Britney OR Beatles的中文(简体)网页。 共约有16,200项查询结果,这是第1-10项 。 搜索用时0.13秒。 搜索:“Britney -Madonna OR Beatles” 
    结果:找不到和您的查询-Britney -Madonna OR Beatles-相符的网页 搜索:“Britney OR -Madonna Beatles” 
    结果:找不到和您的查询-Britney OR -Madonna Beatles -相符的网页 可见,“或”操作的前后两个关键字必须是默认的“与”查询,否则,搜索引擎将无法完成搜索。 6.5,用“+”和“-”减少冗余信息 通常情况下,用一个关键字查询,会得到很多和查询目的不相关的冗余信息。我们总是希望,搜索结果的第一个条目中就包含所需要的信息。“+”和“-”很多时候就起到缩小搜索结果的范围,以提高查询结果命中率。 例:查阅天龙八部具体是哪八部。 分析:如果光用“天龙八部”做关键字,搜索结果有20,300项,而且排前列的主要与金庸的小说《天龙八部》相关,很难找到所需要的资讯。可以用两个方法减少无关结果。 1,如果你知道八部中的某一部,比如阿修罗,增加“阿修罗”关键字。“天龙八部 阿修罗”的搜索结果就只有1,050项,可以很快找到全部八部。 2,如果你不知道八部中的任何一部,但知道这与佛教相关,可以排除与金庸小说相关的记录。“天龙八部 佛教 -金庸”的查询结果为1,120项,可以迅速找到需要的资料。
      

  5.   

    7,辅助搜索 7.1,通配符问题 很多搜索引擎支持通配符号,如“*”代表一连串字符,“?”代表单个字符等。GOOGLE不支持通配符,只能做精确查询,关键字中的“*”或者“?”会被忽略掉。 7.2,关键字的字母大小写 GOOGLE对英文字符大小写不敏感,“GOD”和“god”搜索的结果是一样的。 7.3,搜索整个句子 GOOGLE的关键字可以是词组(中间没有空格),也可以是句子(中间有空格),但是,用句子做关键字,必须加英文引号。 示例:搜索包含“long, long ago”字串的页面。 
    搜索:“"long long ago"” 
    结果:已搜索有关long long ago的中文(简体)网页。 共约有16,500项查询结果,这是第1-10项 。 搜索用时0.06秒。 。 7.4,搜索引擎忽略的字符和词汇 GOOGLE对一些网路上出现频率极高的英文单词,如“i”、“com”、“www”等,以及一些符号如“*”、“.”等,作忽略处理。 示例:搜索关于第一次世界大战的信息 
    搜索:“"worldwar i"” 
    结果:"i"使用过于频繁,没有被列入搜索范围。已向英特网搜索"worldwar i". 共约有7,370项查询结果,这是第1-10项 。 搜索用时0.17秒。 7.5,强制搜索 如果要对忽略的关键字进行强制搜索,则需要在该关键字前加上明文的“+”号。 示例:搜索包含“Who am I ?”的网页。如果用“"who am i ?"”,“Who”、“I”、“?”会被省略掉,搜索将只用“am”作关键字,所以应该用强制搜索。 
    搜索:“"+who +am +i"” 
    结果:已向英特网搜索"+who +am +i". 共约有332,000项查询结果,这是第1-10项 。 搜索用时3.68秒。 注意:大部分常用英文符号(如问号,句号,逗号等)无法成为搜索关键字,加强制也不行。 8,进阶搜索 上面已经探讨了GOOGLE的一些最基础搜索语法。通常而言,这些简单的搜索语法已经能解决绝大部分问题了。不过,如果想更迅速更贴切找到需要的信息,你还需要了解更多的东西。 8.1,对搜索的网站进行限制 “site”表示搜索结果局限于某个具体网站或者网站频道,如“sina.com.cn”、“edu.sina.com.cn”,或者是某个域名,如“com.cn”、“com”等等。如果是要排除某网站或者域名范围内的页面,只需用“-网站/域名”。 示例:搜索中文教育科研网站(edu.cn)上所有包含“金庸”的页面。 
    搜索:“金庸 site:edu.cn” 
    结果:已搜索有关金庸 site:edu.cn的中文(简体)网页。 共约有1,730项查询结果,这是第1-10项 。 搜索用时0.23秒。 示例:搜索包含“金庸”和“古龙”的中文新浪网站页面, 
    搜索:“金庸 古龙 site:sina.com.cn” 
    结果:已在sina.com.cn搜索有关金庸 古龙 的中文(简体)网页。 共约有734项查询结果,这是第1-10项 。 搜索用时0.12秒。 示例:搜索新浪文教频道中关于鲁迅的信息。 
    搜索:“鲁迅 site:edu.sina.com.cn” 
    结果:已在edu.sina.com.cn搜索有关 鲁迅的中文(简体)网页。 共约有672项查询结果,这是第1-10项 。 搜索用时0.24秒。 注意:site后的冒号为英文字符,而且,冒号后不能有空格,否则,“site:”将被作为一个搜索的关键字。此外,网站域名不能有“http”以及“www”前缀,也不能有任何“/”的目录后缀;网站频道则只局限于“频道名.域名”方式,而不能是“域名/频道名”方式。诸如“金庸 site:edu.sina.com.cn/1/”的语法是错误的。 8.2,查询某一类文件(往往带有同一扩展名) “filetype:”,这是个尚在测试阶段的GOOGLE特色查询,不过功能已经非常强大,可以做很多意想不到的事情哦。:) 最重要的文档搜索是PDF搜索。PDF是ADOBE公司开发的电子文档格式,现在已经成为互联网的电子化出版标准。目前GOOGLE检索的PDF文档大约有2500万左右。PDF文档通常是一些图文并茂的综合性文档,提供的资讯一般比较集中全面。 示例:搜索关于电子商务(ECOMMERCE)的PDF文档。 
    搜索:“ecommerce filetype:pdf” 
    结果:已向英特网搜索ecommerce filetype:pdf. 共约有25,500项查询结果,这是第91-100项 。 搜索用时0.44秒。