关于搜索引擎  索引文件的问题 
__________________________________________________________________________小弟刚入职,公司就叫我写出搜索引擎概要设计文档,先不用考虑细节。也没什么工作经验,但还是必须去面对、去挑战。我在网上搜索了下实现流程,但感觉还是一头雾水。其中定期的向互联网派出爬虫程序后,不断的在互联网上抓取网页后应该怎么处理,百度了下都说建立索引文件,但是这又该怎么实现呢?在网上搜索的实现流程:
__________________________________________________________________________1.网络爬虫(Spider)每隔一段时间主动派出抓取程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。
2. 搜索引擎抓到网页后做大量的预处理工作,提供检索服务。其中,最重要的就是提取关键词,建立索引文件(Index files)。其他还包括去除重复网页、分析超链接、计算网页的重要度。
3. 通过研究内容中的字符模式来最终判定网页的语言,通过分词库对内容进行高精确度分析。  
4. 通过独特的链接评价体系,将网页的重要性与被其它网页链接的数量,特别是已经被认定是重要网页的链接权重进行算法运算。评价体制与科技引文索引的相似,由于互联网是在商业化的环境中发展起来的,网站的链接分析与行业有着密切的联系。  
5. 用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。
____________________________________________________________________________对于第二步,感觉太抽象了,说着容易,做起来都不知道从何入手。拿出家底了,多望关注!大家多多交流,多多参与!
还请大哥大姐们多多帮忙啊!
在这里先谢过大家!

解决方案 »

  1.   

    没研究过搜索引擎,但是可以给你几点参考意见:
    1.网络爬虫是从一个起始页面开始,然后沿着连接来开始遍历网页
    2.没搜索到一个网页,把网页的
     <META NAME="Keywords" CONTENT="">
    中的关键字提取到,然后把网页地址和关键字存储到文件系统或者数据库中(一般是存储到文件系统)
    3.至于对存储的索引可以参考一些网上的文章,比如hash索引等。1索引1.1、1.2、1.3、1.4、1.5,1.1再进行索引1.1.1等。希望对楼主有用。