好像要求内部大量数据支持,并且要求好的算法
做的最好的是google
www.google.com 可以查看有关资料
具体算法好难呀

解决方案 »

  1.   

    嗯,Spider 找网站(包括 Add 新的和 Update 旧的),然后放入数据库,再提供搜索的接口。没这么简单喔。
      

  2.   

    你想做搜索引擎,建议使用下面的方法标  题: 简介 Google 开放式 WebServices 查询接口(转载)
    查找引擎之王 google 于 4/11 开放了它的查询接口,可以让全世界各地的 Java 以及
     .NET 程序员,免费地以 WebServices 的方式,对 google 下查找指令,并且可以将结
    果使用于自己的程序或网页中,并且几乎目前所有的程序语言都有 WebServices 的相关
    软体包,本次介绍应该可以给大家一个简单的 WebServices 概念 ...
    查找引擎之王 google 于 4/11 开放了它的查询接口,可以让全世界各地的 Java 以及
     .NET 程序员,免费地以 WebServices 的方式,对 google 下查找指令,并且可以将结
    果使用于自己的程序或网页中。不过使用上也有限制,它一天只允许未付费的程序员查
    找 1000 次。要使用前,必须先向 google 注册帐号,取得一个 32 位长度的 license
     key ,每次呼叫查询时,必须带入这个 license key 即可使用。因为 WebServices 以
     WSDL (Web Service Definition Language) 的方式描述所开放的接口,走的通讯协定
    是 SOAP on HTTP ,所以理论上可以穿越防火墙。 Java 范例程序如下∶
    import java.io.*;
    import com.google.soap.search.*; // 这是 googleapi.jar ,由 google 所提供
    public class SearchGoogle {
      public static void main(String[] args) {
        if (args.length != 2)
        {
          System.err.println("Usage: java SearchGoogle LicenseKey 查询字符串 ");
     
          System.exit(1);
        }
        String clientKey = args[0];
        String queryString = args[1];
        System.out.println(" 查询字符串 = " + queryString);
        // 产生查找对象,设定输出编码 (big5)
        GoogleSearch s = new GoogleSearch();
        s.setKey(clientKey);
        s.setOutputEncoding("big5");
        try
        {
          s.setQueryString(qyeryString);
          GoogleSearchResult r = s.doSearch();
          System.out.println(" 查找结果 :");
          System.out.println("======================");
          System.out.println(r.toString());
        }
        catch (GoogleSearchFault e)
        {
          System.out.println(" 查找失败 ");
        }
      }
    }
    使用方法以及查询结果(执行环境∶ Linux + JDK 1.3.1_01 ,主机位于防火墙后端)

    java -classpath .:../lib/googleapi.jar
    SearchGoogle xxxxxxxxx- 我的 LicenseKey-xxxxxxxxx LinuxFab
    查询字符串 = LinuxFab
    查找结果 :
    ======================
    {
    TM = 0.048257
    Q = "LinuxFab"
    CT = ""
    TT = ""
    CATs =
      {
      {SE="Big5", FVN="Top/World/Chinese_Traditional/ 计算机 /Operating_Systems/
    Unix/Linux"}
      }
    Start Index = 1
    End Index = 10
    Estimated Total Results Number = 11500
    Document Filtering = true
    Estimate Correct = false
    Rs =
      {
      [
      URL = "http://bbs.ee.ntu.edu.tw/boards/Linux/21/"
      Title = " ◆ 【 LinuxFab 早报】 "
      Snippet = " ◆ 【 LinuxFab 早报】 . ... 5, ◇ 【 LinuxFab 本周专栏】 如何制
    作简易 Floppy Liunx, linuxfab. 07/13/01. ... "
      Directory Category = {SE="", FVN=""}
      Directory Title = ""
      Summary = ""
      Cached Size = "11k"
      Related information present = true
      Host Name = ""
      ],
      [
      URL = "http://bbs.ee.ntu.edu.tw/boards/Linux/21/73.html"
      Title = " ◇ 【 LinuxFab 早报】 - Linux 2.4.10 内核中剽窃了 ┅ "
      Snippet = " ◇ 【 LinuxFab 早报】 - Linux 2.4.10 内核中 剽窃了 ┅ . 发信人
     : linuxfab.bbs ... "
      Directory Category = {SE="", FVN=""}
      Directory Title = ""
      Summary = ""
      Cached Size = "10k"
      Related information present = true
      Host Name = "bbs.ee.ntu.edu.tw"
      ],
      [
      URL = "http://www.lslnet.com/linux/docs/linux-3033.htm"
      Title = "LinuxFab: Red Hat7.0 ? 新特色 - [? 森林 - 自由 ? 件 ]"
      Snippet = " ... LinuxFab: Red Hat7.0 ? 新特色 ? 森林 http://www.lslnet.com
     2000 年 9 月 24 日 09:59 ... 摘自∶ http:linuxfab.cx [ ?? 窗口 ]. ... "
      Directory Category = {SE="", FVN=""}
      Directory Title = ""
      Summary = ""
      Cached Size = "5k"
      Related information present = true
      Host Name = ""
      ],
     下略
    当然,输出结果不是这么杂乱, google 所提供的 api 有各种查找设定方法,例如从第
    几笔开始查找、设定传回笔数、偏好查找(避免查找 java 时传回 咖啡 的结果) ...
     等等,各位可以好好玩一玩。
    如果您不想使用 google 的 library ,您也可以利用手边的 WebServices 工具程序,
    自动抓取 google 所提供的 WSDL 文档(位于∶ http://api.google.com/GoogleSearc
    h.wsdl ),并且产生相关的 java 对象。以下以 GLUE 这套 Java WebServices 软体包
    做范例∶
    $ wsdl2java http://api.google.com/GoogleSearch.wsdl -p example -d example/
    write file example/IGoogleSearchPort.java
    write file example/GoogleSearchServiceHelper.java
    write file example/ResultElement.java
    write file example/DirectoryCategory.java
    write file example/GoogleSearchResult.java
    write file GoogleSearchService.map
    GLUE 的强处在于它自动为您处理所有 XML <-> Java Object Mapping 以及 SOAP 传输
    的问题,您甚至不需要看懂 WSDL 便可直接使用 WebServices !我们现在已经将 WSDL
     转换成 Java 对象, package 名为 example ,接下来便是撰写 Client 去连接 goog
    le ∶
    import java.io.*;
    import electric.registry.Registry; // 包含于 GLUE-STD.jar ,为 GLUE 标准版的
     library
    import example.*; //GLUE 自动为您由 WSDL 产生出来的 Java 对象
    public class SearchGoogle2 {
      public static void main(String[] args) {
        if (args.length != 2)
        {
          System.err.println("Usage: java SearchGoogle LicenseKey 查询字符串 ");
     
          System.exit(1);
        }
        String clientKey = args[0];
        String queryString = args[1];
        System.out.println(" 查询字符串 = " + queryString );
        String url = "http://api.google.com/GoogleSearch.wsdl";
        try
        {
          // 利用 GLUE 产生的接口,去 bind google 的 WSDL
          IGoogleSearchPort searcher = (IGoogleSearchPort) Registry.bind(url , I
    GoogleSearchPort.class);
          // 查询
          GoogleSearchResult result = searcher.doGoogleSearch
          ( clientKey , queryString , 0 , 1 , false , "" , false , "" , "Big5" ,
     "Big5" );
          System.out.println(" 查找结果 :");
          System.out.println("======================");
          System.out.println(" 回应数量∶ " + result.resultElements.length );
          System.out.println(" 第一笔结果∶ ");
          System.out.println(" 简介∶ " + result.resultElements[0].summary );
          System.out.println("URL ∶ " + result.resultElements[0].URL );
          System.out.println(" 片段∶ " + result.resultElements[0].snippet );
          System.out.println(" 标头∶ " + result.resultElements[0].title );
          System.out.println(" 主机∶ " + result.resultElements[0].hostName );
          System.out.println(" 目录∶ " + result.resultElements[0].directoryTitl
    e );
        }
        catch (electric.registry.RegistryException e)
        {
          System.out.println(" 错误∶ " + e.getMessage());
        }
      }
    }
    执行结果指令如下∶
    $ java -classpath .:../lib/GLUE-STD.jar:../lib/j2ee.jar:../lib/jnet.jar
    SearchGoogle2 xxxxxxxxx- 我的 LicenseKey-xxxxxxxxx LinuxFab
    查询字符串 = LinuxFab
    查找结果 :
    ======================
    回应数量∶ 1
    第一笔结果∶
    简介∶
    URL ∶ http://bbs.ee.ntu.edu.tw/boards/Linux/21/
    片段∶◆ 【 LinuxFab 早报】 . ... 5, ◇ 【 LinuxFab 本周专栏】 如何制作简易
    Floppy Liunx, linuxfab. 07/13/01. ...
    标头∶◆ 【 LinuxFab 早报】
    主机∶
    目录∶
    要注意的是,这只是 google beta2 版本的 WSDL ,未来接口一定会有所更动,而且远
    端主机 (api.google.com) 仍然不太稳定,有时候会连不过去,有时又会出现 Interna
    l Server Error 的错误。不过以上的介绍应该可以给大家一个简单的 WebServices 概
    念了吧?目前几乎所有的程序语言都有 WebServices 的相关软体包,不论您是 PHP 网
    页制作者,或是 VB 窗口程序员,应该都找到相关的软体包,直接在您的网页 / 程序上
    面撰写 WebServices 的 Client 以及 Server 。
    截稿前消息∶全球最大的网络书店 Amazon ,也开始提供 WebServices 接口给代销商(
     associates ,可以在个人网页上放置连往 Amazon 的 icon 或连结,藉此赚取部分成
    交金额)使用。代销商现在可以利用 Amazon 提供的 WebServices 撰写 Web/Desktop
    应用程序了!看来类似的 WebServices 将会逐渐在许多大站点中陆续被采用,或许 Li
    nuxFab/SourceFab 可以考虑引进此技术,使本站成为华人 Open Source 界的网络运算
    中心。