没有做过,也不太了解,只是知道网上的如google,就是说几台服务器发出N个爬虫程序整天在网上抓网页回来,然后在数据库中分类存储...

解决方案 »

  1.   

    语言不是问题,关键是google用到了网页优先级的算法,使得搜索网站很有效率,用ms的ISAP+ASP都可以编写搜索引擎。
      

  2.   

    please move on .............
      

  3.   

    package coreservlets;import java.io.*;
    import javax.servlet.*;
    import javax.servlet.http.*;
    import java.net.*;
    public class SearchEngines extends HttpServlet {
      public void doGet(HttpServletRequest request,
                        HttpServletResponse response)
          throws ServletException, IOException {
        String searchString = request.getParameter("searchString");
        if ((searchString == null) ||
            (searchString.length() == 0)) {
          reportProblem(response, "Missing search string.");
          return;
        }
        // The URLEncoder changes spaces to "+" signs and other
        // non-alphanumeric characters to "%XY", where XY is the
        // hex value of the ASCII (or ISO Latin-1) character.
        // Browsers always URL-encode form values, so the
        // getParameter method decodes automatically. But since
        // we're just passing this on to another server, we need to
        // re-encode it.
        searchString = URLEncoder.encode(searchString);
        String numResults = request.getParameter("numResults");
        if ((numResults == null) ||
            (numResults.equals("0")) ||
            (numResults.length() == 0)) {
          numResults = "10";
        }
        String searchEngine =
          request.getParameter("searchEngine");
        if (searchEngine == null) {
          reportProblem(response, "Missing search engine name.");
          return;
        }
        SearchSpec[] commonSpecs = SearchSpec.getCommonSpecs();
        for(int i=0; i<commonSpecs.length; i++) {
          SearchSpec searchSpec = commonSpecs[i];
          if (searchSpec.getName().equals(searchEngine)) {
            String url =
              searchSpec.makeURL(searchString, numResults);
            response.sendRedirect(url);
            return;
          }
        }
        reportProblem(response, "Unrecognized search engine.");
      }  private void reportProblem(HttpServletResponse response,
                                 String message)
          throws IOException {
        response.sendError(response.SC_NOT_FOUND,
                           "<H2>" + message + "</H2>");
      }
      
      public void doPost(HttpServletRequest request,
                         HttpServletResponse response)
          throws ServletException, IOException {
        doGet(request, response);
      }
    }
      

  4.   

    apache有一个子项目:lucene 开放源代码的东西,你可以拿来看看他的源代码。
    http://jakarta.apache.org/lucene/docs/index.html主页上的说明:
     Jakarta Lucene is a high-performance, full-featured text search engine written entirely in Java. It is a technology suitable for nearly any application that requires full-text search, especially cross-platform是全文的
      

  5.   

    upupupup   upupupupup
    upupuupupp
    upupupupupupupupupupupupupupupupupupupup
    upupupupupupupupupvv upupupup
      

  6.   

    what?what?what?what?what?what?
    what?what?what?                  what?what?what?what?what?
                   what?vwhat?what?what?
                          vvvwhat?
                   
                         what?what?what?what?
      

  7.   

    同意 cxj_2000(永远到底有多远?)看lucene 的代码
      

  8.   

    顺便说一下,数据库种自带的搜索功能,网上某些搜索开放源代码,像 phpnuke 自带的搜索功能,数据量小的时候还能凑合,数据量一多,.....
      

  9.   

    upupupupupupupupupup
    up
    upupupup
    up
    upup
    up
      

  10.   

    lucene 是在什么环境下运行 我在win98+j2se sdk1.4.1+ JCreatot Pro 下运行报告有十多个错误     "javax.servlet.*;javax.servlet.http.*;java.net.*;
                                                找不到......."请回答 谢谢 谢谢 谢谢谢谢谢谢谢谢谢谢谢谢谢谢谢谢谢谢谢谢谢谢谢谢谢谢谢谢谢谢谢谢
      

  11.   

    最新的<<程序员>>杂志有google网页排序的原理哦,有兴趣可以看看
      

  12.   

    lucene 是一个组建,他有一个sample,运行在web container之中的,你可以看看他的说明
      

  13.   

    2002年合订本<程序员>里有,大概三四页,我也没有看懂
      

  14.   

    vvding
    ding
    ding
    ding
    ding