这一类东西早有人写好了
你用一下下边这个东西。
应该可以满足你的需要
深蓝搜索引擎 V2.0 
 
  软件语言: 简体中文
软件类别: 国产软件/共享版/搜索引擎
运行环境: Win9x/NT/2000/XP
界面预览: 无
软件大小: 1191KB
软件更新: 2003-7-19
下载次数: 0
软件评级: 
联 系 人: E-mail
开 发 商: HomePage
软件介绍:
 
   深蓝搜索引擎是一个Internet全文搜索引擎,由前台----面向用户的Web搜索界面、后台----自动网页索引机器人(ROBOTS或Web Spider)以及独立的数据库系统三大部分组成。其中前台部分用ASP编写,后台数据库采用Microsoft SQL Server 7.0 或 2000。而系统核心----本程序,即自动网页索引机器人,负责网页采集、超链接提取等任务。这三部分有机结合,从而为您建立一个类似Google风格的Internet全文搜索引擎!最佳适用范围:校园网、园区网、其它局域网,也可应用于Internet。 

解决方案 »

  1.   

    编写一个客户端程序
    1。实现socket客户端,连接上服务器(一般默认端口为80)
    2。取得所需网页的内容(比如用GET方法,如果对HTTP协议不熟悉,先阅读相关文档)
    3。分析网页内容,取出所需内容
      

  2.   

    如果想要简单实现,用 
    java.net.URL 和
    java.net.HttpURLConnection 类,不用自己实现 http 协议。临时写了一段代码给你参考
    import java.net.*;
    import java.io.*;
     public String GetHTMLbyURL(String strURL)
      {
          URL url;
          URLConnection urlc;
          String sNewResult = "";
          try
          {
              url = new URL(strURL);
              urlc = url.openConnection();
              m_webroot = "http://" + url.getHost();
              urlc.connect();
          }
          catch(MalformedURLException mfe)
          {//非法地址
              return "";
          }
          catch(Exception e)
          {//异常
              return "";
          }
          String sResult = "";
          try
          {
            InputStream objIS = urlc.getInputStream();
            int iChar = 0;
            while(iChar != -1)
            {
              iChar = objIS.read();
              sResult += (char) iChar;
            }
          }
          catch(IOException ie)
          {
            return "";
          }
          return sResult;
      }市面上好像有本书叫做 java 机器人编程 什么的,就像微软那本讲 Spider 和 Agent 网络搜索技术的一样,光盘有源代码。
    如果着急,可以去买一本看看。www.china-pub.com 搜一下