这一类东西早有人写好了
你用一下下边这个东西。
应该可以满足你的需要
深蓝搜索引擎 V2.0
软件语言: 简体中文
软件类别: 国产软件/共享版/搜索引擎
运行环境: Win9x/NT/2000/XP
界面预览: 无
软件大小: 1191KB
软件更新: 2003-7-19
下载次数: 0
软件评级:
联 系 人: E-mail
开 发 商: HomePage
软件介绍:
深蓝搜索引擎是一个Internet全文搜索引擎,由前台----面向用户的Web搜索界面、后台----自动网页索引机器人(ROBOTS或Web Spider)以及独立的数据库系统三大部分组成。其中前台部分用ASP编写,后台数据库采用Microsoft SQL Server 7.0 或 2000。而系统核心----本程序,即自动网页索引机器人,负责网页采集、超链接提取等任务。这三部分有机结合,从而为您建立一个类似Google风格的Internet全文搜索引擎!最佳适用范围:校园网、园区网、其它局域网,也可应用于Internet。
你用一下下边这个东西。
应该可以满足你的需要
深蓝搜索引擎 V2.0
软件语言: 简体中文
软件类别: 国产软件/共享版/搜索引擎
运行环境: Win9x/NT/2000/XP
界面预览: 无
软件大小: 1191KB
软件更新: 2003-7-19
下载次数: 0
软件评级:
联 系 人: E-mail
开 发 商: HomePage
软件介绍:
深蓝搜索引擎是一个Internet全文搜索引擎,由前台----面向用户的Web搜索界面、后台----自动网页索引机器人(ROBOTS或Web Spider)以及独立的数据库系统三大部分组成。其中前台部分用ASP编写,后台数据库采用Microsoft SQL Server 7.0 或 2000。而系统核心----本程序,即自动网页索引机器人,负责网页采集、超链接提取等任务。这三部分有机结合,从而为您建立一个类似Google风格的Internet全文搜索引擎!最佳适用范围:校园网、园区网、其它局域网,也可应用于Internet。
1。实现socket客户端,连接上服务器(一般默认端口为80)
2。取得所需网页的内容(比如用GET方法,如果对HTTP协议不熟悉,先阅读相关文档)
3。分析网页内容,取出所需内容
java.net.URL 和
java.net.HttpURLConnection 类,不用自己实现 http 协议。临时写了一段代码给你参考
import java.net.*;
import java.io.*;
public String GetHTMLbyURL(String strURL)
{
URL url;
URLConnection urlc;
String sNewResult = "";
try
{
url = new URL(strURL);
urlc = url.openConnection();
m_webroot = "http://" + url.getHost();
urlc.connect();
}
catch(MalformedURLException mfe)
{//非法地址
return "";
}
catch(Exception e)
{//异常
return "";
}
String sResult = "";
try
{
InputStream objIS = urlc.getInputStream();
int iChar = 0;
while(iChar != -1)
{
iChar = objIS.read();
sResult += (char) iChar;
}
}
catch(IOException ie)
{
return "";
}
return sResult;
}市面上好像有本书叫做 java 机器人编程 什么的,就像微软那本讲 Spider 和 Agent 网络搜索技术的一样,光盘有源代码。
如果着急,可以去买一本看看。www.china-pub.com 搜一下