苯一点的,简单一点的:
先从一个页面入手,(比如www.163.com)
利用http返回的文件流进行html语法分析,分析出各种有可能的链接,
比如:<a href></a>,window.open(),等等
然后保存这些链接,
利用这些链接循环上面的步骤就行了
先从一个页面入手,(比如www.163.com)
利用http返回的文件流进行html语法分析,分析出各种有可能的链接,
比如:<a href></a>,window.open(),等等
然后保存这些链接,
利用这些链接循环上面的步骤就行了
要找一本书MS的《Robot,Agent...智能代理..》书名我不太记得了,它详尽的说明所有的过程。
总之一句话:网页在web服务器上,你要下载下来才能分析。
当时我做了两个程序一个是下载网页的一个是分析网页的。
所谓的智能是它会定时下载,分析是否已下载,已更新...
你要会ISAPI、多线程、线程互斥、流、ado。
delpi的线程类在这里不适合了因为线程要自动增加/减少,要用线程类的原始API。
要找一本书MS的《Robot,Agent...智能代理..》书名我不太记得了,它详尽的说明所有的过程。
总之一句话:网页在web服务器上,你要下载下来才能分析。
当时我做了两个程序一个是下载网页的一个是分析网页的。
所谓的智能是它会定时下载,分析是否已下载,已更新...
你要会ISAPI、多线程、线程互斥、流、ado。
delpi的线程类在这里不适合了因为线程要自动增加/减少,要用线程类的原始API。
去拉一个能够通过HTTP读取URL的控件(我用Winshoes),每个线程建立一个供读取。
然后通过语法分析,扫描整个源HTML,把<>外面的文字作全文索引,所有里面的href=后面的内容,进入页面库(当然重复的只留一个),等待读取后处理。
最后制作一个ASP页面,给用户查询。
请参看 http://202.102.230.155/hoho/default.asp ,其中的软件都是由它抓来入库的的。