苯一点的,简单一点的:
先从一个页面入手,(比如www.163.com)
利用http返回的文件流进行html语法分析,分析出各种有可能的链接,
比如:<a href></a>,window.open(),等等
然后保存这些链接,
利用这些链接循环上面的步骤就行了

解决方案 »

  1.   

    谢谢楼上两位,我的想法是利用delphi做一个机器人程序抓WEB页到SQL SERVER里面,然后用ASP做一个查询程序出来,这样的想法是不是太天真了?
      

  2.   

    是的,还是上面两位老兄的办法可行!zhanying的最好!
      

  3.   

    这个东西我已经做过了!完全可行!使用SQL SERVER和DELPHI,包含有抓取、链接分析、调度、全文索引、ASP查询界面、定期检测等,不过有一点注意的是,如果数据太多了,SQL SERVER很慢的。
      

  4.   

    disney老兄能详细给大家讲解一下delphi怎么自动抓取的吗?也算让大家开开眼界。
      

  5.   

    这个东西我曾经做过,也做出来了。
    要找一本书MS的《Robot,Agent...智能代理..》书名我不太记得了,它详尽的说明所有的过程。
    总之一句话:网页在web服务器上,你要下载下来才能分析。
    当时我做了两个程序一个是下载网页的一个是分析网页的。
    所谓的智能是它会定时下载,分析是否已下载,已更新...
    你要会ISAPI、多线程、线程互斥、流、ado。
    delpi的线程类在这里不适合了因为线程要自动增加/减少,要用线程类的原始API。
      

  6.   

    这个东西我曾经做过,也做出来了。
    要找一本书MS的《Robot,Agent...智能代理..》书名我不太记得了,它详尽的说明所有的过程。
    总之一句话:网页在web服务器上,你要下载下来才能分析。
    当时我做了两个程序一个是下载网页的一个是分析网页的。
    所谓的智能是它会定时下载,分析是否已下载,已更新...
    你要会ISAPI、多线程、线程互斥、流、ado。
    delpi的线程类在这里不适合了因为线程要自动增加/减少,要用线程类的原始API。
      

  7.   

    请教LITTLESTAR,为什么非要ISAPI呢?
      

  8.   

    首先建立好SQL数据库,重要的是页面库包含有URL、网页HTML、内容、读取时间结果等。
    去拉一个能够通过HTTP读取URL的控件(我用Winshoes),每个线程建立一个供读取。
    然后通过语法分析,扫描整个源HTML,把<>外面的文字作全文索引,所有里面的href=后面的内容,进入页面库(当然重复的只留一个),等待读取后处理。
    最后制作一个ASP页面,给用户查询。
    请参看 http://202.102.230.155/hoho/default.asp ,其中的软件都是由它抓来入库的的。
      

  9.   

    我自己是delphi的菜鸟,虽然有宏大的目标,但是能力却很小,先把分数给大家吧,我对自己很失望了。