在你心目中,什么是“爬虫程序”?
像SearchEnging

解决方案 »

  1.   

    我曾经写过一个FTP站点文件信息搜索,自动生成数据库的东东
    用的方法是递归调用,判断一下,如果它是目录(is_dir)那么就调用自身
    如果不是的话插入到数据库里面
    但是鉴于FTP的东东较多而且呢,目录一般比较深(反正我们那个变态的站长最多竟然放了18个目录),所以,我从flashget这些软件得到启发,也用了多线程来完成,效果很不错啊,呵呵~~
    递归是个好方法,试试啊
      

  2.   

    我只是想简单的把一个网站的html文件信息进行搜索,有没有什么简单办法?
      

  3.   

    用socket连接80端口 Get 首页,然后分析所有链接,再用socket分别GET所有链接(注意,如果你不想程序永不停歇的话,外域的网页就不要去抓了),如此循环往复,GET->分析->GET->分析.....
    那么就是一个爬虫了
      

  4.   

    就是一个死循环了,连接站点==>分析页面==>从页面获得新的站点连接==》连接获得的站点,一直做下去就行了,分析页面同时将想要的数据保存下来。
      

  5.   

    是写网络爬虫??
    搜索Email的程序还是什么程序??
      

  6.   

    用php怎么做 "用socket连接80端口 Get 首页"?
      

  7.   

    据我所知要这样,用socket连接80端口必须对方的服务器提供这项服务吧
    这方面我很采没有实际经验,也请大家帮忙解释一下