如何编写爬虫程序？

在你心目中，什么是“爬虫程序”？
像SearchEnging

我曾经写过一个FTP站点文件信息搜索，自动生成数据库的东东
用的方法是递归调用，判断一下，如果它是目录（is_dir)那么就调用自身
如果不是的话插入到数据库里面
但是鉴于FTP的东东较多而且呢，目录一般比较深（反正我们那个变态的站长最多竟然放了18个目录），所以，我从flashget这些软件得到启发，也用了多线程来完成，效果很不错啊，呵呵~~
递归是个好方法，试试啊
我只是想简单的把一个网站的html文件信息进行搜索，有没有什么简单办法？
用socket连接80端口 Get 首页，然后分析所有链接，再用socket分别GET所有链接(注意，如果你不想程序永不停歇的话，外域的网页就不要去抓了)，如此循环往复，GET->分析->GET->分析.....
那么就是一个爬虫了
就是一个死循环了，连接站点==>分析页面==>从页面获得新的站点连接==》连接获得的站点，一直做下去就行了，分析页面同时将想要的数据保存下来。
是写网络爬虫??
搜索Email的程序还是什么程序??
用php怎么做 "用socket连接80端口 Get 首页"?
据我所知要这样，用socket连接80端口必须对方的服务器提供这项服务吧
这方面我很采没有实际经验，也请大家帮忙解释一下