如何编写爬虫程序? 在你心目中,什么是“爬虫程序”?像SearchEnging 解决方案 » 免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货 我曾经写过一个FTP站点文件信息搜索,自动生成数据库的东东用的方法是递归调用,判断一下,如果它是目录(is_dir)那么就调用自身如果不是的话插入到数据库里面但是鉴于FTP的东东较多而且呢,目录一般比较深(反正我们那个变态的站长最多竟然放了18个目录),所以,我从flashget这些软件得到启发,也用了多线程来完成,效果很不错啊,呵呵~~递归是个好方法,试试啊 我只是想简单的把一个网站的html文件信息进行搜索,有没有什么简单办法? 用socket连接80端口 Get 首页,然后分析所有链接,再用socket分别GET所有链接(注意,如果你不想程序永不停歇的话,外域的网页就不要去抓了),如此循环往复,GET->分析->GET->分析.....那么就是一个爬虫了 就是一个死循环了,连接站点==>分析页面==>从页面获得新的站点连接==》连接获得的站点,一直做下去就行了,分析页面同时将想要的数据保存下来。 是写网络爬虫??搜索Email的程序还是什么程序?? 用php怎么做 "用socket连接80端口 Get 首页"? 据我所知要这样,用socket连接80端口必须对方的服务器提供这项服务吧这方面我很采没有实际经验,也请大家帮忙解释一下 php session_start的问题 js图片向上不间断滚动代码复制到php中,为什么滚动一次就会停止 volist如何输出成两列的格式? js 左右键的问题 很感谢 php 正则如何匹配“/”,网络上只有匹配“\”的 怎样查看mail 函数有没有被服务器禁用? 怎么判断一个文件是二进制文件还是文本文件 打开窗口时怎样控制其高和宽 有关php和iis以及apache的问题,我给80分 php执行程序突然停止执行 foxpro and php连接是什么意思? php连接sql server数据库出了问题,求助!
用的方法是递归调用,判断一下,如果它是目录(is_dir)那么就调用自身
如果不是的话插入到数据库里面
但是鉴于FTP的东东较多而且呢,目录一般比较深(反正我们那个变态的站长最多竟然放了18个目录),所以,我从flashget这些软件得到启发,也用了多线程来完成,效果很不错啊,呵呵~~
递归是个好方法,试试啊
那么就是一个爬虫了
搜索Email的程序还是什么程序??
这方面我很采没有实际经验,也请大家帮忙解释一下