前一段时间,公司给我个任务,让我做一个抓取程序,针对一个行业网站的产品进行提取。开始的时候自己好好的看了看资料,做了很多分析,决定从对方网站的搜索引擎进入,传送搜索关键字,然后读取搜索结果,将所有的结果URL循环取回来。呵呵,说起来简单,做起来可是很麻烦啊!
   首先就是读取页面,以.txt的形式存到本地,然后再用正则将其中用得到的内容匹配出来。
   全部做完之后,有一点感受:
   1、要做抓取,要很好的理解网络协议;
   2、目标网站分析是抓取得基础,必须事先决定好入口等路径;
   3、php语言有一些局限性,不是真正意义上的多线程;
   4、如果可以的话,可以用java等语言去编写,这样效率会更好一些;
   上面的话就是我自己做完之后的一些感受,随便谢谢,各位不要见笑!