前一段时间,公司给我个任务,让我做一个抓取程序,针对一个行业网站的产品进行提取。开始的时候自己好好的看了看资料,做了很多分析,决定从对方网站的搜索引擎进入,传送搜索关键字,然后读取搜索结果,将所有的结果URL循环取回来。呵呵,说起来简单,做起来可是很麻烦啊!
首先就是读取页面,以.txt的形式存到本地,然后再用正则将其中用得到的内容匹配出来。
全部做完之后,有一点感受:
1、要做抓取,要很好的理解网络协议;
2、目标网站分析是抓取得基础,必须事先决定好入口等路径;
3、php语言有一些局限性,不是真正意义上的多线程;
4、如果可以的话,可以用java等语言去编写,这样效率会更好一些;
上面的话就是我自己做完之后的一些感受,随便谢谢,各位不要见笑!
首先就是读取页面,以.txt的形式存到本地,然后再用正则将其中用得到的内容匹配出来。
全部做完之后,有一点感受:
1、要做抓取,要很好的理解网络协议;
2、目标网站分析是抓取得基础,必须事先决定好入口等路径;
3、php语言有一些局限性,不是真正意义上的多线程;
4、如果可以的话,可以用java等语言去编写,这样效率会更好一些;
上面的话就是我自己做完之后的一些感受,随便谢谢,各位不要见笑!
解决方案 »
免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货