最近用curl批量抓取网页数据,觉得速度很慢,百度搜索了很多爬虫用java来做的,是不是用java来抓取性能比较好呢?是不是因为PHP没有多线程?小白不是很清楚大家帮帮忙,谢谢爬虫phpjavacurl搜索

解决方案 »

  1.   

    如果单纯是分析页面,php的效率还可以,但抓页面的效率不高,线程是影响因素之一
    可以尝试一下curl_multi
      

  2.   

    php 是解释执行的,执行效率总归是个问题
    而 java 的搜索引擎有好几个开源项目,拿来就能用,何乐而不为呢?
      

  3.   

    curl还是很强大的 看你优化了
      

  4.   

    如果我抓取网页和分析网页分开写是不是比较好?
    即使是同一台运行这两个任务 效率也更高 因为PHP程序是同步执行的 一段代码执行完再执行下一段
      

  5.   

    内存泄漏厉害,可以考虑下python