一页 有10片文章 总共3000文章我却只采集了 2900篇的 样子也就是说 丢了 将近100篇我怀疑 是 打开某一页的时候 因为网速的原因个别 页面 只打开了一半。。大家觉得 应该是这样的吗???如果是的话如果解决呢???

解决方案 »

  1.   

    所以我就怀疑是因为网速原因 个别页面采集回来的时候 就不是完整的这个是获取源码不完整?还是正则获取不完整?执行时间,就是你程序可能要跑 10分钟才能执行完,但在7分钟就脚本停掉了,导致后段的没有执行。
    set_time_limit函数
      

  2.   

    建议用python的scrapy框架 这东西采集数据效率高
      

  3.   

    1:set_time_limit(0);
    2:设置断点续采功能 (可以用写日志的方法,写入一个text文档)
    3:加一个sleep()
      

  4.   

    有各种原因造成采集失败,但这都不是你能改变的。
    如果在浏览器中半天打不开一个链接,你至多也就骂声娘。换成采集程序的话,连骂娘的机会都没有1、读取到对方页面时,首先检查文件尾部是否有 HTML 的结束标记 </html>、</body> 或网站的版权声明等
    如果没有,就表示这个页面没有被成功读取,应将该连接加入待抓取的队列2、如果是对一个网站的连续抓取,应在两次抓取间停顿一下。大多数网站以 3-5 秒间隔访问一次比较可靠