采集程序谁写过给点指点

一页有10片文章总共3000文章我却只采集了 2900篇的样子也就是说丢了将近100篇我怀疑是打开某一页的时候因为网速的原因个别页面只打开了一半。。大家觉得应该是这样的吗？？？如果是的话如果解决呢？？？

所以我就怀疑是因为网速原因个别页面采集回来的时候就不是完整的这个是获取源码不完整？还是正则获取不完整？执行时间，就是你程序可能要跑 10分钟才能执行完，但在7分钟就脚本停掉了，导致后段的没有执行。
set_time_limit函数
建议用python的scrapy框架这东西采集数据效率高
1：set_time_limit(0);
2：设置断点续采功能（可以用写日志的方法，写入一个text文档）
3:加一个sleep（）
有各种原因造成采集失败，但这都不是你能改变的。
如果在浏览器中半天打不开一个链接，你至多也就骂声娘。换成采集程序的话，连骂娘的机会都没有1、读取到对方页面时，首先检查文件尾部是否有 HTML 的结束标记 </html>、</body> 或网站的版权声明等
如果没有，就表示这个页面没有被成功读取，应将该连接加入待抓取的队列2、如果是对一个网站的连续抓取，应在两次抓取间停顿一下。大多数网站以 3-5 秒间隔访问一次比较可靠

采集程序 谁写过 给点指点