新手提问!
  本人刚开始做爬虫程序,有一个问题一直难以实现,比如本次我爬取了一些数据,然后我终止了,当我在下次再次开启该程序的时候如何让他接着上次的地方继续爬取,而不用再次重新开始爬取。

解决方案 »

  1.   

    怪我说的不够清楚!
      比如说某个网站中首页  是一个分类  比如有:A,B,C三个类
    那么在A类这个页面里面还有a1,a2,a3              在B类这个页面里面还有b1,b2,b3   …………………………a1页面里还有a11,a22,a33   ……………………依次类推
    我们获取的时候就是层层获取,获取一层就将该层的内容保存到一个表中,如:    public void saveFirst()
           {
                  //获取到了A这个页面的URL,然后进入下一层
                 saveSecond();
           }public void saveSecond()
    {
          //获取到了a1这个页面的URL,再进入下一层
         saveThird();
    }public void saveThird()
    {
         //获取该页面的详细信息
    }
          
    如果在这个中间的哪个地方我们关闭程序了,上面那几个方法之间通过循环的,那么中断后怎么接着上次的继续了。
      

  2.   

    爬虫的执行过程是分析HTML代码, 提取URL.你可以将待分析的URL存入一张表中, 分析完毕将这个URL删除.