heritrix如何实现增量抓取?或者说用heritrix第二次抓取同一个网站,已抓过的网页不再抓取

解决方案 »

  1.   

    可以去看看这个网站
    http://www.360doc.com/content/10/0914/13/2793979_53552547.shtml
      

  2.   

    Heritrix从设计角度是一次性整站复制,所以要实现增量抓取需要改动代码。但Heritrix自身保存了判断是否增量抓取的各种参数,所以可以通过这些参数来判断是否需要增量抓取。我判断增量抓取会经过以下4个环节:
         1)判断URl是否抓取过,如抓取过跳到2)继续判断
         2)从URl的http-header里获取该URl的last-modified,判断是否有更新.如果有更新则表示需要更新之前的网页.但很多URL可能没有这个值,则跳转到3)
         3)该URl内容的MD5值是否更新,如果有更新,则很有可能需要抓取.但很多时候更新了也并不能代表该URl已经更新过,比如里面有广告,广告内容变化.所以进行第四步
         4)相似度分析,对他们的网页内容进行相似度分析,这个是最准确的但也是最复杂最耗性能的一步.我目前没有实现.