做一个抓网页程序,要每隔30分钟抓取某网页一次,但前提是此网页内容已经更新,才抓取网页内容,这样能明显减少服务器的负担和流量。不知道怎么样判断网页是否已经更新过?搜索到了一几个文章说是判断状态码304,也没看太懂。哪位朋友做过这方面的程序,指点一下。谢谢。

解决方案 »

  1.   

    又搜索了几篇文章好像是判断 header 的 "Last-modified" 再搜索吧。一下!还来csdn是摆设,还得靠自己啊。
      

  2.   

    又搜索到一篇文章,不过是php。http://www.woodpecker.org.cn/obp/diveintopython/zh-cn/dist/html/http_web_services/etags.html
    csdn到底有没有解决问题?估计都是光说不练的主!!!
      

  3.   

    csdn有一点不太好,如果问题自己搞懂了,没靠别人帮助,是不是也得给分啊。哈哈。。
      

  4.   

    LZRP有问题,不具备做人的基本素质,SB一个
    我还来接分,呵呵
      

  5.   

    你可以打开网页取得头部信息,然后断开连接。
    如果“last modified”符合你的要求,就下载,否则,查看下一个网页。具体不是特别清楚,一个思路。应该是可以的,你看看吧。