最近在做一个爬虫获取论坛信息,访问200左右个页面后,就返回403,远程服务器访问。已经设置了request.UserAgent = "Mozilla/4.0 (compatible; MSIE 4.5; Window NT 5.1)";且浏览器也没办法访问了。如何解决?

解决方案 »

  1.   

    放慢速度,尽量模拟手工点击的频率,这样大部分网站还是可以通过的。
      

  2.   

    没有完全封,20分钟左右就解封了
      

  3.   

    这样的话爬虫的效率也太慢了吧,没有什么其他的途径解决么?
      

  4.   

    多弄几个账号 , 多几个线程,同时爬呗。请求太快服务器防火墙会认为是受到攻击,这样就会被封账号,或者是IP段。
      

  5.   

    我也想做个这东西来玩玩,有没有相关的资料,发给我学习一下呀
      

  6.   

    开放平台,不需要账号,已经是多线程了。
      

  7.   

    请求时间间隔长一点。(这一点是必需的)多线程请求