我在搜集数据的时候ip被一些网站封锁了,现在不能搜集这些网站的数据了,但是急着用这些数据!求助啊!!怎么样解封额!谢啦!(我用的是commons-httpclient-3.1)重点:httpclient被封锁,但是浏览器却依然可以正常访问已经尝试过的思路:
1 ip代理
结果:失效,透明代理依然会被封锁,匿名代理和超匿代理被禁止访问,是不可用的2 访问速度控制
结果:无效,网站的防爬策略是基于流量的,哪怕我模拟人工的访问方式,流量过大依然会被封锁预尝试方法:
1 有两个外网ip,在这两个之间切换
缺陷:封锁和解锁的时间不能平衡,比如说爬行2分钟就会被封锁,但是要15分钟才能解锁
2 有一个外网ip是动态分配的,当被封锁后,重新拨号获取新的外网ip
缺陷:考虑到爬虫的运行效率,这样的处理怕是效率太低了,达不到爬虫应用的应用效果大家谁有更好的思路或者方法
1 ip代理
结果:失效,透明代理依然会被封锁,匿名代理和超匿代理被禁止访问,是不可用的2 访问速度控制
结果:无效,网站的防爬策略是基于流量的,哪怕我模拟人工的访问方式,流量过大依然会被封锁预尝试方法:
1 有两个外网ip,在这两个之间切换
缺陷:封锁和解锁的时间不能平衡,比如说爬行2分钟就会被封锁,但是要15分钟才能解锁
2 有一个外网ip是动态分配的,当被封锁后,重新拨号获取新的外网ip
缺陷:考虑到爬虫的运行效率,这样的处理怕是效率太低了,达不到爬虫应用的应用效果大家谁有更好的思路或者方法
解决方案 »
- 自己写的屏幕截图软件,大家一起学习
- com.microsoft.sqlserver.jdbc.SQLServerException: 将字符串转换为 smalldatetime 数据类型时失败。
- JSP求助:
- 新手,我对static、this、super用法一句话总了个结,高手来看一下是否有误.
- 用什么方法可以验证用户的不重复性,急!
- 雪地里裸体后空翻360度落地跪求!
- 关于接口的疑问..在线等待
- 如何能让Java函数的参数返回数据
- 深圳是否很耍要JAVA程序员?
- 初学者,不知道这是怎么了,是环境变量不对还是什么
- 关于JAVA核心技术卷II中一个例子的问题,大家一起看下
- java新建一个文件夹和文件 thanks
URLConnection conn=name.openConnection();
conn.setRequestProperty("User-Agent","Mozilla/4.0 (compatible; MSIE 5.0; Windows XP; DigExt)");
我已经用过httpclient把http头信息已经伪装成浏览器了 不行
而且你这个使用jase里面的方法,应该跟httpclient3.1的方法不相关了
我写的是爬csdn上发的代码段
我用httpclient 将http 头 已经伪造成浏览器的样子了 不行
而且你这个是se的 应该和httpclient3.1 不相关
他的解决乱码问题挺不方便的
我自己写,感觉自己用着挺舒服
他的好多方法需要看api
最好的方法是有几个,然后同时进行收集资料,一个ip肯定不行。效率太低。个人技术博客:http://www.happyalaric.com
如果我通过遥控浏览器 依然会被封锁,所以应该不是 你所说的JAVASCRIPT 获取用户点击参数