1. 我输入一个 关键词
2. 构造出一个 针对google的URL
3. 提交这个request, 最终返回页面所有的内容。 我对这个页面内容进行分析和抽取信息。 现在已经实现了上述工作,问题是: 我在7分钟内提交了34个query的时候
google就开始拒绝访问了。(其实我让每个query的间隔达到了10秒中,防止太频繁) 问题:
1. 这个时间限制是多少? 有经验的给说一下。
2. 有没有尝试用 动态代理ip来做的,是怎么做的
3. 有没有什么账号或者其他办法来解决这个问题。 不胜感激。
2. 构造出一个 针对google的URL
3. 提交这个request, 最终返回页面所有的内容。 我对这个页面内容进行分析和抽取信息。 现在已经实现了上述工作,问题是: 我在7分钟内提交了34个query的时候
google就开始拒绝访问了。(其实我让每个query的间隔达到了10秒中,防止太频繁) 问题:
1. 这个时间限制是多少? 有经验的给说一下。
2. 有没有尝试用 动态代理ip来做的,是怎么做的
3. 有没有什么账号或者其他办法来解决这个问题。 不胜感激。
我怀疑他的机制就是:在某段时间里提交的query量如果大于某个阈值就refuse。To haode:
当然不是,比如我对某个query看看其查询的频度如何,就可以从
google页面里可以分析出:
如:
约有383,000项符合徐若萱的查询结果,以下是第1-10项 (搜索用时 0.07 秒)
就可以抽取出: 徐若萱 383000
我只是举个例子,有很多东西可以抽取的。
据我所知,google有提供一个api,好像每天可以访问5000次