1. 我输入一个 关键词 
2. 构造出一个 针对google的URL 
3. 提交这个request, 最终返回页面所有的内容。 我对这个页面内容进行分析和抽取信息。 现在已经实现了上述工作,问题是: 我在7分钟内提交了34个query的时候 
google就开始拒绝访问了。(其实我让每个query的间隔达到了10秒中,防止太频繁) 问题: 
1. 这个时间限制是多少? 有经验的给说一下。 
2. 有没有尝试用 动态代理ip来做的,是怎么做的 
3. 有没有什么账号或者其他办法来解决这个问题。 不胜感激。

解决方案 »

  1.   

    我觉得有Google有这样的机制,防止单一IP或者物理地址恶意访问(不包括你啊 呵呵),造成服务器负担过重...要是物理地址锁定的话  动态IP也不行啊...
      

  2.   

     google一般是不会封物理地址的,那样也太狠了。
    我怀疑他的机制就是:在某段时间里提交的query量如果大于某个阈值就refuse。To haode:
     当然不是,比如我对某个query看看其查询的频度如何,就可以从
    google页面里可以分析出:
    如:
     约有383,000项符合徐若萱的查询结果,以下是第1-10项 (搜索用时 0.07 秒) 
    就可以抽取出:  徐若萱 383000
    我只是举个例子,有很多东西可以抽取的。
      

  3.   

    请问lz解决了吗
    据我所知,google有提供一个api,好像每天可以访问5000次