我有个程序需要自动采集百度新闻(asp.net后台),但如果我采集得频繁一点,就会被当成是自动程序行为,然后就会被百度新闻K掉. (比如说,10分钟之内都不允许访问了)  我用的是WebClient, 后来又用了 HttpWebRequest,什么 Referer都设置过,都不太理想.
  有什么好的办法吗? 慢一点都可以. 只要不被百度K掉.

解决方案 »

  1.   


    hoho,或者让程序通过不同的代理应该也可以吧
      

  2.   

    你写成桌面程序,然后在你的网页写一个WEBService接口
    桌面程序写一个定时器,半小时去百度新间访问一次,这样应该没什么问题
      

  3.   

    百度应该是不会限制IP的,我也是在百度里进行数据采集的,直不过我是通过搜索进行采集的,
    我以前也遇到过,放上去前几天可以采集,后几天就采集不到了,
    一查找才是虚拟主机的问题,换一台服务器就换好了,
    就是不知道百度新闻会不会对一个IP频繁的访问进行限制
      

  4.   


    我也是啊,我是在搜索里采集的,代码如下string sKeywords =  "关键词";                string sKeywordCode = System.Web.HttpUtility.UrlEncode(sKeywords, Encoding.GetEncoding(936));
                    sUrl = string.Format("http://news.baidu.com/ns?word={0}&tn=news&from=news&cl=2&rn=20&ct=0", sKeywordCode);
      

  5.   

    IP限制,百度也不会让你一个ip不断搜索,要不然随便写一个程序不断请求,服务器不是随时挂?我上家公司用了四个不同ip
      

  6.   

    这种频度别说百毒了,是个正常网站都得BAN你...多找些代理吧...