希望高手解决下 我是循环访问静态页面 大概需要访问2800次左右 没访问一次 停1秒 但是 刚开始可以 过一会程序就报错 远程服务器 500 错误 不知道为何?行 36: System.Threading.Thread.Sleep(1000);
行 37: string url = ntvclist[j].Url.Trim() + "w" + i + ".html";
行 38: Byte[] pageData = MyWebClient.DownloadData(url); //从指定网站下载数据
行 39: string pageHtml = Encoding.Default.GetString(pageData); //如果获取网站页面采用的是GB2312,则使用这句   
行 40: //string pageHtml = Encoding.UTF8.GetString(pageData); //如果获取网站页面采用的是UTF-8,则使用这句
 源文件: f:\work\TVDemo\GetTVPrograms.aspx.cs 行: 38  堆栈跟踪:  
[WebException: 远程服务器返回错误: (500) 内部服务器错误。]
  System.Net.WebClient.DownloadDataInternal(Uri address, WebRequest& request) +338
  System.Net.WebClient.DownloadData(Uri address) +181
  System.Net.WebClient.DownloadData(String address) +26
  GetTVPrograms.Page_Load(Object sender, EventArgs e) in f:\work\TVDemo\GetTVPrograms.aspx.cs:38
  System.Web.Util.CalliHelper.EventArgFunctionCaller(IntPtr fp, Object o, Object t, EventArgs e) +15
  System.Web.Util.CalliEventHandlerDelegateProxy.Callback(Object sender, EventArgs e) +33
  System.Web.UI.Control.OnLoad(EventArgs e) +99
  System.Web.UI.Control.LoadRecursive() +47
  System.Web.UI.Page.ProcessRequestMain(Boolean includeStagesBeforeAsyncPoint, Boolean includeStagesAfterAsyncPoint) +1061

解决方案 »

  1.   

     之前我也做过抓取,那时候的数据源是google,3秒执行一次,,都被判断是非人工访问,过一段时间再被恢复将延迟时间调长点,反正是自动抓取的,甚至可以每次调用一个随机秒数用来暂停。
      

  2.   

    仅供参考
    InternalServerError时 HttpWebRequest 的 GetResponse 方法处理策略 3 现象 我们编码实现请求一个页面时,请求的代码类似如下代码:HttpWebRequest req = (HttpWebRequest)WebRequest.Create(strUrl);req.UserAgent = "MSIE6.0";req.Method = "GET";HttpWebResponse res = (HttpWebResponse)req.GetResponse();StreamReader sr = new StreamReader(res.GetResponseStream(), strEncode);strHtml = sr.ReadToEnd();sr.Close();res.Close(); 但是,如果我们请求的这个页面正好是一个有异常发生的页面,或者不存在的页面。我们上面的代码就会在req.GetResponse();这里抛出异常:远程服务器返回错误: (500) 内部服务器错误。 我们通过上面的代码,是不能得到错误发生时候的页面源代码的。 分析原因: (HttpWebResponse)req.GetResponse(); 这行代码中做了如下一件事情: 当服务器段ASP.net程序有 Exception 发生时,客户端应用程序接受了HTTP 协议错误后。把这个HTTP 协议错误转换成 Status 设置为 WebExceptionStatus.ProtocolError 的 WebException,并且把这个异常throw出来。 解决问题 那如果我们想获得错误发生时候服务器段错误页面的源代码该如何做呢? 其实非常非常简单的做法,我们用下面的代码就不论错误发生与否,都可以获得服务器段页面的源代码。 HttpWebResponse res; try { res = (HttpWebResponse)req.GetResponse(); } catch (WebException ex) { res = (HttpWebResponse)ex.Response; } StreamReader sr = new StreamReader(res.GetResponseStream(), strEncode); strHtml = sr.ReadToEnd();当异常发生事后,WebException 中不仅有 StatusCode 标志着 HTTP 的错误代码,而且它的 Response 属性还包含由服务器发送的 WebResponse,来指示遇到的实际 HTTP 错误。   这个问题的解决方法是这么的简单,但是我碰到这个问题后,通过Google、baidu搜索,竟然很多人不知道。所以整理这篇博客,帮助被这个问题困挠的人。
      

  3.   

    我从Reporting Service报表服务器通过WebClient.DownloadData(PageUrl)方法获取Byte[]对象,也遇到此错误,求高手