背景:无法用C#程序模拟浏览器去访问一个网站网址:http://www.shishangqiyi.com/Shopping_M/GoodView_Item.asp?Gserial=510365大概查阅了一些资料,就是网站做了一些防爬虫抓取的措施各种能找到的解决方案我也尝试过了,加header加Useragent,用webbrowser用HTTPwebrequest等等无力虚脱了
新人没多少分,但是诚心求组

解决方案 »

  1.   

    试过了,不是Cookie问题,换这个User-Agent试试"Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; CIBA; .NET4.0C; .NET4.0E)"
      

  2.   


    我刚去试了下,貌似他网站又改动了,现在用以前的方法也可以读取了
    我还以为我伪装成百度去抓有效-.-
    不过分还是给你不过现在读下来的内容超级多,ContentLength有14万多,readline到后面都直接卡死
    帅哥你能顺带解答下我这个问题吗
      

  3.   

    140k也不算太长,一般的parser都可以解析。不过你直接readline是有问题的,首先你不知道Encoding,其次不知道是否被gzip之类的压缩过,readline不保证读出来是对的。