最近因为要租房子,自己做了一个抓网页的东东,可是遇到一个网站怎么都抓不出数据来,后来打印URLConnection.getContentType(),发现是"text/plain; charset=gb2312",url.openStream()返回的是一个sun.net.www.protocol.http.EmptyInputStream。各位高人,能不能告诉我这样的网站怎么抓啊,比如 http://www.zhantai.com/bj/11/

解决方案 »

  1.   

    已经搞定了,加一句con.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 6.0;Windows 2000)");就行了,晕了
      

  2.   

    加一句con.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 6.0;Windows 2000)");
    -----
    这个和google的原理是一样的
    他们为了限制客户端不通过网页直接读取网页内容,就限制只能从浏览器提交请求.
    但是我们可以通过修改http头的User-Agent来伪装,这个代码就是这个作用.