最近因为要租房子,自己做了一个抓网页的东东,可是遇到一个网站怎么都抓不出数据来,后来打印URLConnection.getContentType(),发现是"text/plain; charset=gb2312",url.openStream()返回的是一个sun.net.www.protocol.http.EmptyInputStream。各位高人,能不能告诉我这样的网站怎么抓啊,比如 http://www.zhantai.com/bj/11/
调试欢乐多
-----
这个和google的原理是一样的
他们为了限制客户端不通过网页直接读取网页内容,就限制只能从浏览器提交请求.
但是我们可以通过修改http头的User-Agent来伪装,这个代码就是这个作用.