我现在碰到个要处理的网页
用ie的察看源程序能看到他的源文件,而用io流获取的源文件却不同
附用io获取的源文件:
<div align="center"><a href="http://www.xfdm.com">进入幸福动漫,或3秒后自动进入</
a>
<script language="JavaScript">
var UrlTable = new Array();UrlTable[0] = "http://www.xfdm.com/";
location.href=UrlTable[Math.round(Math.random()*(UrlTable.length-1))]; </script>
</div>
Press any key to continue...
用ie的察看源程序能看到他的源文件,而用io流获取的源文件却不同
附用io获取的源文件:
<div align="center"><a href="http://www.xfdm.com">进入幸福动漫,或3秒后自动进入</
a>
<script language="JavaScript">
var UrlTable = new Array();UrlTable[0] = "http://www.xfdm.com/";
location.href=UrlTable[Math.round(Math.random()*(UrlTable.length-1))]; </script>
</div>
Press any key to continue...
<HTML>
<HEAD>
<TITLE>幸运四叶草 第45话 第1画</TITLE>
<META http-equiv=Content-Type content="text/html; charset=gb2312">
<META content="幸运四叶草漫画,幸运四叶草在线漫画,幸运四叶草漫画最新连载,幸运四叶草漫画下载" name=keywords>
<META content="幸福动漫,幸运四叶草漫画,幸运四叶草在线漫画,幸运四叶草漫画最新连载,幸运四叶草漫画下载" name=description>
<LINK href="/images/index.css" type=text/css rel=stylesheet>
<BODY leftmargin="0" topmargin="0" marginwidth="0" marginheight="0">
<script language=javascript src="/js/load.js"></script>
<table width="760" border="0" align="center" cellpadding="0" cellspacing="0">
<tr>
<td><script language=javascript src="/js/head.js"></script></td>
</tr>
</table>
<TABLE width=760 border=0 align="center" cellPadding=0 cellSpacing=0>
<TBODY>
<TR>
<TD bgColor=#E4FCFB height=25> 您当前的位置:<a href='/default.html'>幸福动漫</a>
- <a href="../../../index.html">在线漫画</a> - <a href="../../../class/list_p_1.html">漫画列表</a>
- <a href='../../../class/list_p_X_1.html'>X</a> - <a href="../index.html"></a><a href='../index.html'>幸运四叶草</a></TD>
</TR>
<TR>
<TD bgColor=#013bc1 height=3></TD>
</TR>
</TBODY>
</TABLE>
<TABLE width="103%" border=0 cellPadding=0 cellSpacing=0>
<form>
<TR>
<TD height="26" align="center"><script language=javascript src="/js/ads1.js"></script>
上一页 <SELECT onchange=window.location=form.select2.options[form.select2.selectedIndex].value size=1 name=select2><OPTION value=1.html selected>第1页</OPTION> <OPTION value=2.html >第2页</OPTION> <OPTION value=3.html >第3页</OPTION> <OPTION value=4.html >第4页</OPTION> <OPTION value=5.html >第5页</OPTION> <OPTION value=6.html >第6页</OPTION> <OPTION value=7.html >第7页</OPTION> <OPTION value=8.html >第8页</OPTION> <OPTION value=9.html >第9页</OPTION> <OPTION value=10.html >第10页</OPTION> <OPTION value=11.html >第11页</OPTION> <OPTION value=12.html >第12页</OPTION> <OPTION value=13.html >第13页</OPTION> <OPTION value=14.html >第14页</OPTION> <OPTION value=15.html >第15页</OPTION> <OPTION value=16.html >第16页</OPTION> <OPTION value=17.html >第17页</OPTION> <OPTION value=18.html >第18页</OPTION> <OPTION value=19.html >第19页</OPTION> <OPTION value=20.html >第20页</OPTION> </SELECT> <a href='2.html'>下一页</a>
<script language=javascript src="/js/ads2.js"></script></TD>
</TR>
</form>
<TR>
<TD align="center" vAlign=top>
<IMG id=iphoto src="/js/loading.jpg" onload=foo(this) border="1"> </TD>
</TR>
<form>
<TR>
<TD height="25" align="center"><script language=javascript src="/js/ads3.js"></script>
上一页 <SELECT onchange=window.location=form.select2.options[form.select2.selectedIndex].value size=1 name=select2><OPTION value=1.html selected>第1页</OPTION> <OPTION value=2.html >第2页</OPTION> <OPTION value=3.html >第3页</OPTION> <OPTION value=4.html >第4页</OPTION> <OPTION value=5.html >第5页</OPTION> <OPTION value=6.html >第6页</OPTION> <OPTION value=7.html >第7页</OPTION> <OPTION value=8.html >第8页</OPTION> <OPTION value=9.html >第9页</OPTION> <OPTION value=10.html >第10页</OPTION> <OPTION value=11.html >第11页</OPTION> <OPTION value=12.html >第12页</OPTION> <OPTION value=13.html >第13页</OPTION> <OPTION value=14.html >第14页</OPTION> <OPTION value=15.html >第15页</OPTION> <OPTION value=16.html >第16页</OPTION> <OPTION value=17.html >第17页</OPTION> <OPTION value=18.html >第18页</OPTION> <OPTION value=19.html >第19页</OPTION> <OPTION value=20.html >第20页</OPTION> </SELECT> <a href='2.html'>下一页</a>
<script language=javascript src="/js/ads4.js"></script></TD>
</TR>
</form>
</TABLE>
<table width="760" border="0" align="center" cellpadding="0" cellspacing="0">
<tr>
<td><script language=javascript src="/js/bottom.js"></script></td>
</tr>
</table>
</BODY></HTML>
<SCRIPT language=javascript>
document.all.iphoto.src = "/js/loading.jpg";
MM_showHideLayers('Layer2','','show');
document.all.iphoto.src ='http://comic.narutos.net/mh1/xiyuncao/45/JOJO_001.jpg';
</SCRIPT>
"进入幸福动漫,或3秒后自动进入"
是不是和这句话有关系。你的JAVA程序请求的URL是跳转之前的页面。
{
URL url1=new URL("http://manhua.xfdm.com/9/1507/1.html");
// URL url2=new URL("http","manhua.xfdm.com",80,"/9/1507/1.html");
System.out.println("'");
URLConnection con=url1.openConnection();
con.setDoInput(true);
// con.connect();
// int port=url2.getDefaultPort();
// System.out.println(port);
// System.out.println(url2.openConnection().getURL());
BufferedReader reader = new BufferedReader(new InputStreamReader(url1.openStream()));
String line = null;
while ((line = reader.readLine()) != null)
System.out.println(line);
reader.close();
}
catch (MalformedURLException e)
{
e.printStackTrace();
}
catch (IOException e)
{
e.printStackTrace();
}
在代码里我请求的是http://manhua.xfdm.com/9/1507/1.html,但返回的源文件不对
URL url = new URL("http://www.yahoo.com/");
HttpURLConnection conn = (HttpURLConnection)url.openConnection();
conn.connect();
InputStream is = conn.getInputStream();
BufferedReader br = new BufferedReader(new InputStreamReader(is,"gb2312"));
String line="";
while((line = br.readLine())!=null){
out.println(line);
}
br.close();
is.close();
conn.disconnect();
%>
----------------------------
给你一段完整的可执行的码。
如果还有问题,你就只有自己测试了。
先谢谢大大别的网页都可以给出正确的html,只有我需要解析的这个网站上的网页不可以,真的不知道是什么问题吖