java读取html完整内容 - 调试易

java读取html完整内容

请问java如何将本地的html文件的内容从头到尾完整的读取出来，从<html>开始到</html>结束

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

OK,我是这样玩的，大家看下还有没其他方法 public String getLocalHtmlStream(String path) throws Exception {
File f = new File(path);
if (!f.exists() && !f.getAbsolutePath().endsWith("html")) {
System.out.println("error");
return "";
} //
InputStream in = new FileInputStream(f);
StringBuffer b = new StringBuffer();
int c;
while ((c = in.read()) != -1) {
b.append((char) c);
}
return new String(b.toString().getBytes("ISO-8859-1"),"gbk");
}
有第三方jar包可以抓取HTML 标签内容
URL url = new URL(s);
            DataInputStream datainputstream = new DataInputStream(url.openConnection().getInputStream());
            ByteArrayOutputStream bytearrayoutputstream = new ByteArrayOutputStream();
            try{
                byte abyte0[] = new byte[1024];
                boolean flag = false;
                do{
                    int i = datainputstream.read(abyte0);
                    if(i == -1)
                        break;
                    bytearrayoutputstream.write(abyte0, 0, i);
                } while(true);
                bytearrayoutputstream.flush();
                byte abyte1[] = bytearrayoutputstream.toByteArray();
                s1 = new String(abyte1, 0, abyte1.length, "GB2312");
JDK的网络包中有专门用于解析HTML的API，完全可以实现你的需求
楼主是想只读出<html></html>之间的内容，页面中其他内容不读取。
第三方java包，要不就自己解析dom