读取源代码
public String getDocumentAt(String urlString) {
StringBuffer document = new StringBuffer();
try {
URL url = new URL(urlString);
URLConnection conn = url.openConnection();
BufferedReader reader =
new BufferedReader(
new InputStreamReader(conn.getInputStream())); String line = null;
while ((line = reader.readLine()) != null) {
document.append(line);
} reader.close();
} catch (MalformedURLException e) {
System.out.println("Unable to connect to URL: " + urlString);
} catch (IOException e) {
System.out.println(
"IOException when connecting to URL: " + urlString);
}
return document.toString().toLowerCase();
}
统计出源代码后,对他进行分析,可以去除html标签,如删除<style", "/style>之间的内容,很好实现的,也可以用正则表达式。

解决方案 »

  1.   

    import java.io.*;
    import java.net.*;class Sina {
    public static void main(String[] args)
    throws Exception{
         URL url=new URL("http://localhost/index.html");
         InputStreamReader isr=new InputStreamReader(url.openStream());
         BufferedReader br=new BufferedReader(isr);
         FileWriter fr=new FileWriter("c:\\csdn.htm");
         PrintWriter bw=new PrintWriter(fr,true);
         String s=null;
         StringBuffer sb=new StringBuffer();
         while((s=br.readLine())!=null){
         bw.println(s);
         sb.append(s);
         }
         System.out.println ("长度为"+sb.length());
        }
    }
      

  2.   

    可以向该网页发送HTTP请求,断口80,服务器会给你回复content-length,即该文件的大小。
    用URLConnect类就能很方便解决。