请问？

读取源代码
public String getDocumentAt(String urlString) {
StringBuffer document = new StringBuffer();
try {
URL url = new URL(urlString);
URLConnection conn = url.openConnection();
BufferedReader reader =
new BufferedReader(
new InputStreamReader(conn.getInputStream())); String line = null;
while ((line = reader.readLine()) != null) {
document.append(line);
} reader.close();
} catch (MalformedURLException e) {
System.out.println("Unable to connect to URL: " + urlString);
} catch (IOException e) {
System.out.println(
"IOException when connecting to URL: " + urlString);
}
return document.toString().toLowerCase();
}
统计出源代码后，对他进行分析，可以去除html标签，如删除<style", "/style>之间的内容，很好实现的，也可以用正则表达式。

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

import java.io.*;
import java.net.*;class Sina {
public static void main(String[] args)
throws Exception{
     URL url=new URL("http://localhost/index.html");
     InputStreamReader isr=new InputStreamReader(url.openStream());
     BufferedReader br=new BufferedReader(isr);
     FileWriter fr=new FileWriter("c:\\csdn.htm");
     PrintWriter bw=new PrintWriter(fr,true);
     String s=null;
     StringBuffer sb=new StringBuffer();
     while((s=br.readLine())!=null){
     bw.println(s);
     sb.append(s);
     }
     System.out.println ("长度为"+sb.length());
    }
}
可以向该网页发送HTTP请求，断口80，服务器会给你回复content-length，即该文件的大小。
用URLConnect类就能很方便解决。