我想写一个程序去抓web文件里面的内容,例如去抓
http://www.somenet.com/index.jsp的内容,然后保持到本地 D:\myfiles\index.html中。
请问大家怎样实现?

解决方案 »

  1.   

            InputStream in = null;
            FileOutputStream out = null;
            try {
                URL url = new URL("http://www.somenet.com/index.jsp");
                in = url.openStream();
                out = new FileOutputStream("D:\\myfiles\\index.html");
                int i = 0;
                while ((i = in.read()) != -1)
                    out.write(i);
            } catch (IOException e) {
                // TODO Auto-generated catch block
                e.printStackTrace();
            } finally {
                try {
                    if (out != null)
                        out.close();
                    if (in != null)
                        in.close();
                } catch (IOException e) {
                    e.printStackTrace();
                }
            }
        }
      

  2.   

    看看IO
    FileInputStream
    FileOutputStream
      

  3.   

    直接io或者学习下htmlparser(纯的java写的html解析的库)
      

  4.   

    我是想把你们的html代码全部都写到文件里去
      

  5.   

    不用FileOutputStream
    用BufferedWriter write = new BufferedWriter(new FileWriter("--url--"));
      

  6.   

    有一个lucene的jar包,可以用来解析html文件
      

  7.   


    import java.net.*;
    import java.io.*;
    import java.util.Date;public class myUCDemo
    {
    public static void main(String args[]) throws Exception
    {
    int c;
    URL hp=new URL("http://www.baidu.com");
    URLConnection hpCon=hp.openConnection();
    FileOutputStream fos = new FileOutputStream(new File("./myUCD.txt"));System.out.println("Date:"+new Date(hpCon.getDate()));
    System.out.println("Content-Type:"+hpCon.getContentType());
    System.out.println("Expires:"+hpCon.getExpiration());
    System.out.println("Last-Modified:"+new Date(hpCon.getLastModified()));
    int len=hpCon.getContentLength();
    System.out.println("Content-Length:"+len);
    if(len>0)
    {
    System.out.println("===Content===");
    InputStream input=hpCon.getInputStream();
    int i=len;
    while(((c=input.read())!=-1)&&(--i>0))
    {
    System.out.print((char)c);
    fos.write(c);
    }
    input.close();
    fos.close();
    }
    else
    {
    System.out.println("No Content Available");
    }}}
      

  8.   

    代码还是有点问题。
    FileOutputStream fos = new FileOutputStream(new File("./myUCD.txt")); 改为new File("./myUCD.html");
    另外运行后发现最后一格少个">"号。
    你自己加上吧
    或者close()前面
    fos.write('>');