怎样用java读取网页的内容,因为我想将网页中的内容转换成pdf文档?

解决方案 »

  1.   

    URLConnection可以搞定,不过好怎么转成pdf就不知道了
      

  2.   

    我说一个方法:
    1、得到网页的url(当然了,没有这个没法取网页);
    2、用url创建一个InetAddress对象,并用它创建一个Socket对象;
    3、从Socket对象得到InputStream和PrintStream;
    4、按照http协议向PrintStream写数据(就是GET URL HTTP/1.0\R\N HOST:...,实际上是给服务器一个请求,就象ie访问一样);
    5、从InputStream取得响应头,分析里面的http状态码,如果是2**的话,说明访问成功,同时监测Location头,看是否有转向。如果转向的话,按照上面的方法继续访问。
    6、如果没有上述的意外情况,在响应头后面有一个空行,然后的内容就是html文件了。
    7、好要注意比如连接超时、socket异常等情况,需要分别处理,比如重试或者终端连接等等。
      

  3.   

    如果想把得到的文件转成pdf文件,最简单的办法是找一个html2pdf的工具,然后用java方法带参数启动这个转换程序。另外,我不知道Adobe公司是否有pdf文档的专用java api库,如果有的话,用哪个导也可以。