如何将自己批量下载的web页面转化为纯文本文件,也就是在解析web页面的时候,去除页面里面的html标签、图片等等,只剩下纯文字信息。
要求java代码实现的。

解决方案 »

  1.   

     StringBean sb = new StringBean();    
            sb.setURL(url);    
            String text = sb.getStrings();    
            System.out.println(text);    
    可以看看htmlparser
      

  2.   

    还没有更好的方法。我想实现的目标是:在新建一个web文件夹,里面存放自己下载的100个web页面,再新建另外一个文件夹data,里面存放100个txt文档,每个txt与web文件夹里的网页对应。即这100个txt的内容就是解析100个web页面后的文本数据。  这个用JAVA怎实现?哪位大侠有类似的代码?