http://www.360doc.com/content/11/0511/02/1947337_115852644.shtml
请参照里面输入URL的那个
就是我要求输入URL
能够输出提纯后的纯文本,以str或者.txt文本文本输出都可以

解决方案 »

  1.   

    使用http请求就可以了啊。 读取http://www.360doc.com/content/11/0511/02/1947337_115852644.shtml李买呢的内容 然后可以在保存到本地文件里面 。
    网上搜一下 代码就十几行
      

  2.   

    使用http请求就可以了啊。 读取http://www.360doc.com/content/11/0511/02/1947337_115852644.shtml李买呢的内容 然后可以在保存到本地文件里面 。
    网上搜一下 代码就十几行
      

  3.   

    使用http请求就可以了啊。 读取http://www.360doc.com/content/11/0511/02/1947337_115852644.shtml李买呢的内容 然后可以在保存到本地文件里面 。
    网上搜一下 代码就十几行
      

  4.   

    http://blog.csdn.net/huxiweng/article/details/6722997这是爬图片或者超链接的一个列子,你直接输出html就可以了,就是不用节点过滤。网上代码也很多的。
      

  5.   

    http://blog.csdn.net/huxiweng/article/details/6722997这是爬图片或者超链接的一个列子,你直接输出html就可以了,就是不用节点过滤。网上代码也很多的。
      

  6.   

    用正则表达式,把非汉字替换掉就行啦。。
    String str = "as柔柔弱弱dfa点点滴滴dfwe";
    str = str.replaceAll("[^\u4e00-\u9fa5]+", "\n");
    System.out.println(str);
      

  7.   

    看来大家还没有理解我的意思
    我是想像给出网址那样,能够对于给定URL的网页,提取纯文本内容
      

  8.   

    提取文本内容是否要过滤html标签 ,你说的不清楚啊
      

  9.   

    必然要过滤啊,我要的是纯文本,html标签算纯本文啊????
      

  10.   

    用htmlparser获取到网页内容 然后自己用正则表达式去匹配吧
      

  11.   

    根据lz的需求,可以这么做了,使用httpClient模拟请求http 然后,获取返回的内容,再把返回内容中的,纯文本取出就可。