求一个能够读取网页纯文本内容的程序

http://www.360doc.com/content/11/0511/02/1947337_115852644.shtml
请参照里面输入URL的那个
就是我要求输入URL
能够输出提纯后的纯文本，以str或者.txt文本文本输出都可以

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

使用http请求就可以了啊。读取http://www.360doc.com/content/11/0511/02/1947337_115852644.shtml李买呢的内容然后可以在保存到本地文件里面。
网上搜一下代码就十几行
使用http请求就可以了啊。读取http://www.360doc.com/content/11/0511/02/1947337_115852644.shtml李买呢的内容然后可以在保存到本地文件里面。
网上搜一下代码就十几行
使用http请求就可以了啊。读取http://www.360doc.com/content/11/0511/02/1947337_115852644.shtml李买呢的内容然后可以在保存到本地文件里面。
网上搜一下代码就十几行
http://blog.csdn.net/huxiweng/article/details/6722997这是爬图片或者超链接的一个列子，你直接输出html就可以了，就是不用节点过滤。网上代码也很多的。
http://blog.csdn.net/huxiweng/article/details/6722997这是爬图片或者超链接的一个列子，你直接输出html就可以了，就是不用节点过滤。网上代码也很多的。
用正则表达式，把非汉字替换掉就行啦。。
String str = "as柔柔弱弱dfa点点滴滴dfwe";
str = str.replaceAll("[^\u4e00-\u9fa5]+", "\n");
System.out.println(str);
看来大家还没有理解我的意思
我是想像给出网址那样，能够对于给定URL的网页，提取纯文本内容
提取文本内容是否要过滤html标签，你说的不清楚啊
必然要过滤啊，我要的是纯文本，html标签算纯本文啊？？？？
用htmlparser获取到网页内容然后自己用正则表达式去匹配吧
根据lz的需求，可以这么做了，使用httpClient模拟请求http 然后，获取返回的内容，再把返回内容中的，纯文本取出就可。