怎样获取一个网页中的文字内容？ - 调试易

怎样获取一个网页中的文字内容？

例如，我现在有一个String 里面有这个网页的源文件，但是我要去掉那些代码阿标签阿，只要留下显示在浏览器中的文字。

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

自己写一个方法把 '<' '>'之间的全部去掉就可以了
如果网页里面也有< >就不对了，是不是可以先取出<> 中的内容，如果后面有对应的</>才可以呢？看是否有更好的方法
我研究出来了
strPage = strPage.replaceAll("\\n*", "");
strPage = strPage
.replaceAll(
"<[sS]+[cC]+[rR]+[iI]+[pP]+[tT]+.+?>.+?</[sS]+[cC]+[rR]+[iI]+[pP]+[tT]+>",
"");
strPage = strPage
.replaceAll(
"<[sS]+[tT]+[yY]+[lL]+[eE]+.+?>.+?</[sS]+[tT]+[yY]+[lL]+[eE]+>",
"");
strPage = strPage.replaceAll("<.+?>", "");
strPage = strPage.replaceAll("&nbsp", " ");
strPage = strPage.replaceAll("&gt", " ");
strPage = strPage.replaceAll(";", "");
strPage = strPage.replaceAll("\\s+", " ");
效果还不错