例如,我现在有一个String 里面有这个网页的源文件,但是我要去掉那些代码阿标签阿,只要留下显示在浏览器中的文字。

解决方案 »

  1.   

    自己写一个方法 把 '<' '>'之间的全部去掉就可以了
      

  2.   

    如果网页里面也有< >就不对了,是不是可以先取出<> 中的内容,如果后面有对应的</>才可以呢?看是否有更好的方法
      

  3.   

    我研究出来了
    strPage = strPage.replaceAll("\\n*", "");
    strPage = strPage
    .replaceAll(
    "<[sS]+[cC]+[rR]+[iI]+[pP]+[tT]+.+?>.+?</[sS]+[cC]+[rR]+[iI]+[pP]+[tT]+>",
    "");
    strPage = strPage
    .replaceAll(
    "<[sS]+[tT]+[yY]+[lL]+[eE]+.+?>.+?</[sS]+[tT]+[yY]+[lL]+[eE]+>",
    "");
    strPage = strPage.replaceAll("<.+?>", "");
    strPage = strPage.replaceAll("&nbsp", " ");
    strPage = strPage.replaceAll("&gt", " ");
    strPage = strPage.replaceAll(";", "");
    strPage = strPage.replaceAll("\\s+", " ");
    效果还不错