现有字符串<html><head>标题</head><body>这是正文<p>这是p标记</p></body></html>,请问怎样才能将这些html标记给去掉

解决方案 »

  1.   

    String htmlText = "<html><HEAD>标题</head><body>这是正文<p>这是p标记</p></body></html>";
    String text = htmlText.replaceAll("<[a-zA-Z/]*>", "");
    System.out.println("text: " + text);
      

  2.   

    或者使用这个
    String htmlText = "<html><HEAD>标题</head><body>这是正文<p>这是p标记</p></body></html>";
    String text = htmlText.replaceAll("<.[^>]*>", "");
    System.out.println("text: " + text);