我可没法确认你是不是女的,(有机会视频吧^_^)但是为了搞你这个弄走我不少时间,写了一个Demo,你看看吧。把获得的结果空字符串去掉就可以。
public class test{
public static void main(String[] args){
String a="<html  sodfsldfksdsdfs>    hello world      </html>";
String[] b=a.split("((<)(\\p{Punct})*((\\w)*( )*)*(>))");
int i=0;
while(i!=b.length){
System.out.println (b[i++]);
} System.out.println (b.length);


}

}

解决方案 »

  1.   

    eddygtimegod(dark) :   谢谢你!好同志!!我先试试看行行~~~~~~~~~~~~~
      

  2.   

    jeffy2100(永远的我) :
      
       哈哈~~~~~~~~~~~~你在这方面比我还菜呀~~~~~~~~~~~~~~~~一起学习吧~~~~~~~~~~
    反正我们都年轻,都输得起~~~~~~~~~~~~~~~~~~~~~~
      

  3.   

    eddygtimegod(dark) :
        
       对了,我怕你见了我之后会“心乱如麻”&&“无心学习”................哈哈~~~~~~~~~可我不怪你~~~~~~~~~~~~~~~
      

  4.   


    import java.io.*;
    import java.util.regex.*;  private String removehtmltag(String htmlstr) {
        Pattern pat = Pattern.compile("\\s*<.*?>\\s*",
                                      Pattern.DOTALL | Pattern.MULTILINE |
                                      Pattern.CASE_INSENSITIVE); 
        Matcher m = pat.matcher(htmlstr);
        //再去掉其它所有html标记
        String rs = m.replaceAll(" ");
        rs = rs.replaceAll("&nbsp", " ");
        rs = rs.replaceAll("&lt;", "<");
        rs = rs.replaceAll("&gt;", ">");
        return rs;
      }
      

  5.   

    呵呵~~说得那么好,那留个联系方式吧,我还嫌我的心太静呢:B
    用短信方式发你的QQ给我吧,或者你加我也可以,QQ:5167822
      

  6.   

    eddygtimegod(dark):
       
       对了,你的代码我试过了,是可以,但如果我想处理的字符串是"="<html  sodfsldfksdsdfs> <body onload="load();"> <title sdfs.......>  hello world </title> </body>    </html>"那好象就不行了~~~~~~~   对了,其实我是想把多个html文件合并成一个html文件,所以才要去掉一些重复"<html><body>"等标记的。除了把html的代码读出来用正则表达式处理后我不知道是否还有其他方法.............
      

  7.   

    我的代码试过了没有????????
    如果只去掉html这个标签Pattern pat = Pattern.compile("\\s*<html.*?>\\s*",
                                      Pattern.DOTALL | Pattern.MULTILINE |
                                      Pattern.CASE_INSENSITIVE); 
      

  8.   


     pigo:你的代码我试过了,可以实现,但我还有些不太清楚,如下:
       1. Pattern pat = Pattern.compile("\\s*<.*?>\\s*",                                   Pattern.DOTALL | Pattern.MULTILINE |
                                      Pattern.CASE_INSENSITIVE); 
        Matcher m = pat.matcher(htmlstr);
        //再去掉其它所有html标记
        String rs = m.replaceAll("");
      

  9.   

    pigo:
    谢谢你!你的代码我试过了,可以实现,但我还有些不太清楚,如下:
       1. Pattern pat = Pattern.compile("\\s*<.*?>\\s*",                                   Pattern.DOTALL | Pattern.MULTILINE |
                                      Pattern.CASE_INSENSITIVE);            中   "\\s*<.*?>\\s*"   的 是什么意思呀,我只知道 . 品配 一个任何字符,而 .* 品配所有的字符,对吧?  
     
               2.  Pattern.DOTALL | Pattern.MULTILINE(品配多行?) |
                                Pattern.CASE_INSENSITIVE (什么...灵敏的?) 这几个参数还不知道是什么意思。           3. String rs = m.replaceAll(" ");是把符合品配条件的字符都替换为空格。也对吧?
            
      

  10.   

    如下的什么???标志(参考REFlags)改变了在预编译的时候正则表达式符号的意义。这些标志是: REFlags.IGNORE_CASE - 忽略大小写 REFlags.MULTILINE - 用^和$来表示一行文本的开头和结尾 REFlags.DOTALL - 用.来表示回车换行 REFlags.IGNORE_SPACES - 忽略空格 REFlags.UNICODE - 使用UNICODE, 即w, d不再被解释为正则表达式的意义,而是被解释为 UNICODE. REFlags.XML_SCHEMA - 使用XML语义。 
      

  11.   

    "\\s*<.*?>\\s*"   以空白字符开头,然后是<再是任意字符,再是>,然后再是任意空白字符。找到的就是
    "
    <html sodfsldfksd~~~~~~~~~~sdfs>"

    "</html> "然后把它们替换成了空格。
      

  12.   


     pigo:    再麻烦你一下:
    "\\s*<.*?>\\s*"      1.  中的 "\\s*" 是指“空白字符开头”?
       
       2.  .*?  再是任意字符? 是指任意  多个  字符?
    谢谢你~~~~~~~~~~
      

  13.   


    "\\s*" 是匹配所有空白字符,且不限制个数。.表示任意字符,*表示不限制,?表示前面的情形可以出0次或者一次,这样就避免匹配到最后一个>去了如果没有?结果就是fdfdfddf<aaa>aaaaa<vcvbvb><vcvcvbbv>gfgffggf就变成fdfdfddf gfgffggf,而不是fdfdfddf aaaaag fgffggf
      

  14.   

    jackyzgm(昵称):    我也是刚学不久,可从google上找到一点资料,可我还看得不太明白~~~~~~~~~~~~不会就学呀,反正我们还年轻~~~~~~~~~~~~~~~~~
      

  15.   

    有能力和心情的时候就帮助别人,在没有得到别人的帮助少些埋怨,真心换真情,就是了。凑巧我以前写了几个正则表达式,所以顺手copy来的。
    http://www.google.com/search?q=java+%D5%FD%D4%F2%B1%ED%B4%EF%CA%BD&hl=zh-CN&lr=lang_zh-CN&ie=gb2312我就是看了 《Java正则表达式详解》凑出几个正则表达式来了。
      

  16.   

    pigo:   你真快,才出门就撞上你了~~~~~~~~~~~哈哈~~~~~~~~~~~~~~~~~~~
      

  17.   

    如果大家要我找到的一些料的话就留下EMAIL吧,回去发给你............就一些,不要嫌少呀~~~~~~~~
      

  18.   

    eddygtimegod(dark):
      
        谢谢你!!!
      

  19.   

    回 hello_girl(我是好看的女程序员,不信拉倒,KAO!)       人说世风日下,人情冷淡......可我觉得大家还是很热心的,只不过在现实生活中把它埋藏了起来(各求自保),很是无奈啊..............嗯~~~~~~~~~~~这是社会问题~~~~~~~~~~~~~~~~~~~不管怎么,大家要努力学习,工作呀,为了自己和自己身边的人能过得更好一点~~~~~~~~~~~~~~谢谢大家!!!这世道,我是个男的,可能也算不上帅,所以,一个和你差不多的问题,几乎无人问津!!!!!
    !!!!
    http://community.csdn.net/Expert/topic/3505/3505512.xml?temp=.0746271
      

  20.   

    呵呵,我天天在csdn瞎逛,参与的问题少,所以对我参与过的问题,基本都是一直看到揭帖为止。to  musicmiao() :参与你的帖子了,希望有所帮助。
      

  21.   

    谢谢,pigo(~_~ ^-^. 。o 0 O O=8526 && 1562=O O 0 o 。. ^-)
      

  22.   

    eddygtimegod(dark):
     
       哈哈~~~~~~~~~~~~~你说话怎么像个外交部的发言人~~~~~~~~~~~~~~~~~~~~~
      

  23.   

    eddygtimegod(dark):   1.对了,"群里面"是什么意思呀?   2.我惊奇地发现你的信誉值是"105",怎么样才能加分的?
      

  24.   

    hello_girl(我是好看的女程序员,不信拉倒,KAO!) :“
    如果大家要我找到的一些料的话就留下EMAIL吧,回去发给你............就一些,不要嫌少呀”你好,这是我的Email:[email protected]  有时间给我发一些关于正则表达式的资料。
    谢谢!!
      

  25.   

    群嘛~就是有关Java的QQ群,比较适合新手,偶尔会有1,2个高手主持一个群,我有几个,但是只有1个群里面的其中一位可以算是比较好的高手,其他大部分都是熟手。比较适合入门到进阶的开发员,当然,我认为最厉害的高手,都是用Email的,很少会上QQ,MSN或者Yahoo什么的^_^(至少,只能找到Email比较多)
    我说话比较土吧,可能,^_^
      

  26.   

    如果只是指定去掉头尾的几个文字的话,可以不用正则表达式,可以指定从文章的首位置(格式标准的最好,否则可以先查找一边然后定点),读取指定的长度(先顶点,再计算该长度)。如果原html不是巨大,可以直接读成字符串,将这几个词用空格取代就是了,更简单。
      

  27.   

    DevotionLife(杨过) :    OK,回家发给你~~~~~~~~~~~
      

  28.   

    hello_girl(我是好看的女程序员,不信拉倒,KAO!) 
       也发给我撒
    [email protected]
    谢谢
      

  29.   

    DevotionLife(杨过),zy13(十年逍遥):  信已发出,请查收,2G的免费邮箱华而不实呀~~~~~~~~~~~~老发不出~~~~~~~~~~气死我了~~~~~~~~~~~~~~~~  ^_^
      

  30.   

    我的问题又来了~~~~~~~~~~~~~~~http://community.csdn.net/Expert/topic/3516/3516492.xml?temp=.9162561