一个关于 java 正则表达式的问题

我可没法确认你是不是女的，（有机会视频吧^_^）但是为了搞你这个弄走我不少时间，写了一个Demo，你看看吧。把获得的结果空字符串去掉就可以。
public class test{
public static void main(String[] args){
String a="<html sodfsldfksdsdfs> hello world </html>";
String[] b=a.split("((<)(\\p{Punct})*((\\w)*( )*)*(>))");
int i=0;
while(i!=b.length){
System.out.println (b[i++]);
} System.out.println (b.length);

}

}

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

eddygtimegod(dark) :   谢谢你！好同志！！我先试试看行行~~~~~~~~~~~~~
jeffy2100(永远的我) :

   哈哈~~~~~~~~~~~~你在这方面比我还菜呀~~~~~~~~~~~~~~~~一起学习吧~~~~~~~~~~
反正我们都年轻，都输得起~~~~~~~~~~~~~~~~~~~~~~
eddygtimegod(dark) :

   对了，我怕你见了我之后会“心乱如麻”&&“无心学习”................哈哈~~~~~~~~~可我不怪你~~~~~~~~~~~~~~~
import java.io.*;
import java.util.regex.*;  private String removehtmltag(String htmlstr) {
    Pattern pat = Pattern.compile("\\s*<.*?>\\s*",
                                  Pattern.DOTALL | Pattern.MULTILINE |
                                  Pattern.CASE_INSENSITIVE);
    Matcher m = pat.matcher(htmlstr);
    //再去掉其它所有html标记
    String rs = m.replaceAll(" ");
    rs = rs.replaceAll("&nbsp", " ");
    rs = rs.replaceAll("<", "<");
    rs = rs.replaceAll(">", ">");
    return rs;
  }
呵呵～～说得那么好，那留个联系方式吧，我还嫌我的心太静呢：B
用短信方式发你的QQ给我吧，或者你加我也可以，QQ：5167822
eddygtimegod(dark)：

   对了，你的代码我试过了，是可以，但如果我想处理的字符串是"="<html  sodfsldfksdsdfs> <body onload="load();"> <title sdfs.......>  hello world </title> </body>    </html>"那好象就不行了~~~~~~~   对了，其实我是想把多个html文件合并成一个html文件，所以才要去掉一些重复"<html><body>"等标记的。除了把html的代码读出来用正则表达式处理后我不知道是否还有其他方法.............
我的代码试过了没有？？？？？？？？
如果只去掉html这个标签Pattern pat = Pattern.compile("\\s*<html.*?>\\s*",
                                  Pattern.DOTALL | Pattern.MULTILINE |
                                  Pattern.CASE_INSENSITIVE);
pigo:你的代码我试过了，可以实现，但我还有些不太清楚，如下：
   1. Pattern pat = Pattern.compile("\\s*<.*?>\\s*",                                   Pattern.DOTALL | Pattern.MULTILINE |
                                  Pattern.CASE_INSENSITIVE);
    Matcher m = pat.matcher(htmlstr);
    //再去掉其它所有html标记
    String rs = m.replaceAll("");
pigo:
谢谢你！你的代码我试过了，可以实现，但我还有些不太清楚，如下：
   1. Pattern pat = Pattern.compile("\\s*<.*?>\\s*",                                   Pattern.DOTALL | Pattern.MULTILINE |
                                  Pattern.CASE_INSENSITIVE);            中   "\\s*<.*?>\\s*"   的是什么意思呀，我只知道 . 品配一个任何字符，而 .* 品配所有的字符，对吧？

           2.  Pattern.DOTALL | Pattern.MULTILINE(品配多行？) |
                            Pattern.CASE_INSENSITIVE （什么...灵敏的？）这几个参数还不知道是什么意思。           3. String rs = m.replaceAll(" ");是把符合品配条件的字符都替换为空格。也对吧？
如下的什么？？？标志(参考REFlags)改变了在预编译的时候正则表达式符号的意义。这些标志是： REFlags.IGNORE_CASE - 忽略大小写 REFlags.MULTILINE - 用^和$来表示一行文本的开头和结尾 REFlags.DOTALL - 用.来表示回车换行 REFlags.IGNORE_SPACES - 忽略空格 REFlags.UNICODE - 使用UNICODE, 即w, d不再被解释为正则表达式的意义，而是被解释为 UNICODE. REFlags.XML_SCHEMA - 使用XML语义。
"\\s*<.*?>\\s*"   以空白字符开头，然后是<再是任意字符，再是>，然后再是任意空白字符。找到的就是
"
<html sodfsldfksd~~~~~~~~~~sdfs>"
和
"</html> "然后把它们替换成了空格。
pigo:    再麻烦你一下：
"\\s*<.*?>\\s*"      1.  中的 "\\s*" 是指“空白字符开头”？

   2.  .*?  再是任意字符? 是指任意  多个  字符？
谢谢你~~~~~~~~~~
"\\s*" 是匹配所有空白字符，且不限制个数。.表示任意字符，*表示不限制，?表示前面的情形可以出0次或者一次，这样就避免匹配到最后一个>去了如果没有?结果就是fdfdfddf<aaa>aaaaa<vcvbvb><vcvcvbbv>gfgffggf就变成fdfdfddf gfgffggf，而不是fdfdfddf aaaaag fgffggf
jackyzgm(昵称):    我也是刚学不久,可从google上找到一点资料,可我还看得不太明白~~~~~~~~~~~~不会就学呀,反正我们还年轻~~~~~~~~~~~~~~~~~
有能力和心情的时候就帮助别人，在没有得到别人的帮助少些埋怨，真心换真情,就是了。凑巧我以前写了几个正则表达式，所以顺手copy来的。
http://www.google.com/search?q=java+%D5%FD%D4%F2%B1%ED%B4%EF%CA%BD&hl=zh-CN&lr=lang_zh-CN&ie=gb2312我就是看了《Java正则表达式详解》凑出几个正则表达式来了。
pigo:   你真快,才出门就撞上你了~~~~~~~~~~~哈哈~~~~~~~~~~~~~~~~~~~
如果大家要我找到的一些料的话就留下EMAIL吧,回去发给你............就一些,不要嫌少呀~~~~~~~~
eddygtimegod(dark):

    谢谢你!!!
回 hello_girl(我是好看的女程序员,不信拉倒,KAO!)       人说世风日下,人情冷淡......可我觉得大家还是很热心的,只不过在现实生活中把它埋藏了起来(各求自保),很是无奈啊..............嗯~~~~~~~~~~~这是社会问题~~~~~~~~~~~~~~~~~~~不管怎么,大家要努力学习,工作呀,为了自己和自己身边的人能过得更好一点~~~~~~~~~~~~~~谢谢大家!!!这世道，我是个男的，可能也算不上帅，所以，一个和你差不多的问题，几乎无人问津！！！！！
！！！！
http://community.csdn.net/Expert/topic/3505/3505512.xml?temp=.0746271
呵呵，我天天在csdn瞎逛，参与的问题少，所以对我参与过的问题，基本都是一直看到揭帖为止。to  musicmiao() :参与你的帖子了，希望有所帮助。
谢谢，pigo(~_~ ^-^. 。o 0 O Ｏ=8526 && 1562=Ｏ O 0 o 。. ^-)
eddygtimegod(dark):

   哈哈~~~~~~~~~~~~~你说话怎么像个外交部的发言人~~~~~~~~~~~~~~~~~~~~~
eddygtimegod(dark):   1.对了,"群里面"是什么意思呀?   2.我惊奇地发现你的信誉值是"105",怎么样才能加分的?
hello_girl(我是好看的女程序员,不信拉倒,KAO!) ：“
如果大家要我找到的一些料的话就留下EMAIL吧,回去发给你............就一些,不要嫌少呀”你好，这是我的Email：[email protected]  有时间给我发一些关于正则表达式的资料。
谢谢！！
群嘛～就是有关Java的QQ群，比较适合新手，偶尔会有1，2个高手主持一个群，我有几个，但是只有1个群里面的其中一位可以算是比较好的高手，其他大部分都是熟手。比较适合入门到进阶的开发员，当然，我认为最厉害的高手，都是用Email的，很少会上QQ，MSN或者Yahoo什么的^_^（至少，只能找到Email比较多）
我说话比较土吧，可能，^_^
如果只是指定去掉头尾的几个文字的话，可以不用正则表达式，可以指定从文章的首位置（格式标准的最好，否则可以先查找一边然后定点），读取指定的长度（先顶点，再计算该长度）。如果原html不是巨大，可以直接读成字符串，将这几个词用空格取代就是了，更简单。
DevotionLife(杨过) :    OK,回家发给你~~~~~~~~~~~
hello_girl(我是好看的女程序员,不信拉倒,KAO!)
   也发给我撒
[email protected]
谢谢
DevotionLife(杨过),zy13(十年逍遥):  信已发出，请查收，2G的免费邮箱华而不实呀~~~~~~~~~~~~老发不出~~~~~~~~~~气死我了~~~~~~~~~~~~~~~~  ^_^
我的问题又来了~~~~~~~~~~~~~~~http://community.csdn.net/Expert/topic/3516/3516492.xml?temp=.9162561