现在有这样的数据
 <a href="pl36877.html">协同作战能力强,效率高,响应快</a>
 </div> </div> </div>
 <div class='authorInfo' style="color:#666666;">
 <span class="fratingstars"><span style="width:47.2px"></span></span><span class=''>
 一位在深圳工作的供应链管理发布的评论,现在的员工 - 发布于2011-10.03
 </span>
 </div>
 </div>
 <p class="" style="padd-bottom:3px;"><strong>公司的优点</strong></p>
 优美舒适的办公环境,积极高效的工作氛围,协同作战的一贯作风,基层工作的关系简单,人与人之间无勾心斗角,有一定的发展空间,取决你是否具备足够的狼性工作作风,业界偏上的薪酬福利,非研发类在国家规定的假期都可以休息,假期有加班工资,公司年龄段比较年轻,学习能力也比较强
 <br /><br /><p class="" style="padd-bottom:3px;"><strong>公司的缺点</strong></p>
 高层对基层员工的信任度不够,日常低效的会议越来越多,严重占用正常的工作时间,导致工作不能在正常的工作时间完成,只能靠加班,领导的决策往往分量比较大,通常座位决定智慧,长时间的工作内容机械无挑战,经常组织一些喊口号的活动,在大方向上没有一个明确的定位和战略规划,每个产品都各具特色,与国际大的通信公司在管理上还是有很大差距。员工流动率高,人力资源很难留住人才,一直是是铁打的营盘流水的兵,所以每年大规模的招聘。
 <br /><br /><p class="" style="padd-bottom:3px;"><strong>你给公司的建议</strong></p>
 1、充分信任员工,想办法留住员工,而不是花力气大批招聘,这样培训的成本更高。<br />
 2、大公司应该有大公司的气魄,不要为了一些小的开支或加班费,带薪年休假之类的搞什么奋斗者协议,往往凉了员工的心。<br />
 3、继续发扬老一辈自我批评和改进的座谈会,少开占时间,无效率的会。<br />
 4、制定产品统一的大战略,如何增强通用性和大规模生产,公司发展到一定程度应该向规模经济发展,而不是一味地做一个市场的搅局者和破坏者,用定制和低成本攻破市场,最终隐性成本增加质量也容易出现问题,类似问题要向苹果、诺基亚学习。要做就做精,不要贪大。<br />
 5、公司不同大部门岗位员工要实行公开民主调配、轮岗,发挥员工积极性和向心力,降低离职率,提升员工物质待遇和精神工资,吸引人才更要留住人才。
我要用正则提取里面内容 请教大神下的如下代码 但是有点问题 求大神给解决下
public static void main(String[] args) {
  BufferedReader reader = null;
  try {
  reader = new BufferedReader(new FileReader("d:/aaa.txt"));
  } catch (FileNotFoundException e) {
  // TODO Auto-generated catch block
  e.printStackTrace();
  }
  StringBuffer sb = new StringBuffer();
  String str = null;
  try {
  while ((str = reader.readLine()) != null) {
  sb.append(str);
  }
  } catch (IOException e) {
  // TODO Auto-generated catch block
  e.printStackTrace();
  }
  String content = sb.toString().replaceAll("\n|<br />", "");
  System.out.println(content);
  Pattern pattern = Pattern
  .compile(">([^<]+)</a.*class=\\'\\'>([^<]+)</span.*?"
  + "ng>([^<]+)<.*?/p>([^<]+)<p.*?"
  + "ng>([^<]+)<.*?/p>([^<]+)<p.*?"
  + "ng>([^<]+)<.*?/p>([^<]+)$");
  Matcher matcher = pattern.matcher(content);
  sb = new StringBuffer();
  if (matcher.find()) {
  sb.append(matcher.group(1) + "\n");
  sb.append(matcher.group(2) + "\n");
  sb.append(matcher.group(3));
  sb.append(":");
  sb.append(matcher.group(4) + "\n");
  sb.append(matcher.group(5));
  sb.append(":");
  sb.append(matcher.group(6) + "\n");
  sb.append(matcher.group(7));
  sb.append(":");
  sb.append(matcher.group(8) + "\n");
  }
  System.out.println(sb);
  }输出带有这样的内容 <a href="pl36877.html">协同作战能力强,效率高,响应快</a></div> 想把标签去掉

解决方案 »

  1.   

    是要把标签都去掉吧?replaceAll的时候也带上标签    <.*?>
      

  2.   

    我的意思是 我写那个正则过滤的不全 还是会有一些html标签打印出来
      

  3.   

    所以我说把这类标签也过滤掉么 用表达式<.*?>
      

  4.   

    谢谢 已经解决了  这个是web-harvest的脚本 挺麻烦的 是<.*?>但是遇到<br/>就会停止 我用脚本去掉<br/>了
      

  5.   

    单纯的话,<br/>也一样能去掉的啊可能有其它未知的因素影响到了。