比如说有这样一个带word格式的字段:<P class=MsoNormal style="MARGIN: 6pt 0cm 6pt 20pt; TEXT-INDENT: -2pt; mso-char-indent-count: -.19; mso-para-margin-left: 1.8gd; mso-para-margin-top: 6.0pt; mso-para-margin-right: 0cm; mso-para-margin-bottom: 6.0pt"><SPAN lang=EN-AU style="FONT-SIZE: 10.5pt; mso-fareast-language: ZH-CN">1.</SPAN><SPAN style="FONT-SIZE: 10.5pt; FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'; mso-fareast-language: ZH-CN">就数据抽取问题与系统运行部进行了专题讨论,运行部建议修订资讯科技的数据管理办法,规范数据使用;</SPAN><SPAN lang=EN-AU style="FONT-SIZE: 10.5pt; mso-fareast-language: ZH-CN"><?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" /><o:p></o:p></SPAN></P>
我想通过java解析,得到一个没有这些word格式的新字段,但是项目符号和编号,空格,换行等都能够保留。请问有没有这样的程序啊,要Java写的,自己写了一段解析的程序,但是word格式实在是太乱了,还是处很多问题。