尝试过转成dom文件去操作,但是源htm不标准,不能转成dom文件。然后文本方式+正则处理,处理完发现数据和表项混在一起了,没办法分开了,于是各种杯具就产生了。希望有高手指点一下部分源htm代码
<TABLE width="100%">
<TBODY>
<TR vAlign=top>
<TD width="50%">
<TABLE class=shade cellSpacing=0 width="90%" border=1>
<TBODY>
<TR>
<TD class=unl><STRONG>发往:</STRONG></TD></TR>
<TR>
<TD class=unl>Various</TD></TR>
<TR></TR>
<TR>
<TD class=unl><INPUT type=hidden value=~~~ name=addr3>
</TD></TR>
<TR>
<TD class=unl></TD><INPUT type=hidden name=addr2> </TR>
<TR>
<TD class=unl></TD></TR></TBODY></TABLE><BR>
<TABLE class=shade cellSpacing=0 width="90%" border=1>
<TBODY>
<TR>
<TD class=unl><STRONG>帐单送往:</STRONG></TD></TR>
<TR>
<TD class=unl>邮政编码:518040 </TD></TR>
<TR>
<TD class=unl>深圳市福田区农林路69号深国投广场 </TD></TR>
<TR>
<TD class=unl>二号楼2-5层及三号楼1-12层 </TD></TR>
<TR>
<TD class=unl>沃尔玛(中国)投资有限公司 </TD></TR>
<TR>
<TD class=unl>财 </TD></TR>
<TR>
<TD
class=unl><STRONG>税号:</STRONG> 440301710936858</TD></TR></TBODY></TABLE><BR><BR><BR><BR>
<TABLE class=shade cellSpacing=0 width="100%" border=1>
<TBODY>
<TR>
<TD class=unl><STRONG>供应商名 :</STRONG></TD>
<TD class=unl>东莞市远梦家用纺织品有限公司<INPUT type=hidden
value=东莞市远梦家用纺织品有限公司 name=supname> </TD></TR>
<TR>
<TD class=unl>供应商号: </TD>
<TD class=unl><INPUT type=hidden value=717782226
name=supnbr>717782226</TD></TR></TBODY></TABLE></TD>
<TD>
<TABLE width="100%" valign="top">
<TBODY>
<TR vAlign=top>
<TD>
<TABLE class=shade cellSpacing=0 width="90%" align=right
border=1 valign="top">
<TBODY>
<TR vAlign=top>
<TD class=unl><STRONG>订单号:</STRONG></TD>
<TD class=unl> 2300040593</TD></TR><INPUT type=hidden
value=2300040593 name=ponbr><INPUT type=hidden
value=SA name=potype><INPUT type=hidden name=relnbr>
<TR>
<TD class=unl>订单日期: </TD>
<TD class=unl> 11/2/2010<INPUT type=hidden
value=20101102 name=podate> </TD></TR>
<TR>
<TD class=unl>发货日期 :</TD>
<TD class=unl> 11/3/2010</TD></TR>
<TR>
<TD class=unl>取消日期:</TD>
<TD
class=unl> 11/10/2010</TD></TR></TBODY></TABLE></TD></TR>
<TR>
<TD colSpan=2></TD></TR>
<TR>
<TD colSpan=2>
<TABLE class=shade cellSpacing=0 width="80%" align=left
border=1 valign="bottom">
<TBODY>
<TR>
<TD class=unll width="30%">订货类型: </TD>
<TD class=unll> 0057<INPUT type=hidden value=0057
name=ordtyp> </TD></TR>
<TR>
<TD class=unll>部门: </TD>
<TD class=unl> 00022<INPUT type=hidden value=00022
name=deptnbr> </TD></TR>
<TR>
<TD class=unll>主题#: </TD>
<TD class=unll> TAB</TD></TR>
<TR>
<TD class=unll>付款条件: </TD>
<TD class=unll>NET 60<INPUT type=hidden value=05
name=ITD01><INPUT type=hidden value=15
name=ITD02><INPUT type=hidden name=ITD03><INPUT
type=hidden name=ITD05><INPUT type=hidden value=60
name=terms> </TD></TR>
<TR>
<TD class=unll>交货点 </TD>
<TD class=unll> 制表人(售方)<INPUT type=hidden value=PP
name=fob> </TD></TR>
<TR>
<TD class=unll>承运者 </TD>
<TD class=unll> VENDOR ROUTE<INPUT type=hidden
value="VENDOR ROUTE" name=carrier> </TD></TR>
<TR>
<TD class=unll>启运地 </TD>
<TD class=unll> SHENZHEN
CN</TD></TR></TBODY></TABLE></TD></TR></TBODY></TABLE></TD></TR></TBODY>
</TABLE>
<TABLE width="100%">
<TBODY>
<TR vAlign=top>
<TD width="50%">
<TABLE class=shade cellSpacing=0 width="90%" border=1>
<TBODY>
<TR>
<TD class=unl><STRONG>发往:</STRONG></TD></TR>
<TR>
<TD class=unl>Various</TD></TR>
<TR></TR>
<TR>
<TD class=unl><INPUT type=hidden value=~~~ name=addr3>
</TD></TR>
<TR>
<TD class=unl></TD><INPUT type=hidden name=addr2> </TR>
<TR>
<TD class=unl></TD></TR></TBODY></TABLE><BR>
<TABLE class=shade cellSpacing=0 width="90%" border=1>
<TBODY>
<TR>
<TD class=unl><STRONG>帐单送往:</STRONG></TD></TR>
<TR>
<TD class=unl>邮政编码:518040 </TD></TR>
<TR>
<TD class=unl>深圳市福田区农林路69号深国投广场 </TD></TR>
<TR>
<TD class=unl>二号楼2-5层及三号楼1-12层 </TD></TR>
<TR>
<TD class=unl>沃尔玛(中国)投资有限公司 </TD></TR>
<TR>
<TD class=unl>财 </TD></TR>
<TR>
<TD
class=unl><STRONG>税号:</STRONG> 440301710936858</TD></TR></TBODY></TABLE><BR><BR><BR><BR>
<TABLE class=shade cellSpacing=0 width="100%" border=1>
<TBODY>
<TR>
<TD class=unl><STRONG>供应商名 :</STRONG></TD>
<TD class=unl>东莞市远梦家用纺织品有限公司<INPUT type=hidden
value=东莞市远梦家用纺织品有限公司 name=supname> </TD></TR>
<TR>
<TD class=unl>供应商号: </TD>
<TD class=unl><INPUT type=hidden value=717782226
name=supnbr>717782226</TD></TR></TBODY></TABLE></TD>
<TD>
<TABLE width="100%" valign="top">
<TBODY>
<TR vAlign=top>
<TD>
<TABLE class=shade cellSpacing=0 width="90%" align=right
border=1 valign="top">
<TBODY>
<TR vAlign=top>
<TD class=unl><STRONG>订单号:</STRONG></TD>
<TD class=unl> 2300040593</TD></TR><INPUT type=hidden
value=2300040593 name=ponbr><INPUT type=hidden
value=SA name=potype><INPUT type=hidden name=relnbr>
<TR>
<TD class=unl>订单日期: </TD>
<TD class=unl> 11/2/2010<INPUT type=hidden
value=20101102 name=podate> </TD></TR>
<TR>
<TD class=unl>发货日期 :</TD>
<TD class=unl> 11/3/2010</TD></TR>
<TR>
<TD class=unl>取消日期:</TD>
<TD
class=unl> 11/10/2010</TD></TR></TBODY></TABLE></TD></TR>
<TR>
<TD colSpan=2></TD></TR>
<TR>
<TD colSpan=2>
<TABLE class=shade cellSpacing=0 width="80%" align=left
border=1 valign="bottom">
<TBODY>
<TR>
<TD class=unll width="30%">订货类型: </TD>
<TD class=unll> 0057<INPUT type=hidden value=0057
name=ordtyp> </TD></TR>
<TR>
<TD class=unll>部门: </TD>
<TD class=unl> 00022<INPUT type=hidden value=00022
name=deptnbr> </TD></TR>
<TR>
<TD class=unll>主题#: </TD>
<TD class=unll> TAB</TD></TR>
<TR>
<TD class=unll>付款条件: </TD>
<TD class=unll>NET 60<INPUT type=hidden value=05
name=ITD01><INPUT type=hidden value=15
name=ITD02><INPUT type=hidden name=ITD03><INPUT
type=hidden name=ITD05><INPUT type=hidden value=60
name=terms> </TD></TR>
<TR>
<TD class=unll>交货点 </TD>
<TD class=unll> 制表人(售方)<INPUT type=hidden value=PP
name=fob> </TD></TR>
<TR>
<TD class=unll>承运者 </TD>
<TD class=unll> VENDOR ROUTE<INPUT type=hidden
value="VENDOR ROUTE" name=carrier> </TD></TR>
<TR>
<TD class=unll>启运地 </TD>
<TD class=unll> SHENZHEN
CN</TD></TR></TBODY></TABLE></TD></TR></TBODY></TABLE></TD></TR></TBODY>
</TABLE>
解决方案 »
- tomcat启动时报错,,
- hibernate many to one 插入时报错
- 求linux书籍
- 各位大哥帮忙啊
- 请教:如何验证JSP中的表单form里,文本输入框是不是空值?
- 初学者问jsp中代码执行顺序是怎样的
- 大家好,我要做一个java视频教学网,由我来主讲,可是不知道注册什么域名好,高人帮我想想
- 关于java环境配置??????????????????急。。。。
- 【Resin】有没有resin玩得熟的?
- 帮助回答几个问题.送分.急.
- jsp 调试问题 source not found for org.apache.jsp.action.address_jsp
- java derby数据库使用报错java.lang.ClassNotFoundException: org.apache.derby.jdbc.Embedde
jsoup 或者 htmlparse 你去搜下