<HTML><HEAD><TITLE>CXOutputDetail.jsp</TITLE>
<TABLE class=TableMain id=mainTable cellSpacing=0 cellPadding=0
width="100%" align=center border=1>
<TBODY>
<TR class="">
<TD class=TableDetail2 width="13%">
<DIV align=right>人员编号</DIV></TD>
<TD class=TableDetail1 colSpan=4> T110006070354</TD>
<TD class=TableDetail1 vAlign=center align=middle width="19%"
rowSpan=8>
<TABLE cellSpacing=0 cellPadding=0 border=0>
<TBODY>
<TR>
<TD><IMG id=ryxp
onclick="showphoto('110105000010091','9')"
src="CXOutputDetail_files/viewattch.jpg" width=130> </TD></TR>
<TR>
<TD align=middle><U onmouseover=changecouser(this)
onclick="showphoto('1101050000000010091')"><FONT color=blue
size=2>点击查看所有照片</FONT></U> </TD></TR></TBODY></TABLE></TD></TR>
<TR class="">
<TD class=TableDetail2 width="13%">
<DIV align=right>姓名</DIV></TD>
<TD class=TableDetail1 width="26%"> 梁伟志</TD>
<TD class=TableDetail2 width="11%">
<DIV align=right>别名绰号</DIV></TD>
<TD class=TableDetail1 colSpan=2> </TD></TR>
<TR class="">
<TD class=TableDetail2 width="13%">
<DIV align=right>性别</DIV></TD>
<TD class=TableDetail1 width="26%"> 男</TD>
<TD class=TableDetail2 width="11%">
<DIV align=right>出生日期</DIV></TD>
<TD class=TableDetail1 colSpan=2> 1965-03-17</TD></TR>
<TR class="">
<TD class=TableDetail2 width="13%">
<DIV align=right>现住地址</DIV></TD>
<TD class=TableDetail1 width="26%"
colSpan=5> 广东广州市海珠区 永兴街58号之三201房</TD></TR>
<TR class="">
<TD class=TableDetail2 width="13%">
<DIV align=right>籍贯</DIV></TD>
<TD class=TableDetail1 width="26%" colSpan=5> </TD></TR>
<TR class="">
<TD class=TableDetail2 width="13%">
<DIV align=right>体貌特征</DIV></TD>
<TD class=TableDetail1 colSpan=5> </TD></TR>
<TR class="">
<TD class=TableDetail2 width="13%" height=21>
<DIV align=right>特殊标记</DIV></TD>
<TD class=TableDetail1 colSpan=5> </TD></TR>
<TR class="">
<TD class=TableDetail2 width="13%">
<DIV align=right>案件编号</DIV></TD>
<TD class=TableDetail1 colSpan=5> A1101054700002006020036</TD></TR>
<TR class="">
<TD class=TableDetail2 width="13%">
<DIV align=right>案件类别</DIV></TD>
<TD class=TableDetail1 width="26%" colSpan=5> 诈骗案</TD></TR>
<TR class="">
<TD class=TableDetail2 width="13%">
<DIV align=right> 简要案情及附加信息</DIV></TD>
<TD class=TableDetail1
colSpan=5> 2005年9月嫌疑人虚构可以购买广州市海珠区以后可以升值为由,诈骗事主梁铁航人民币740000元。</TD></TR>
<TD class=TableDetail1 colSpan=5> </TD></TR></TBODY></TABLE>
这是我要提取内容的部分网页,我现在是想得到第一个<Table>里的单元格数据,比如 姓名 梁伟志等,嵌套的那个Table另写表达式读出来, 请问这两个表达式该怎么写呢?请教
<TABLE class=TableMain id=mainTable cellSpacing=0 cellPadding=0
width="100%" align=center border=1>
<TBODY>
<TR class="">
<TD class=TableDetail2 width="13%">
<DIV align=right>人员编号</DIV></TD>
<TD class=TableDetail1 colSpan=4> T110006070354</TD>
<TD class=TableDetail1 vAlign=center align=middle width="19%"
rowSpan=8>
<TABLE cellSpacing=0 cellPadding=0 border=0>
<TBODY>
<TR>
<TD><IMG id=ryxp
onclick="showphoto('110105000010091','9')"
src="CXOutputDetail_files/viewattch.jpg" width=130> </TD></TR>
<TR>
<TD align=middle><U onmouseover=changecouser(this)
onclick="showphoto('1101050000000010091')"><FONT color=blue
size=2>点击查看所有照片</FONT></U> </TD></TR></TBODY></TABLE></TD></TR>
<TR class="">
<TD class=TableDetail2 width="13%">
<DIV align=right>姓名</DIV></TD>
<TD class=TableDetail1 width="26%"> 梁伟志</TD>
<TD class=TableDetail2 width="11%">
<DIV align=right>别名绰号</DIV></TD>
<TD class=TableDetail1 colSpan=2> </TD></TR>
<TR class="">
<TD class=TableDetail2 width="13%">
<DIV align=right>性别</DIV></TD>
<TD class=TableDetail1 width="26%"> 男</TD>
<TD class=TableDetail2 width="11%">
<DIV align=right>出生日期</DIV></TD>
<TD class=TableDetail1 colSpan=2> 1965-03-17</TD></TR>
<TR class="">
<TD class=TableDetail2 width="13%">
<DIV align=right>现住地址</DIV></TD>
<TD class=TableDetail1 width="26%"
colSpan=5> 广东广州市海珠区 永兴街58号之三201房</TD></TR>
<TR class="">
<TD class=TableDetail2 width="13%">
<DIV align=right>籍贯</DIV></TD>
<TD class=TableDetail1 width="26%" colSpan=5> </TD></TR>
<TR class="">
<TD class=TableDetail2 width="13%">
<DIV align=right>体貌特征</DIV></TD>
<TD class=TableDetail1 colSpan=5> </TD></TR>
<TR class="">
<TD class=TableDetail2 width="13%" height=21>
<DIV align=right>特殊标记</DIV></TD>
<TD class=TableDetail1 colSpan=5> </TD></TR>
<TR class="">
<TD class=TableDetail2 width="13%">
<DIV align=right>案件编号</DIV></TD>
<TD class=TableDetail1 colSpan=5> A1101054700002006020036</TD></TR>
<TR class="">
<TD class=TableDetail2 width="13%">
<DIV align=right>案件类别</DIV></TD>
<TD class=TableDetail1 width="26%" colSpan=5> 诈骗案</TD></TR>
<TR class="">
<TD class=TableDetail2 width="13%">
<DIV align=right> 简要案情及附加信息</DIV></TD>
<TD class=TableDetail1
colSpan=5> 2005年9月嫌疑人虚构可以购买广州市海珠区以后可以升值为由,诈骗事主梁铁航人民币740000元。</TD></TR>
<TD class=TableDetail1 colSpan=5> </TD></TR></TBODY></TABLE>
这是我要提取内容的部分网页,我现在是想得到第一个<Table>里的单元格数据,比如 姓名 梁伟志等,嵌套的那个Table另写表达式读出来, 请问这两个表达式该怎么写呢?请教
上面贴出来的是一个嵌套的Table,我要获取的是这个,也就是第二个吧。
<TABLE class=base_table id=base_table cellSpacing=0 cellPadding=0 width="85%"
border=0>
<TBODY>
<TR>
<TD align=left width="60%"><B><FONT color=#40668a
size=2>撤销人员</FONT></B><FONT color=#40668a
size=2><B>->>详细信息</B></FONT></TD>
<TD align=right width="10%"> </TD>
<TD align=right width="10%"> </TD>
<TD class=NavTitle align=right width="10%"><INPUT class=buttonNew onclick=printpage() type=button value=打 印>
</TD>
<TD align=right width="10%"><INPUT class=buttonNew onclick=javascript:history.back(); type=button value=返 回></TD></TR>
<DIV id=pageTitle align=center><FONT face=楷体_GB2312
size=6><B>在逃人员登记/撤销表</B></FONT></DIV>
<TR>
<TD colSpan=6>
<TABLE class=TableMain id=mainTable cellSpacing=0 cellPadding=0
width="100%" align=center border=1>
<TBODY>
<TR class="">
<TD class=TableDetail2 width="13%">
<DIV align=right>在逃人员编号</DIV></TD>
你可以根据实际情况,使用string.index,当然,使用index的时候,你要把那些特征字段想好。
使用index更快,当然,分析起来是靠人的大脑了。
Match m = Regex.Match(test, @"<img[^>]*?src=""(?<img>[^""]*)""[^>]*>(\s*<(?!img)[^>]*>\s*)+点击查看所有照片", RegexOptions.IgnoreCase);
if (m.Success)
MessageBox.Show(m.Groups["img"].Value);
border=0>
<TBODY>
<TR>
<TD align=left width="60%"><B><FONT color=#40668a
size=2>撤销人员</FONT></B><FONT color=#40668a
size=2><B>->>详细信息</B></FONT></TD>
<TD align=right width="10%"> </TD>
<TD align=right width="10%"> </TD>
<TD class=NavTitle align=right width="10%"><INPUT class=buttonNew onclick=printpage() type=button value=打 印>
</TD>
<TD align=right width="10%"><INPUT class=buttonNew onclick=javascript:history.back(); type=button value=返 回></TD></TR>
<DIV id=pageTitle align=center><FONT face=楷体_GB2312
size=6><B>在逃人员登记/撤销表</B></FONT></DIV>
<TR>
<TD colSpan=6>
<TABLE class=TableMain id=mainTable cellSpacing=0 cellPadding=0
width="100%" align=center border=1>
<TBODY>
<TR class="">
<TD class=TableDetail2 width="13%">
<DIV align=right>在逃人员编号</DIV></TD>
<TD class=TableDetail1 colSpan=4> T1101050009992006070354</TD>
<TD class=TableDetail1 vAlign=center align=middle width="19%"
rowSpan=8>
<TABLE cellSpacing=0 cellPadding=0 border=0>
<TBODY>
<TR>
<TD><IMG id=ryxp
onclick="showphoto('1101050000000010091','9')"
src="CXOutputDetail_files/viewattch.jpg" width=130> </TD></TR>
<TR>
<TD align=middle><U onmouseover=changecouser(this)
onclick="showphoto('1101050000000010091')"><FONT color=blue
size=2>点击查看所有照片</FONT></U> </TD></TR></TBODY></TABLE></TD></TR>
<TR class="">
<TD class=TableDetail2 width="13%">
<DIV align=right>姓名</DIV></TD>
<TD class=TableDetail1 width="26%"> 梁志</TD>
<TD class=TableDetail2 width="11%">
<DIV align=right>别名绰号</DIV></TD>
<TD class=TableDetail1 colSpan=2> </TD></TR>
<TR class="">
<TD class=TableDetail2 width="13%">
<DIV align=right>性别</DIV></TD>
<TD class=TableDetail1 width="26%"> 男</TD>
<TD class=TableDetail2 width="11%">
<DIV align=right>出生日期</DIV></TD>
<TD class=TableDetail1 colSpan=2> 1965-03-17</TD></TR>
<TR class="">
<TD class=TableDetail2 width="13%">
<DIV align=right>身份证号</DIV></TD>
<TD class=TableDetail1 width="26%"> 440107196503170319</TD>
<TD class=TableDetail2 width="11%">
<DIV align=right>民族</DIV></TD>
<TD class=TableDetail1 colSpan=2> 汉族</TD></TR>
<TR class="">
<TD class=TableDetail2 width="13%" rowSpan=2>
<DIV align=right>其他证件</DIV></TD>
<TD class=TableDetail1 width="26%" colSpan=4> </TD></TR>
<TR class="">
<TD class=TableDetail1 width="26%" colSpan=4> </TD></TR>
<TR class="">
<TD class=TableDetail2 width="13%">
<DIV align=right>身高</DIV></TD>
<TD class=TableDetail1 width="26%"> 165厘米</TD>
<TD class=TableDetail2 width="11%">
<DIV align=right>口音</DIV></TD>
<TD class=TableDetail1 colSpan=2> 广东口音</TD></TR>
<TR class="">
<TD class=TableDetail2 width="13%">
<DIV align=right>职业</DIV></TD>
<TD class=TableDetail1 colSpan=4> </TD></TR>
<TR class="">
<TD class=TableDetail2 width="13%">
<DIV align=right>户籍地址</DIV></TD>
<TD class=TableDetail1 width="26%"
colSpan=5> 广东广州市海珠区 永兴街58号之三201房</TD></TR>
<TR class="">
<TD class=TableDetail2 width="13%">
<DIV align=right>现住地址</DIV></TD>
<TD class=TableDetail1 width="26%"
colSpan=5> 广市海珠区 永兴街58号之三201房</TD></TR>
<TR class="">
<TD class=TableDetail2 width="13%">
<DIV align=right>籍贯</DIV></TD>
<TD class=TableDetail1 width="26%" colSpan=5> </TD></TR>
<TR class="">
<TD class=TableDetail2 width="13%">
<DIV align=right>案件编号</DIV></TD>
<TD class=TableDetail1 colSpan=5> A1101054700002006020036</TD></TR>
<TR class="">
<TD class=TableDetail2 width="13%">
<DIV align=right>案件类别</DIV></TD>
<TD class=TableDetail1 width="26%" colSpan=5> 诈骗案</TD></TR>
<TR class="">
<TD class=TableDetail2 width="13%">
<DIV align=right> 简要案情及附加信息</DIV></TD>
<TD class=TableDetail1
colSpan=5> 380号17B商品房一套,以后可以升值为由,诈骗航人民币740000元。</TD></TR>
<TR class="">
<TD class=TableDetail2 width="13%">
<DIV align=right>逃跑日期</DIV></TD>
<TD class=TableDetail1 width="26%"> 2006-06-15</TD>
<TD class=TableDetail2 width="11%">
<DIV align=right>逃跑方向</DIV></TD>
<TD class=TableDetail1 width="18%"> </TD>
<TD class=TableDetail2 width="13%">
<DIV align=right>在逃类型</DIV></TD>
<TD class=TableDetail1 width="19%"> 刑拘在逃</TD></TR>
<TR class="">
<TD class=TableDetail2 width="13%">
<DIV align=right>法律文书</DIV></TD>
<TD class=TableDetail2 width="13%">
<DIV align=right> </DIV></TD>
<TD class=TableDetail1 width="19%"> </TD></TR>
<TR class="">
<TD class=TableDetail2 width="13%">
<DIV align=right>通缉令</DIV></TD>
<TD class=TableDetail1 width="26%"> </TD>
<TD class=TableDetail2 width="11%">
<DIV align=right>督捕级别</DIV></TD>
<TD class=TableDetail1 width="18%"> </TD>
<TD class=TableDetail2 width="13%">
<DIV align=right>奖金</DIV></TD>
<TD class=TableDetail1 width="19%"> 500元</TD></TR>
<TR class="">
<TD class=TableDetail2 width="13%">
<DIV align=right>立案单位</DIV></TD>
<TD class=TableDetail1 width="26%"
colSpan=3> 北京朝阳区 公安分局</TD>
<TD class=TableDetail2 width="13%">
<DIV align=right>单位分类</DIV></TD>
<TD class=TableDetail1 width="19%"> 刑侦</TD></TR>
<TR class="">
<TD class=TableDetail2 width="13%">
<DIV align=right>主办单位</DIV></TD>
<TD class=TableDetail1 width="26%"
colSpan=3> 区 刑侦支队南部队</TD>
<TD class=TableDetail2 width="13%">
<DIV align=right>立案日期</DIV></TD>
<TD class=TableDetail1 width="19%"> 2006-06-15</TD></TR>
<TR class="">
<TD class=TableDetail2 width="13%">
<DIV align=right>抓获日期</DIV></TD>
<TD class=TableDetail1 width="26%"> 2006-11-08</TD>
<TD class=TableDetail1 width="19%"> </TD></TR>
<TR class="">
<TD
width="20%"> 2006-11-16</TD></TR></TBODY></TABLE></TD></TR></TBODY></TABLE>
<TABLE width="100%">
<TBODY>
<TR>
<TD width="100%">
<DIV id=hidden style="DISPLAY: none; WIDTH: 100%" align=center>
<TABLE id=mainTable cellSpacing=0 cellPadding=0 width="100%" align=center
border=0>
<TBODY>
<TR>
<TD>2008-06-11 09:05:22
805BAD541701B91F
</TD></TR></TBODY></TABLE></DIV></TD></TR></TBODY></TABLE></FORM></CENTER>
这个是源文件,我想要的结果就是从第二个表TABLE class=TableMain id=mainTable 开始,里面TD的内容如 在逃人员编号,姓名==,也就是清除那些html标记。
对正则不太熟悉,不知道能不能做到只提取第二个表格的内容,而其他表格的则忽略,请教
string html = .....;
string src = html.Replace(" ", "");
src = Regex.Replace(src, @"^[\s\S]*?<table[\s\S]*?(?=<table)", "", RegexOptions.IgnoreCase);
Match m = Regex.Match(src, @"<table[^>]*>((?><table[^>]*>(?<o>)|</table>(?<-o>)|((?!</?table)[\s\S]))*)(?(o)(?!))</table>", RegexOptions.IgnoreCase);
if (m.Success)
{
string[] result = Regex.Split(m.Value, @"(?:\s*<[^>]*>\s*)+");
foreach (string s in result)
{
richTextBox1.Text += s + "\n";
}
}结果:
在逃人员编号
T1101050009992006070354
点击查看所有照片
姓名
梁志
别名绰号
性别
男
出生日期
1965-03-17
身份证号
440107196503170319
民族
汉族
其他证件
身高
165厘米
口音
广东口音
职业
户籍地址
广东广州市海珠区永兴街58号之三201房
现住地址
广市海珠区永兴街58号之三201房
籍贯
案件编号
A1101054700002006020036
案件类别
诈骗案
简要案情及附加信息
380号17B商品房一套,以后可以升值为由,诈骗航人民币740000元。
逃跑日期
2006-06-15
逃跑方向
在逃类型
刑拘在逃
法律文书
通缉令
督捕级别
奖金
500元
立案单位
北京朝阳区公安分局
单位分类
刑侦
主办单位
区刑侦支队南部队
立案日期
2006-06-15
抓获日期
2006-11-08
2006-11-16