<HTML><HEAD><TITLE>CXOutputDetail.jsp</TITLE>
<TABLE class=TableMain id=mainTable cellSpacing=0 cellPadding=0 
      width="100%" align=center border=1>
        <TBODY>
        <TR class="">
          <TD class=TableDetail2 width="13%">
            <DIV align=right>人员编号</DIV></TD>
          <TD class=TableDetail1 colSpan=4>&nbsp;T110006070354</TD>
          <TD class=TableDetail1 vAlign=center align=middle width="19%" 
          rowSpan=8>
            <TABLE cellSpacing=0 cellPadding=0 border=0>
              <TBODY>
              <TR>
                <TD><IMG id=ryxp 
                  onclick="showphoto('110105000010091','9')" 
                  src="CXOutputDetail_files/viewattch.jpg" width=130> </TD></TR>
              <TR>
                <TD align=middle><U onmouseover=changecouser(this) 
                  onclick="showphoto('1101050000000010091')"><FONT color=blue 
                  size=2>点击查看所有照片</FONT></U> </TD></TR></TBODY></TABLE></TD></TR>
        <TR class="">
          <TD class=TableDetail2 width="13%">
            <DIV align=right>姓名</DIV></TD>
          <TD class=TableDetail1 width="26%">&nbsp;梁伟志</TD>
          <TD class=TableDetail2 width="11%">
            <DIV align=right>别名绰号</DIV></TD>
          <TD class=TableDetail1 colSpan=2>&nbsp;</TD></TR>
        <TR class="">
          <TD class=TableDetail2 width="13%">
            <DIV align=right>性别</DIV></TD>
          <TD class=TableDetail1 width="26%">&nbsp;男</TD>
          <TD class=TableDetail2 width="11%">
            <DIV align=right>出生日期</DIV></TD>
          <TD class=TableDetail1 colSpan=2>&nbsp;1965-03-17</TD></TR>
        <TR class="">
          <TD class=TableDetail2 width="13%">
            <DIV align=right>现住地址</DIV></TD>
          <TD class=TableDetail1 width="26%" 
            colSpan=5>&nbsp;广东广州市海珠区&nbsp;永兴街58号之三201房</TD></TR>
        <TR class="">
          <TD class=TableDetail2 width="13%">
            <DIV align=right>籍贯</DIV></TD>
          <TD class=TableDetail1 width="26%" colSpan=5>&nbsp;&nbsp;</TD></TR>
        <TR class="">
          <TD class=TableDetail2 width="13%">
            <DIV align=right>体貌特征</DIV></TD>
          <TD class=TableDetail1 colSpan=5>&nbsp;</TD></TR>
        <TR class="">
          <TD class=TableDetail2 width="13%" height=21>
            <DIV align=right>特殊标记</DIV></TD>
          <TD class=TableDetail1 colSpan=5>&nbsp;</TD></TR>
        <TR class="">
          <TD class=TableDetail2 width="13%">
            <DIV align=right>案件编号</DIV></TD>
          <TD class=TableDetail1 colSpan=5>&nbsp;A1101054700002006020036</TD></TR>
        <TR class="">
          <TD class=TableDetail2 width="13%">
            <DIV align=right>案件类别</DIV></TD>
          <TD class=TableDetail1 width="26%" colSpan=5>&nbsp;诈骗案</TD></TR>
        <TR class="">
          <TD class=TableDetail2 width="13%">
            <DIV align=right>&nbsp;简要案情及附加信息</DIV></TD>
          <TD class=TableDetail1 
            colSpan=5>&nbsp;2005年9月嫌疑人虚构可以购买广州市海珠区以后可以升值为由,诈骗事主梁铁航人民币740000元。</TD></TR>
  
          <TD class=TableDetail1 colSpan=5>&nbsp;</TD></TR></TBODY></TABLE>
这是我要提取内容的部分网页,我现在是想得到第一个<Table>里的单元格数据,比如 姓名 梁伟志等,嵌套的那个Table另写表达式读出来, 请问这两个表达式该怎么写呢?请教

解决方案 »

  1.   

    更正下问题
    上面贴出来的是一个嵌套的Table,我要获取的是这个,也就是第二个吧。
    <TABLE class=base_table id=base_table cellSpacing=0 cellPadding=0 width="85%" 
    border=0>
      <TBODY>
      <TR>
        <TD align=left width="60%"><B><FONT color=#40668a 
          size=2>撤销人员</FONT></B><FONT color=#40668a 
          size=2><B>-&gt;&gt;详细信息</B></FONT></TD>
        <TD align=right width="10%">&nbsp;</TD>
        <TD align=right width="10%">&nbsp;</TD>
        <TD class=NavTitle align=right width="10%"><INPUT class=buttonNew onclick=printpage() type=button value=打&nbsp;&nbsp;印> 
        </TD>
        <TD align=right width="10%"><INPUT class=buttonNew onclick=javascript:history.back(); type=button value=返&nbsp;&nbsp;回></TD></TR>
      <DIV id=pageTitle align=center><FONT face=楷体_GB2312 
      size=6><B>在逃人员登记/撤销表</B></FONT></DIV>
      <TR>
        <TD colSpan=6>
          <TABLE class=TableMain id=mainTable cellSpacing=0 cellPadding=0 
          width="100%" align=center border=1>
            <TBODY>
            <TR class="">
              <TD class=TableDetail2 width="13%">
                <DIV align=right>在逃人员编号</DIV></TD>
      

  2.   

    不一定非的使用正则式不可。
    你可以根据实际情况,使用string.index,当然,使用index的时候,你要把那些特征字段想好。
    使用index更快,当然,分析起来是靠人的大脑了。
      

  3.   

    没看出来你的1楼跟顶楼贴的有什么联系,也没看明白你倒底要什么把你的源字符串重新给一下,并给出你想要的结果string test = ...........;
    Match m = Regex.Match(test, @"<img[^>]*?src=""(?<img>[^""]*)""[^>]*>(\s*<(?!img)[^>]*>\s*)+点击查看所有照片", RegexOptions.IgnoreCase);
    if (m.Success)
        MessageBox.Show(m.Groups["img"].Value);
      

  4.   

    <TABLE class=base_table id=base_table cellSpacing=0 cellPadding=0 width="85%" 
    border=0>
      <TBODY>
      <TR>
        <TD align=left width="60%"><B><FONT color=#40668a 
          size=2>撤销人员</FONT></B><FONT color=#40668a 
          size=2><B>-&gt;&gt;详细信息</B></FONT></TD>
        <TD align=right width="10%">&nbsp;</TD>
        <TD align=right width="10%">&nbsp;</TD>
        <TD class=NavTitle align=right width="10%"><INPUT class=buttonNew onclick=printpage() type=button value=打&nbsp;&nbsp;印> 
        </TD>
        <TD align=right width="10%"><INPUT class=buttonNew onclick=javascript:history.back(); type=button value=返&nbsp;&nbsp;回></TD></TR>
      <DIV id=pageTitle align=center><FONT face=楷体_GB2312 
      size=6><B>在逃人员登记/撤销表</B></FONT></DIV>
      <TR>
        <TD colSpan=6>
          <TABLE class=TableMain id=mainTable cellSpacing=0 cellPadding=0 
          width="100%" align=center border=1>
            <TBODY>
            <TR class="">
              <TD class=TableDetail2 width="13%">
                <DIV align=right>在逃人员编号</DIV></TD>
              <TD class=TableDetail1 colSpan=4>&nbsp;T1101050009992006070354</TD>
              <TD class=TableDetail1 vAlign=center align=middle width="19%" 
              rowSpan=8>
                <TABLE cellSpacing=0 cellPadding=0 border=0>
                  <TBODY>
                  <TR>
                    <TD><IMG id=ryxp 
                      onclick="showphoto('1101050000000010091','9')" 
                      src="CXOutputDetail_files/viewattch.jpg" width=130> </TD></TR>
                  <TR>
                    <TD align=middle><U onmouseover=changecouser(this) 
                      onclick="showphoto('1101050000000010091')"><FONT color=blue 
                      size=2>点击查看所有照片</FONT></U> </TD></TR></TBODY></TABLE></TD></TR>
            <TR class="">
              <TD class=TableDetail2 width="13%">
                <DIV align=right>姓名</DIV></TD>
              <TD class=TableDetail1 width="26%">&nbsp;梁志</TD>
              <TD class=TableDetail2 width="11%">
                <DIV align=right>别名绰号</DIV></TD>
              <TD class=TableDetail1 colSpan=2>&nbsp;</TD></TR>
            <TR class="">
              <TD class=TableDetail2 width="13%">
                <DIV align=right>性别</DIV></TD>
              <TD class=TableDetail1 width="26%">&nbsp;男</TD>
              <TD class=TableDetail2 width="11%">
                <DIV align=right>出生日期</DIV></TD>
              <TD class=TableDetail1 colSpan=2>&nbsp;1965-03-17</TD></TR>
            <TR class="">
              <TD class=TableDetail2 width="13%">
                <DIV align=right>身份证号</DIV></TD>
              <TD class=TableDetail1 width="26%">&nbsp;440107196503170319</TD>
              <TD class=TableDetail2 width="11%">
                <DIV align=right>民族</DIV></TD>
              <TD class=TableDetail1 colSpan=2>&nbsp;汉族</TD></TR>
            <TR class="">
              <TD class=TableDetail2 width="13%" rowSpan=2>
                <DIV align=right>其他证件</DIV></TD>
              <TD class=TableDetail1 width="26%" colSpan=4>&nbsp;&nbsp;</TD></TR>
            <TR class="">
              <TD class=TableDetail1 width="26%" colSpan=4>&nbsp;&nbsp;</TD></TR>
            <TR class="">
              <TD class=TableDetail2 width="13%">
                <DIV align=right>身高</DIV></TD>
              <TD class=TableDetail1 width="26%">&nbsp;165厘米</TD>
              <TD class=TableDetail2 width="11%">
                <DIV align=right>口音</DIV></TD>
              <TD class=TableDetail1 colSpan=2>&nbsp;广东口音</TD></TR>
            <TR class="">
              <TD class=TableDetail2 width="13%">
                <DIV align=right>职业</DIV></TD>
              <TD class=TableDetail1 colSpan=4>&nbsp;</TD></TR>
            <TR class="">
              <TD class=TableDetail2 width="13%">
                <DIV align=right>户籍地址</DIV></TD>
              <TD class=TableDetail1 width="26%" 
                colSpan=5>&nbsp;广东广州市海珠区&nbsp;永兴街58号之三201房</TD></TR>
            <TR class="">
              <TD class=TableDetail2 width="13%">
                <DIV align=right>现住地址</DIV></TD>
              <TD class=TableDetail1 width="26%" 
                colSpan=5>&nbsp;广市海珠区&nbsp;永兴街58号之三201房</TD></TR>
            <TR class="">
              <TD class=TableDetail2 width="13%">
                <DIV align=right>籍贯</DIV></TD>
              <TD class=TableDetail1 width="26%" colSpan=5>&nbsp;&nbsp;</TD></TR>
            <TR class="">
              <TD class=TableDetail2 width="13%">
                <DIV align=right>案件编号</DIV></TD>
              <TD class=TableDetail1 colSpan=5>&nbsp;A1101054700002006020036</TD></TR>
            <TR class="">
              <TD class=TableDetail2 width="13%">
                <DIV align=right>案件类别</DIV></TD>
              <TD class=TableDetail1 width="26%" colSpan=5>&nbsp;诈骗案</TD></TR>
            <TR class="">
              <TD class=TableDetail2 width="13%">
                <DIV align=right>&nbsp;简要案情及附加信息</DIV></TD>
              <TD class=TableDetail1 
                colSpan=5>&nbsp;380号17B商品房一套,以后可以升值为由,诈骗航人民币740000元。</TD></TR>
            <TR class="">
              <TD class=TableDetail2 width="13%">
                <DIV align=right>逃跑日期</DIV></TD>
              <TD class=TableDetail1 width="26%">&nbsp;2006-06-15</TD>
              <TD class=TableDetail2 width="11%">
                <DIV align=right>逃跑方向</DIV></TD>
              <TD class=TableDetail1 width="18%">&nbsp;</TD>
              <TD class=TableDetail2 width="13%">
                <DIV align=right>在逃类型</DIV></TD>
              <TD class=TableDetail1 width="19%">&nbsp;刑拘在逃</TD></TR>
            <TR class="">
              <TD class=TableDetail2 width="13%">
                <DIV align=right>法律文书</DIV></TD>
              <TD class=TableDetail2 width="13%">
                <DIV align=right>&nbsp;</DIV></TD>
              <TD class=TableDetail1 width="19%">&nbsp;</TD></TR>
            <TR class="">
              <TD class=TableDetail2 width="13%">
                <DIV align=right>通缉令</DIV></TD>
              <TD class=TableDetail1 width="26%">&nbsp; </TD>
              <TD class=TableDetail2 width="11%">
                <DIV align=right>督捕级别</DIV></TD>
              <TD class=TableDetail1 width="18%">&nbsp;</TD>
              <TD class=TableDetail2 width="13%">
                <DIV align=right>奖金</DIV></TD>
              <TD class=TableDetail1 width="19%">&nbsp;500元</TD></TR>
            <TR class="">
              <TD class=TableDetail2 width="13%">
                <DIV align=right>立案单位</DIV></TD>
              <TD class=TableDetail1 width="26%" 
    colSpan=3>&nbsp;北京朝阳区&nbsp;公安分局</TD>
              <TD class=TableDetail2 width="13%">
                <DIV align=right>单位分类</DIV></TD>
              <TD class=TableDetail1 width="19%">&nbsp;刑侦</TD></TR>
            <TR class="">
              <TD class=TableDetail2 width="13%">
                <DIV align=right>主办单位</DIV></TD>
              <TD class=TableDetail1 width="26%" 
              colSpan=3>&nbsp;区&nbsp;刑侦支队南部队</TD>
              <TD class=TableDetail2 width="13%">
                <DIV align=right>立案日期</DIV></TD>
              <TD class=TableDetail1 width="19%">&nbsp;2006-06-15</TD></TR>
            <TR class="">
              <TD class=TableDetail2 width="13%">
                <DIV align=right>抓获日期</DIV></TD>
              <TD class=TableDetail1 width="26%">&nbsp;2006-11-08</TD>
              <TD class=TableDetail1 width="19%">&nbsp;</TD></TR>
            <TR class="">
              <TD 
    width="20%">&nbsp;2006-11-16</TD></TR></TBODY></TABLE></TD></TR></TBODY></TABLE>
    <TABLE width="100%">
      <TBODY>
      <TR>
        <TD width="100%">
          <DIV id=hidden style="DISPLAY: none; WIDTH: 100%" align=center>
          <TABLE id=mainTable cellSpacing=0 cellPadding=0 width="100%" align=center 
          border=0>
            <TBODY>
            <TR>
              <TD>2008-06-11 09:05:22 
                805BAD541701B91F 
      </TD></TR></TBODY></TABLE></DIV></TD></TR></TBODY></TABLE></FORM></CENTER>
    这个是源文件,我想要的结果就是从第二个表TABLE class=TableMain id=mainTable 开始,里面TD的内容如 在逃人员编号,姓名==,也就是清除那些html标记。
    对正则不太熟悉,不知道能不能做到只提取第二个表格的内容,而其他表格的则忽略,请教
      

  5.   

    不是不能写,是不想写,本来就比较麻烦,让楼主给出想要的结果,楼主又不给说明白了,写了又得改全取出来了,后续怎么处理,楼主自己看着办吧
    string html = .....;
    string src = html.Replace("&nbsp;", "");
    src = Regex.Replace(src, @"^[\s\S]*?<table[\s\S]*?(?=<table)", "", RegexOptions.IgnoreCase);
    Match m = Regex.Match(src, @"<table[^>]*>((?><table[^>]*>(?<o>)|</table>(?<-o>)|((?!</?table)[\s\S]))*)(?(o)(?!))</table>", RegexOptions.IgnoreCase);
    if (m.Success)
    {
        string[] result = Regex.Split(m.Value, @"(?:\s*<[^>]*>\s*)+");
        foreach (string s in result)
        {
            richTextBox1.Text += s + "\n";
        }
    }结果:
    在逃人员编号
    T1101050009992006070354
    点击查看所有照片
    姓名
    梁志
    别名绰号
    性别

    出生日期
    1965-03-17
    身份证号
    440107196503170319
    民族
    汉族
    其他证件
    身高
    165厘米
    口音
    广东口音
    职业
    户籍地址
    广东广州市海珠区永兴街58号之三201房
    现住地址
    广市海珠区永兴街58号之三201房
    籍贯
    案件编号
    A1101054700002006020036
    案件类别
    诈骗案
    简要案情及附加信息
    380号17B商品房一套,以后可以升值为由,诈骗航人民币740000元。
    逃跑日期
    2006-06-15
    逃跑方向
    在逃类型
    刑拘在逃
    法律文书
    通缉令
    督捕级别
    奖金
    500元
    立案单位
    北京朝阳区公安分局
    单位分类
    刑侦
    主办单位
    区刑侦支队南部队
    立案日期
    2006-06-15
    抓获日期
    2006-11-08
    2006-11-16