刚刚发帖了,没有满意答复,重新发一下。
  简单介绍一下先,我从一个网页读了一个html 字符串下来,然后我想截取这个页面的某一部分。
  我要截取的这个是一个表,表内两行,两行里面分别又放了四个表,结构如下:
<table width="100%"  border="0" cellpadding="0" cellspacing="3" bgcolor="#4A9EE0">
<tr>
<td width="25%">
<table width="100%" border="0" cellpadding="0" cellspacing="1" bgcolor="#FFFFFF">
<tr><td>1</td></tr><tr><td>1</td></tr><!-- 可能有多个tr-->
</table>
</td>
<td width="25%">
<table width="100%"  border="0" cellpadding="0" cellspacing="1" bgcolor="#FFFFFF">
<tr><td>2</td></tr><tr><td>2</td></tr><!-- 可能有多个tr-->
</table>
</td>
<td width="25%">
<table width="100%"  border="0" cellpadding="0" cellspacing="1" bgcolor="#FFFFFF">
<tr><td>3</td></tr><tr><td>3</td></tr><!-- 可能有多个tr-->
</table>
</td>
<td width="25%">
<table width="100%"  border="0" cellpadding="0" cellspacing="1" bgcolor="#FFFFFF">
<tr><td>4</td></tr><tr><td>4</td></tr><!-- 可能有多个tr-->
</table>
</td>
</tr>
<tr>
<td>
<table width="100%" border="0" cellpadding="0" cellspacing="1" bgcolor="#FFFFFF">
<tr><td>5</td></tr><tr><td>5</td></tr><!-- 可能有多个tr-->
</table>
</td>
<td>
<table width="100%" border="0" cellpadding="0" cellspacing="1" bgcolor="#FFFFFF">
<tr><td>6</td></tr><tr><td>6</td></tr><!-- 可能有多个tr-->
</table>
</td>
<td>
<table width="100%" border="0" cellpadding="0" cellspacing="1" bgcolor="#FFFFFF">
<tr><td>7</td></tr><tr><td>7</td></tr><!-- 可能有多个tr-->
</table>
</td>
<td>
<table width="100%" border="0" cellpadding="0" cellspacing="1" bgcolor="#FFFFFF">
<tr><td>8</td></tr><tr><td>8</td></tr><!-- 可能有多个tr-->
</table>
</td>
</tr>
</table>  希望哪个大哥能把这个截取的正则表达式写出来,谢谢!!
  最好能详细一点,下面是我把网页截取下来的代码,给兄弟们做参考。如果错了指正一下,谢谢!!

解决方案 »

  1.   

     public string GetPageTable()
            {
                string content = "";
                string pageUrl = "";
                byte[] pageData = null;
                pageUrl = string.Format("http://bjfdc.bjjs.gov.cn/public/Index.asp");            try
                {
                    using (WebClient wc = new WebClient())
                    {
                        pageData = wc.DownloadData(pageUrl);
                        content = Encoding.GetEncoding("GB2312").GetString(pageData);
                    }
                }
                catch (Exception ex)
                {
                    //throw ex;
                    return content;
                }            //取表格规格为的数据
                Regex reg = new Regex(@"(?is)<table width=""100%"" border=""0"" cellpadding=""0"" cellspacing=""3"" bgcolor=""#4A9EE0""></table>");
                Match m = reg.Match(content);
                if (m.Success)
                {
                    content = m.Value;
                }
                return content;
            }
      

  2.   

    content=System.Text.RegularExpressions.Regex.Replace(content , "<[^>]+>", "");
      

  3.   

    本帖最后由 lxcnn 于 2010-04-08 23:04:41 编辑