.....................................
<script type="text/javascript"
  src="http://pagead2.gooyndication.com/pagead/show.js">
</script></center><body  bgcolor="#ffffff" leftmargin="0" topmargin="0">
<center>
<p>
<div align="center">
  <center>
      <TABLE cellSpacing=0 cellPadding=0 width=778 border=0>
        <tr align="center"> 
          <td width="77" align="center"> 
            <table height="26" border="0" cellpadding="0" cellspacing="2" bgcolor="#A6E2FF">
              <tr> 
                <td  align="center" bgcolor="DBF3FF"><A href="/mazine/list/48.html"><b>时事政治</b></a></td>
              </tr>
            </table>
           </td>
           <td width="77" align="center"> 
            <table height="26" border="0" cellpadding="0" cellspacing="2" bgcolor="#A6E2FF">
              <tr> 
                <td  align="center" bgcolor="DBF3FF"><A href="/mazine/list/48.html"><b>时事政治</b></a></td>
              </tr>
            </table>
           </td>
   </center>
<div>
<div>
.....................
<div>
........................................
我要采集 的内容特殊 标记 为 <div align="center"> .我 要获得中间的  时事政治 和 时事政治 这 2 个文本 以及前面的链接 。文本要存到数据库 ,链接要进行 他们的子类 。我现在 已经读出 HTML 源文件之后,str      接下来我该 怎么做 ? 
 我是 菜鸟,能不能讲 详细 点 ,

解决方案 »

  1.   


    MatchCollection mc = Regex.Matches(str, @"<div\s+align=""center"">[\s\S]*?</div>", RegexOptions.IgnoreCase);
    foreach (Match m in mc)
    {
        MatchCollection mc2 = Regex.Matches(m.Value, @"<a.*?href=""(?<url>[^""]*?)""[^>]*>(\s*<[^>]*>)*\s*(?<text>[^<>]*)(\s*<[^>]*>)*\s*</a>", RegexOptions.IgnoreCase);
        foreach (Match m2 in mc2)
        {
            richTextBox1.Text += m2.Groups["url"].Value + "\n";
            richTextBox1.Text += m2.Groups["text"].Value + "\n";
        }
    }
      

  2.   

    hr 下面有一个  table, 然后 table 里面嵌套 table
    <hr ......><br>
    <table>
    <tr>
    <td>
        <tr><td width=25% align=center...><a href="../article/222-1599/list.html" target="_blank"</a></td>
      </tr>
    <tr><td align=center valign="top"><font color=red>《内部版》</font></td></tr></td>
    <td>
       中间也是一个table
    </td>
    </tr>
    </table>如何 得到 ../article/222-1599/list.html 和 《内部版》的      正则 ?