[各位大哥帮帮忙] 新闻采集如何下手？

.....................................
<script type="text/javascript"
  src="http://pagead2.gooyndication.com/pagead/show.js">
</script></center><body  bgcolor="#ffffff" leftmargin="0" topmargin="0">
<center>
<p>
<div align="center">
  <center>
      <TABLE cellSpacing=0 cellPadding=0 width=778 border=0>
        <tr align="center">
          <td width="77" align="center">
            <table height="26" border="0" cellpadding="0" cellspacing="2" bgcolor="#A6E2FF">
              <tr>
                <td  align="center" bgcolor="DBF3FF"><A href="/mazine/list/48.html"><b>时事政治</b></a></td>
              </tr>
            </table>
           </td>
           <td width="77" align="center">
            <table height="26" border="0" cellpadding="0" cellspacing="2" bgcolor="#A6E2FF">
              <tr>
                <td  align="center" bgcolor="DBF3FF"><A href="/mazine/list/48.html"><b>时事政治</b></a></td>
              </tr>
            </table>
           </td>
   </center>
<div>
<div>
.....................
<div>
........................................
我要采集的内容特殊标记为 <div align="center"> .我要获得中间的  时事政治和时事政治这 2 个文本以及前面的链接。文本要存到数据库，链接要进行他们的子类。我现在已经读出 HTML 源文件之后，str      接下来我该怎么做？
我是菜鸟，能不能讲详细点，

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

MatchCollection mc = Regex.Matches(str, @"<div\s+align=""center"">[\s\S]*?</div>", RegexOptions.IgnoreCase);
foreach (Match m in mc)
{
    MatchCollection mc2 = Regex.Matches(m.Value, @"<a.*?href=""(?<url>[^""]*?)""[^>]*>(\s*<[^>]*>)*\s*(?<text>[^<>]*)(\s*<[^>]*>)*\s*</a>", RegexOptions.IgnoreCase);
    foreach (Match m2 in mc2)
    {
        richTextBox1.Text += m2.Groups["url"].Value + "\n";
        richTextBox1.Text += m2.Groups["text"].Value + "\n";
    }
}
hr 下面有一个  table, 然后 table 里面嵌套 table
<hr ......><br>
<table>
<tr>
<td>
    <tr><td width=25% align=center...><a href="../article/222-1599/list.html" target="_blank"</a></td>
  </tr>
<tr><td align=center valign="top"><font color=red>《内部版》</font></td></tr></td>
<td>
   中间也是一个table
</td>
</tr>
</table>如何得到 ../article/222-1599/list.html 和《内部版》的      正则？

[各位大哥帮帮忙] 新闻 采集 如何下手 ？

解决方案 »

[各位大哥帮帮忙] 新闻采集如何下手？