.....................................
<script type="text/javascript"
src="http://pagead2.gooyndication.com/pagead/show.js">
</script></center><body bgcolor="#ffffff" leftmargin="0" topmargin="0">
<center>
<p>
<div align="center">
<center>
<TABLE cellSpacing=0 cellPadding=0 width=778 border=0>
<tr align="center">
<td width="77" align="center">
<table height="26" border="0" cellpadding="0" cellspacing="2" bgcolor="#A6E2FF">
<tr>
<td align="center" bgcolor="DBF3FF"><A href="/mazine/list/48.html"><b>时事政治</b></a></td>
</tr>
</table>
</td>
<td width="77" align="center">
<table height="26" border="0" cellpadding="0" cellspacing="2" bgcolor="#A6E2FF">
<tr>
<td align="center" bgcolor="DBF3FF"><A href="/mazine/list/48.html"><b>时事政治</b></a></td>
</tr>
</table>
</td>
</center>
<div>
<div>
.....................
<div>
........................................
我要采集 的内容特殊 标记 为 <div align="center"> .我 要获得中间的 时事政治 和 时事政治 这 2 个文本 以及前面的链接 。文本要存到数据库 ,链接要进行 他们的子类 。我现在 已经读出 HTML 源文件之后,str 接下来我该 怎么做 ?
我是 菜鸟,能不能讲 详细 点 ,
<script type="text/javascript"
src="http://pagead2.gooyndication.com/pagead/show.js">
</script></center><body bgcolor="#ffffff" leftmargin="0" topmargin="0">
<center>
<p>
<div align="center">
<center>
<TABLE cellSpacing=0 cellPadding=0 width=778 border=0>
<tr align="center">
<td width="77" align="center">
<table height="26" border="0" cellpadding="0" cellspacing="2" bgcolor="#A6E2FF">
<tr>
<td align="center" bgcolor="DBF3FF"><A href="/mazine/list/48.html"><b>时事政治</b></a></td>
</tr>
</table>
</td>
<td width="77" align="center">
<table height="26" border="0" cellpadding="0" cellspacing="2" bgcolor="#A6E2FF">
<tr>
<td align="center" bgcolor="DBF3FF"><A href="/mazine/list/48.html"><b>时事政治</b></a></td>
</tr>
</table>
</td>
</center>
<div>
<div>
.....................
<div>
........................................
我要采集 的内容特殊 标记 为 <div align="center"> .我 要获得中间的 时事政治 和 时事政治 这 2 个文本 以及前面的链接 。文本要存到数据库 ,链接要进行 他们的子类 。我现在 已经读出 HTML 源文件之后,str 接下来我该 怎么做 ?
我是 菜鸟,能不能讲 详细 点 ,
MatchCollection mc = Regex.Matches(str, @"<div\s+align=""center"">[\s\S]*?</div>", RegexOptions.IgnoreCase);
foreach (Match m in mc)
{
MatchCollection mc2 = Regex.Matches(m.Value, @"<a.*?href=""(?<url>[^""]*?)""[^>]*>(\s*<[^>]*>)*\s*(?<text>[^<>]*)(\s*<[^>]*>)*\s*</a>", RegexOptions.IgnoreCase);
foreach (Match m2 in mc2)
{
richTextBox1.Text += m2.Groups["url"].Value + "\n";
richTextBox1.Text += m2.Groups["text"].Value + "\n";
}
}
<hr ......><br>
<table>
<tr>
<td>
<tr><td width=25% align=center...><a href="../article/222-1599/list.html" target="_blank"</a></td>
</tr>
<tr><td align=center valign="top"><font color=red>《内部版》</font></td></tr></td>
<td>
中间也是一个table
</td>
</tr>
</table>如何 得到 ../article/222-1599/list.html 和 《内部版》的 正则 ?