C#提取网页表格问题 本帖最后由 dickens88 于 2010-06-09 17:37:09 编辑 解决方案 » 免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货 管他什么语言,最终显示的都必须是html页面。获取网页的源代码System.Net.WebClient wc = new System.Net.WebClient();Byte[] pageData = wc.DownloadData("网页地址");string s= System.Text.Encoding.Default.GetString(pageData);下载到源码后,用正则表达式识别。 你给的那是javascript 你要看html~~~一个页面中可以包含好几个网页的~~~你查看源文件只包含第一个网页,只是一个框架而已用鼠标选一个项(就那写条目),然后右键-源文件 恩,楼上说的没错,我试了一下,表格的部分是这样</table><br><br><div align=center class=topictitle2>您的借阅情况如下</div><table Width=90% border=0 cellpadding=2 cellspacing=1 align=center bgcolor=#F7FBFF><tr><td colspan="6" height="1" background="../images/doc_01.gif"></td></tr><tr valign="baseline" bgcolor="#6D849B"><td width='5%' class=opac_white>序号</td><td noWrap width='50%' class=opac_white>图书题名</td><td noWrap width='15%' class=opac_white>图书条码</td><td noWrap width='15%' class=opac_white>流通状态</td><td noWrap width='10%' class=opac_white>应还日期</td><td noWrap width='10%' align='center' class=opac_white>续借</td></tr><TR ><td align=center>1 </td><td>C#开发经验技巧宝典 </td><td>03167152 </td><td>本馆借出 </td><td>2010/06/21 </td><td align=center><input type=button name=renew class="copy" value="续借" onclick="if (confirm('确实要续借吗?')) Renew('03167152','05','A');"></td></tr><TR bgcolor=#EBF0F2><td align=center>2 </td><td>Oracle 11g从入门到精通 </td><td>03221157 </td><td>本馆续借 </td><td>2010/06/19 </td><td> </td></tr><TR ><td align=center>3 </td><td>计算机组成原理复习指南与题解 </td><td>01500874 </td><td>本馆续借 </td><td>2010/06/16 </td><td> </td></tr><TR bgcolor=#EBF0F2><td align=center>4 </td><td>Java JDK 6学习笔记 </td><td>03162658 </td><td>本馆续借 </td><td>2010/06/19 </td><td> </td></tr><TR ><td align=center>5 </td><td>80x86微机原理及接口技术——习题解答与实验指导 </td><td>03201016 </td><td>本馆借出 </td><td>2010/06/21 </td><td align=center><input type=button name=renew class="copy" value="续借" onclick="if (confirm('确实要续借吗?')) Renew('03201016','05','A');"></td></tr><tr><td colspan="6" height="1" background="../images/doc_01.gif"></td></tr></table><form method="post" name="frmRenew" action="./infoList.jsp"><input type=hidden name=action value=Renew><input type=hidden name=book_barcode value=><input type=hidden name=department_id value=><input type=hidden name=library_id value=></form><form method="post" name="frmDelRecomm" action="./infoList.jsp"><input type=hidden name=action value=DelRecomm><input type=hidden name=order_no value=></form><table width="100%" height="300" border="0" cellpadding="0" cellspacing="0" valign=top> <tr> <td> </td> </tr></table>那怎么能提取出书名的部分呢? 如果用wb控件的话,可以使用DOM获取表格内容如果直接获取源代码的,只需要带<table></table>之间的代码进行截取处理即可~ b/s架构中如何实现C/S中的对话框,即客户端和服务端的实时对话 给束所有用户进程但不要结束自己本身??? Session的生命周期,为什么关闭浏览器Session还在? 像如下网站大小的单,我应该怎样报价? 关于Form的close NUnit的问题 如何利用反射获取DropDownList控件的Items属性的FindByValue方法 C# WinForm使用GDI绘制下图怎么实现?求指教! 小数型数据转换的问题,很急! 组件注册问题? 字典和哈希表 c#发邮件稳定性问题问题
System.Net.WebClient wc = new System.Net.WebClient();
Byte[] pageData = wc.DownloadData("网页地址");
string s= System.Text.Encoding.Default.GetString(pageData);下载到源码后,用正则表达式识别。
</table>
<br><br><div align=center class=topictitle2>您的借阅情况如下</div><table Width=90% border=0 cellpadding=2 cellspacing=1 align=center bgcolor=#F7FBFF><tr><td colspan="6" height="1" background="../images/doc_01.gif"></td></tr><tr valign="baseline" bgcolor="#6D849B"><td width='5%' class=opac_white>序号</td><td noWrap width='50%' class=opac_white>图书题名</td><td noWrap width='15%' class=opac_white>图书条码</td><td noWrap width='15%' class=opac_white>流通状态</td><td noWrap width='10%' class=opac_white>应还日期</td><td noWrap width='10%' align='center' class=opac_white>续借</td></tr><TR ><td align=center>1 </td><td>C#开发经验技巧宝典 </td><td>03167152 </td><td>本馆借出 </td><td>2010/06/21 </td><td align=center><input type=button name=renew class="copy" value="续借" onclick="if (confirm('确实要续借吗?')) Renew('03167152','05','A');"></td></tr><TR bgcolor=#EBF0F2><td align=center>2 </td><td>Oracle 11g从入门到精通 </td><td>03221157 </td><td>本馆续借 </td><td>2010/06/19 </td><td> </td></tr><TR ><td align=center>3 </td><td>计算机组成原理复习指南与题解 </td><td>01500874 </td><td>本馆续借 </td><td>2010/06/16 </td><td> </td></tr><TR bgcolor=#EBF0F2><td align=center>4 </td><td>Java JDK 6学习笔记 </td><td>03162658 </td><td>本馆续借 </td><td>2010/06/19 </td><td> </td></tr><TR ><td align=center>5 </td><td>80x86微机原理及接口技术——习题解答与实验指导 </td><td>03201016 </td><td>本馆借出 </td><td>2010/06/21 </td><td align=center><input type=button name=renew class="copy" value="续借" onclick="if (confirm('确实要续借吗?')) Renew('03201016','05','A');"></td></tr><tr><td colspan="6" height="1" background="../images/doc_01.gif"></td></tr></table><form method="post" name="frmRenew" action="./infoList.jsp"><input type=hidden name=action value=Renew><input type=hidden name=book_barcode value=><input type=hidden name=department_id value=><input type=hidden name=library_id value=></form><form method="post" name="frmDelRecomm" action="./infoList.jsp"><input type=hidden name=action value=DelRecomm><input type=hidden name=order_no value=></form>
<table width="100%" height="300" border="0" cellpadding="0" cellspacing="0" valign=top>
<tr>
<td> </td>
</tr>
</table>那怎么能提取出书名的部分呢?
如果直接获取源代码的,只需要带<table></table>之间的代码进行截取处理即可~