有一个网页,里面有很多内容,其中有一个表格,表格里面有数据,我想将这些数据读到数据库中。但是我不知道怎么将表格的数据读出来?请问,怎么可以将表格的数据读出来呀?
给些思路呀

解决方案 »

  1.   

    分析网页html的具体格式,通过正则去掉表格内容的格式信息,网络上这样的工具很多,lz可以参考以下
      

  2.   

    目前好象没有现成的类,对于简单表格,可以把HTML中的所有&xxxx(比如&nbsp)替换掉后,载入DOM来处理,复杂表格,在简单表格基础上去分析<TD><TH><TR><TD>的属性,根据其行列跨度动态处理.
      

  3.   

    可以先将html文件保存起来,然后用XmlTextReader读这个html文件吗?接着就是分析html语法了。
    但是我不知道XmlTextReader可以读html文件吗?
      

  4.   

    我只知道,如果HTML中含有&nbsp时,不能读,估计可能还有别的情况下也不能读.