我现在需要把html页面中的一部分数据提取出来,不能用Js等WEB前端技术。只能通过写个程序或类库去调用他,网页是别的程序生成的,没有id和name,只是很普通的表格和换行而已。请给位赐教!

解决方案 »

  1.   

    通过页面解析,把页面编程源代码形式,再从源代码中去除Html标记等,剩下的就是你要的信息了。如果需要带格式的数据,就要分析网页结构树了。会比较麻烦。可参考Web信息提取技术,从百度上找源代码吧,可能有用vb或c#写的例程。
      

  2.   

    写过servlet,用out对象不就可以截取啦
      

  3.   

    <br><b>a  </b>
    <br><font BGCOLOR="#FFE0E0">b</font>
    <b><a href="#" style="text-decoration:none">13</a>  </b>
    <br><font BGCOLOR="#FFE0E0">Unstable Dependencies</font>
    <b><a href="#" style="text-decoration:none">3</a>  </b>