我有一个公司内容的网站,我现在是要在这个网页根据表头,设计数据量,然后把抓取所以的数据来存在数据库,做一些事情。请问怎么实现抓取?抓取网页大致布局是:
<form><table> <table>
<thead>
表头如下:
<th class="sortable">
<a href="/ReviewToolWS//center.jsp?d-7272271-s=13&projectId=A5B9E0D0-3686-411B-B472-61EDEC8A41E9&d-7272271-o=2">Defect Qualifier<br/>缺陷界定</a></th></tr></thead>
</thead>
<tbody>
内容如下
<tr class="odd">
<td style="width:20">4</td>
<td style="width:50">l54899</td>
<td style="width:400">宏定义不对</td>
<td style="width:60"></td>
<td style="width:50"></td>
<td style="width:300"></td>
<td style="width:70"></td>
<td style="width:80">\code\pureRAN2\branches\eRAN3.0_Dev\LTE_V100R001\mpt\app\src\om\Cbbum\CBBUM_Cfg.c</td>
<td style="width:70">Defect缺陷</td>
<td style="width:70">Minor一般</td>
<td style="width:100"></td>
<td style="width:80"></td>
<td style="width:80"></td>
<td style="width:55"></td></tr></tbody>
</table></table>
</form>
<form><table> <table>
<thead>
表头如下:
<th class="sortable">
<a href="/ReviewToolWS//center.jsp?d-7272271-s=13&projectId=A5B9E0D0-3686-411B-B472-61EDEC8A41E9&d-7272271-o=2">Defect Qualifier<br/>缺陷界定</a></th></tr></thead>
</thead>
<tbody>
内容如下
<tr class="odd">
<td style="width:20">4</td>
<td style="width:50">l54899</td>
<td style="width:400">宏定义不对</td>
<td style="width:60"></td>
<td style="width:50"></td>
<td style="width:300"></td>
<td style="width:70"></td>
<td style="width:80">\code\pureRAN2\branches\eRAN3.0_Dev\LTE_V100R001\mpt\app\src\om\Cbbum\CBBUM_Cfg.c</td>
<td style="width:70">Defect缺陷</td>
<td style="width:70">Minor一般</td>
<td style="width:100"></td>
<td style="width:80"></td>
<td style="width:80"></td>
<td style="width:55"></td></tr></tbody>
</table></table>
</form>
解决方案 »
- java读取php写的web service出现严重警告
- 关于公交查询系统中转车查询
- 关于java提取网页的一些疑问
- Sun Java 5+ Eclipse 3.2 +MyEclipse 5.0.0. 开发web service报org.codehaus.xfire.XFireRuntimeException: Couldn't parse stream
- 学好Java语言做大型网站维护“高手”
- html:hidden 提交的值一直为null ,为什么?
- ssh2问题,急急急
- 現實調查
- jboss 3.2中新部署的ejb(*.jar)文件 jsp调用时抛出异常???
- 高分求救!一个类似XML的文件格式的读取问题....
- 使用线程使每隔一段时间改变一下JLabel的值
- 在form表单做上传,用enctype="multipart/form-data" ,request.getParameter()得不到值
URLConnection cn = new URL("http://www.baidu.com").openConnection();cn.getInputStream() 就可以得到完整内容了。接下来可以考虑用HTMLParser或者直接正则来解析你要的数据。
http://wangxing0311.iteye.com/blog/898745