关于抓取网页内容的一个问题 - 调试易

关于抓取网页内容的一个问题

本帖最后由 java2000_net 于 2008-08-04 20:31:06 编辑

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

既然是存在<table>中，按table的格式取tr，td的内容是可行的。
你把table的格式给出来看看。
分析他的HTML风格，然后一般用正则表达式去匹配
最好能有xml格式的内容，这样容易得多了
主要还是用这个吧：table.rows[i].cells[j].innerText
to wudaobugu
你的意思是用javascript
为什么不再渲染table的时候就存到数据库呢？不是十分明白你的需求。比较支持解析html。
如果需求有一点的不同的话，就可能导致解决问题的方法有相当大的差异
可以用 webharvest
不过要先学习了才会用，而且学习曲线还不低
不明白楼主的意思？
抓取随便一个符合你描述特征的网页？那这就要解析HTML文件了。
还是页面为你可以控制的？那就在渲染table的时候就存到数据库。
1.用htmlparser解析table
2.也可以考虑遍历所有标签，不过东西多的话效率就低了
这个很简单！！！！！
htmlpaser这个包！
很简单的，分析网页！