关于网站爬虫的速度的问题 爬虫htmlJAVA 解决方案 » 免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货 你咋知道URL是秒开的?网络不好,你用浏览器打开网页也会加载很慢。 代码中计时一下发送请求到得到响应的时间,我之前做的数据采集相关项目最耗时间的是请求服务器的操作,解析HTML用的是org.htmlparser.Parser,解析通常都是毫秒级的. 先读取成一个文档对象模型这样觉得比较占时间与内存.有没有办法边解释边获取数据呢?如果用jsoup的话.如果开多个线程,时间上会不会更快点 jsoup本身就是DOM解析,是在完全接收到页面文件后,逐项进行解析。相比Binding模式,是效率比较高的。lz你所说的边接收边解析不是不可实现,在确定接收格式的情况下,可以自实现http协议栈。通常在httpclient接收完页面文件流后还需要对传输流进行校验,校验通过才会回调处理程序。边解析边接收就是要将解析程序放置在回调之前处理,当然还需要处理校验失败的现象。但一般来说这样改造性能提高并不大,实现复杂且难以维护。建议通过调试确定jsoup解析时间,明确瓶颈是在网络还是在解析。再看实际的方案。 和你的网络速度有一定关系,当然,如果html内容很多的话也比较慢。 jsoup本身就是DOM解析,是在完全接收到页面文件后,逐项进行解析。相比Binding模式,是效率比较高的。lz你所说的边接收边解析不是不可实现,在确定接收格式的情况下,可以自实现http协议栈。通常在httpclient接收完页面文件流后还需要对传输流进行校验,校验通过才会回调处理程序。边解析边接收就是要将解析程序放置在回调之前处理,当然还需要处理校验失败的现象。但一般来说这样改造性能提高并不大,实现复杂且难以维护。建议通过调试确定jsoup解析时间,明确瓶颈是在网络还是在解析。再看实际的方案。+1感觉LZ的时间不一定是耗费在解析上,我之前数据中心项目上解析过十几MB的HTML也没有感觉明显的缓慢, 一般HTML中是不会一次性放过多数据的. LZ解析的HTML有多大..? jQuery提交表单的问题 关于jsp生成pdf问题 Ant判断问题 (简化版)请教关于参数有效性验证和异常的困惑 你们觉得HQL真的那么好用吗?Hibernate和ibatis有感 Struts标签的问题 CMP如何實現分頁查詢? 大家实际项目用struts是全部用了他的标签吗? Jbuilder 的问题。 java.lang.Error: Unresolved compilation problems: 报错了 KPI统计问题 myeclipse下修改文件名出错
如果用jsoup的话.如果开多个线程,时间上会不会更快点
lz你所说的边接收边解析不是不可实现,在确定接收格式的情况下,可以自实现http协议栈。通常在httpclient接收完页面文件流后还需要对传输流进行校验,校验通过才会回调处理程序。边解析边接收就是要将解析程序放置在回调之前处理,当然还需要处理校验失败的现象。但一般来说这样改造性能提高并不大,实现复杂且难以维护。建议通过调试确定jsoup解析时间,明确瓶颈是在网络还是在解析。再看实际的方案。
lz你所说的边接收边解析不是不可实现,在确定接收格式的情况下,可以自实现http协议栈。通常在httpclient接收完页面文件流后还需要对传输流进行校验,校验通过才会回调处理程序。边解析边接收就是要将解析程序放置在回调之前处理,当然还需要处理校验失败的现象。但一般来说这样改造性能提高并不大,实现复杂且难以维护。建议通过调试确定jsoup解析时间,明确瓶颈是在网络还是在解析。再看实际的方案。+1感觉LZ的时间不一定是耗费在解析上,我之前数据中心项目上解析过十几MB的HTML也没有感觉明显的缓慢, 一般HTML中是不会一次性放过多数据的. LZ解析的HTML有多大..?