关于nutch heritrix larbin的思考 1:larbin 用c++写的,他的爬虫可以每秒获取50几个网页,效率应该是相当的搞;请教nutch heritrix他们的爬虫每秒可以获取多少网页(需确凿的)?2:heritrix 可以获取多媒体的内容,而nutch只能对文本文件进行处理,其他的如pdf zip doc等可以通过插件方式,获得检索支持,但对于视频,flash,图片,我未在其官网上看到直接的报道,请问如果想搜索图片、视频等格式nutch可以实现吗? 解决方案 » 免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货 heritrix 我用过. 效率说真的..很差劲了...只需要部署后 在控制台配置下就爬了...至于每秒几个网页..这个可没有数据,如果你机器好 网速好,网页当然多..... 关于使用Hibernate实现通用性分页功能的问题 找骂的 一个关于连接数据库的问题 关于用java socket下载验证码图片的问题? 如何设置TOMCAT的主目录??????? 运用struts实现自动多国语言识别时遇到的问题!付源码,在线等待... 用wsad开发一个管理系统,应该如何进行布局和架构设计? 关于httpclient execute方法的问题 linux下,jndi 远程获取dataSource 报错,windows下测试没错 与jsp有关的 hibernate使用默认函数维护主键,注解该如何配置? httpclient new cookie()的几个参数,求解释
只需要部署后 在控制台配置下就爬了...至于每秒几个网页..这个可没有数据,如果你机器好 网速好,网页当然多.....