1:larbin 用c++写的,他的爬虫可以每秒获取50几个网页,效率应该是相当的搞;请教nutch heritrix他们的爬虫每秒可以获取多少网页(需确凿的)?2:heritrix 可以获取多媒体的内容,而nutch只能对文本文件进行处理,其他的如pdf zip doc等可以通过插件方式,获得检索支持,但对于视频,flash,图片,我未在其官网上看到直接的报道,请问如果想搜索图片、视频等格式nutch可以实现吗?