我在本地配好了一个heritrix,建了一个job爬了一个网站的URL,生成一个mirror文件夹,里面是爬到的镜像文件。然后我写了个lucence的demo,把目标文件夹定为那个mirror文件夹,然后开始递归地建立索引。可是效率MS不怎么高,有的一个子文件夹就要5 6分钟,请问heritrix爬下来的文件是不是要经过某些处理才开始建立索引啊?我是初学者,如果大家觉得偶问的问题幼稚请不要拿转头拍我 呵呵