lucence和heritrix怎么整合和优化

我在本地配好了一个heritrix，建了一个job爬了一个网站的URL，生成一个mirror文件夹，里面是爬到的镜像文件。然后我写了个lucence的demo，把目标文件夹定为那个mirror文件夹，然后开始递归地建立索引。可是效率MS不怎么高，有的一个子文件夹就要5 6分钟，请问heritrix爬下来的文件是不是要经过某些处理才开始建立索引啊？我是初学者，如果大家觉得偶问的问题幼稚请不要拿转头拍我呵呵