现在我要研究的是nutch的分层抓取和索引
nutch默认的也是分层抓取,但是索引是最后做的。我希望是抓取一层,接着就做索引,然后抓取第二层,在做索引,然后把第一层的索引和第二层的索引合并起来,请问这样能实现吗? 就是把invert()、index()、dedup()、merge()拿到for循环里面去。
而不是做完,生成/抓取/更新 循环,再做invert()、index()、dedup()、merge()这些操作;请指教一下!
先谢谢了!
nutch默认的也是分层抓取,但是索引是最后做的。我希望是抓取一层,接着就做索引,然后抓取第二层,在做索引,然后把第一层的索引和第二层的索引合并起来,请问这样能实现吗? 就是把invert()、index()、dedup()、merge()拿到for循环里面去。
而不是做完,生成/抓取/更新 循环,再做invert()、index()、dedup()、merge()这些操作;请指教一下!
先谢谢了!
解决方案 »
- 高分求教,ssh annotation 在DAO如何注入sessionFactory
- javamail linux下不能发送的问题
- UID是Oracle的保留字???????
- javamail怎么弄?
- 数据库数据同步问题 程序怎么实现????
- 使用 spring ,hibernate 并发读取修改数据时,同步无效,求解决办法
- 程序执行 NoClassDefFoundError !!!
- 问一个Hibernate配置文件的问题
- jb删不了finder方法
- 导入struts标签报错:File /struts-tags not found,刚学struts2第一个程序就这样。。。
- Spring 线程池
- 分页查询时的lazy问题
没有研究过的吗?