请问一下各位,我用了NUTCH 0.8按照http://wiki.apache.org/nutch/RunNutchInEclipse中介绍的,
输入了org.apache.nutch.crawl.Crawl * on tab Arguments, Program Argumentsurls -dir crawl -depth 3 -topN 50 * in VM arguments-Dhadoop.log.dir=logs -Dhadoop.log.file=hadoop.log
运行,
urls目录下也有好几个URL,但是爬到的结果整个crawl目录的大小才2K左右,里面的数据肯定是不完整的,请问一下有没有人知道怎么回事? 谢谢。
输入了org.apache.nutch.crawl.Crawl * on tab Arguments, Program Argumentsurls -dir crawl -depth 3 -topN 50 * in VM arguments-Dhadoop.log.dir=logs -Dhadoop.log.file=hadoop.log
运行,
urls目录下也有好几个URL,但是爬到的结果整个crawl目录的大小才2K左右,里面的数据肯定是不完整的,请问一下有没有人知道怎么回事? 谢谢。
解决方案 »
- 大新手的JSP问题
- 关于JavaWeb异常的问题?求解答!急!
- 请教一个实用而难见的查询问题
- 用JFreeChart的朋友进来看看~~~~
- 何谓webservice?
- 求助JSP数据库调用乱码问题??
- 关于使用jxl写excel文件时候格式化数据的问题。
- 想找一个值得学习的servlet 工程
- 好奇怪!!!
- ▲ 紧急求助: 如何在打开一个链接时,调用一个JAVABEAN ? ▲
- the jar file mysql-connector-java-1.5.6-bin.jar has no source attachment
- getHibernateTemplate().saveOrUpdate(ABCD)整合Spring2.0错误“ABCD”是参数这个完全正确,但是执行无法实现修改,返回语句没有错误。
如:
http://www.csdn.net/
另外要在 crawl-urlfilter.txt中添加
+^http://([a-z0-9]*\.)*csdn.net/
指定可以爬行 csdn.net域名下的内容