现在我已经把nutch部署到我的j2ee项目里,但是按照需求,用户是可以维护入口网址和过滤网址的,也就是说,我要用做一个模块给终端用户用,用户可以添加多个和删除多个nutch起始搜索的网址。我该怎么做呢?我这里有一个想法但不成熟:
[nutch]#bin/nutch crawl urls -dir crawl.demo -depth 2 -threads 4 -topN 50 >& crawl.log在上面的这个命令中,urls是一个目录,里面有一个文件(多个文件可以吗?crawl会搜索这下面所有的文件中的地址码?)用来记录入口地址的网址的,那么当用户维护入口网址的时候我就对应的在urls目录里生成或删除带有网页地址信息的文件。那么当运行crawl命令抓取网页的时候,会把URL下面的所有文件中的网页地址作为入口地址,这个想法好吗?这样做有什么问题吗?关于过滤地址,crawl-urlfilter.txt 中有记录,当用户维护过滤地址的时候,我要操作这个文本文件吗?这样不方便吧!
有相关经验的还请赐教!
多谢!