看了很多网上的东西 安装nutch后发现都不行..
首先
配置好crawl后
1.配置 crawl-urlfilter.txt 里面的网站
+^http://([a-z0-9]*\.)*163.com/ (匹配所有网页)
2.创建urls目录
urls/url.txt 内容为 http://www.163.com就可以爬了... 但是怎么样进行多个网站的匹配呢??
我试过
urls/url.txt 内容为 
http://www.163.com
http://www.baidu.com
http://www.其他...comcrawl-urlfilter.txt里面
+^http://([a-z0-9]*\.)*163.com/ (匹配所有网页)
+^http://([a-z0-9]*\.)*baidu.com/ (匹配所有网页)
+^http://([a-z0-9]*\.)*其他.com/ (匹配所有网页)
结果不行..只有163是可以的..而且我要是想指定一个路径开始呢??也无法爬得下来..如
http://www.163.com/news/201010/所有的网页
怎么样配置呢??