用什么方法能够爬取一个网站所有的网页？？ - 调试易

用什么方法能够爬取一个网站所有的网页？？

也就是 url .....
本人目前正在用 Jsoup 抓取一网站信息想全部抓下来大家可否指点下思路。、、、、

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

不懂~~ jsoup简单的爬去页面还行但是如果里面有链接或者ajax能爬到吗？你加些搜索引擎QQ群上去问吧
如果有ajax  那咋处理呢？
这个你可以参考现有的网页抓取工具，spider或bot机器人。其中spider用的是一种深度优先策略，而bot机器人采用的是广度优先策略。网上查得到的。
当年做学生的时候，弄过爬虫.如果你仅仅是需要爬取网页，而不需要分词索引的话，这篇文章很适合你。当年我也用了这里面的源码，改了不少
http://book.douban.com/subject/1099242/
非得用上这个java么有些现成的工具很不错的
看一下Nutch搜索引擎源码吧～里面分析～