如何探测网站目录，并采集 - 调试易

如何探测网站目录，并采集

比如就拿csdn这篇新闻来说吧： http://cloud.csdn.net/a/20110826/303631.html 我想把 http://cloud.csdn.net/a/ 这个a目录采集下来，有没有办法能实现这种探测方案？ ( 不是直接采集网页的方法，是采目录。)

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

没有，因为a不一定是目录，你也知道现在url重写，名字虚的太多。PS：网站IIS日志分析软件推荐：点格网站日志分析器[IISLogViewer]
有时候是伪链接，怎么能知道目录呢。
gogogo
爬虫。从一个网页入口，分析链接，一层一层的遍历，或者从一组网页入口，或者从一个rss源列表开始爬rss；
获取每个页面的源码保存在磁盘或者数据库里；
遍历抓下来的网页进行处理，比如提取正文，消重等；
根据用途把处理后的文本进行索引、分类、聚类等操作
参考
 爬虫
2楼说的也对，现在使用url重写的太多，mvc模式就更是了，但我采的目录下是一堆html或者是一堆文件，所以这个问题暂时还不需要考虑。