比如就拿csdn这篇新闻来说吧: http://cloud.csdn.net/a/20110826/303631.html  我想把 http://cloud.csdn.net/a/ 这个a目录采集下来,有没有办法能实现这种探测方案? ( 不是直接采集网页的方法,是采目录。)

解决方案 »

  1.   

    没有,因为a不一定是目录,你也知道现在url重写,名字虚的太多。PS:网站IIS日志分析软件推荐:点格网站日志分析器[IISLogViewer]
      

  2.   

    有时候是伪链接,怎么能知道目录呢。
    gogogo
      

  3.   

    爬虫。从一个网页入口,分析链接,一层一层的遍历,或者从一组网页入口,或者从一个rss源列表开始爬rss;  
    获取每个页面的源码保存在磁盘或者数据库里;  
    遍历抓下来的网页进行处理,比如提取正文,消重等;  
    根据用途把处理后的文本进行索引、分类、聚类等操作
    参考
    爬虫
      

  4.   

    2楼说的也对,现在使用url重写的太多,mvc模式就更是了,但我采的目录下是一堆html或者是一堆文件,所以这个问题暂时还不需要考虑。