本帖最后由 u010676349 于 2013-06-12 11:12:08 编辑

解决方案 »

  1.   

    你所能做的是:开放和不开放
    不开放一般是做需要登录,就是对整个子目录做权限限制只要是开放的,有心人总能找到爬虫一般有两种方式得到链接——跟随和推算
    前者不用说了
    后者是依据url合法字符原则,在一定范围内做探测尝试,一般不需要获取网页,只做header探测是否存在就够了,然后再使用跟随就能获得了子目录下的站点
      

  2.   

    robots.txtUser-agent: *
    Disallow: /tner/禁止搜索引擎访问。tner下建立一个空的index.html,防止用户在键入http://www.XXX.com/tner 时,打印出tner下所有的文件列表。
      

  3.   

    太好了!对于如何禁止搜索引擎访问我问了很多人,发了很多贴,不得其法.请问你能详细一点吗?这个robots.txt文件放在哪里?是/tner目录下?还是什么别的地方?另外,你说/tner/目录下建立一个index.html文件,可是我已经有了index.php文件了,还用建立index.html文件吗?
      

  4.   


    我刚才搜了一下,是需要在根目录,也就是http://www.XXX.com/下面建立一个robots.txt文件是吗?可是我又怕建立这个文件,别人如果下载了这个文件,不是反而泄密了这个子目录了吗?我既不希望无关的人查到我的这个子目录(尽管他可能会猜到有这个一样子目录存在),同时也不希望搜索引擎把我的子目录的内容收录.应该怎么办呢?
      

  5.   

    robots.txt 放根目录下。 /var/www/html/robots.txt
    别人可以打开你的 http://www.yourdomain.com/robots.txt 查看到你的设置Disallow: /tner/所以你要在/tner/目录下放一个空白的index.html文件(0字节),这样即使有人键入http://www.yourdomain.com/tner,显示为空白页,不会打印出/tner/下的文件列表。