因为是内部使用的系统,担心被外面的人访问,以前发生过这样的事情,在baidu上能搜出页面来,如何避免呢,谢谢了

解决方案 »

  1.   

    robots.txt放在网站根目录。具体写法见网址:http://www.baidu.com/search/robots.html
      

  2.   

    baidu避免了,那google呢,其它搜索网站也避免不了。
    既然内部 建议给出一个IP段限制。即使它被收录了,但不在规定的IP段上,就无法打开。
      

  3.   

    回复2楼:robots.txt文档是 网络爬虫 的国际标准文档,不是百度自己想的。回复3楼:静态页面越多,越容易被搜索引擎收录,如果和你说的一样,那么现在大家都热衷于的静态页面生成的技术问题探讨起来的意义就减半了吧
      

  4.   

    的确。如果真是从保密信息角度出发,确实起不到效果。
    但是robots.txt文档存在未必就是安全的。如果搜索引擎不按照 规则走。
    robots.txt文档的存在 照样会查出相关信息。
      

  5.   


    这位仁兄的考虑,是非常现实的就算是BAIDU提供了不被收录的方法,但是还是有几率的。想要全面的控制。。断网吧,在局域网做。
      

  6.   

    最主要的是
    规则是没有限制的。目前很多公司都自己写搜索引擎,写爬虫去爬。而这些公司根本不按照你说的规则走。
    只要是能爬的都抓下来。所以,你说的robots.txt只能是一部分的限制,最根本无法保证信息的外漏。只要是你BS,只要你有互连网,信息一定会外漏。