今天在服务器上面发现,MYSQL流量很高。然后查看一下日志,发现一个不友好的蜘蛛爬虫,看了一下时间 一秒钟访问页面7,8次,而且访问的是网站的整站收索页面。就是不听的查询数据库。
我想问一下大家遇到这类的问题,如何防范? 现在我已经静止了这个IP地址

解决方案 »

  1.   

    没有什么好方法。你可以观察哪些ip访问频繁,有嫌疑的就禁封。程序当中,你可以设置同一个ip两次访问的间隔时间。
      

  2.   

    谢谢,刚才看了一下DISCUZ,好像有一个robots.txt 可以设置爬虫的访问站点,这个是否有用呢?
      

  3.   

    robots.txt是通用的,搜索引擎遵守的规范,它们会先爬你的robots.txt,根据其中的约束进行爬取。关键你看看access日志,看看是谁家的爬虫来看的,它们都会在User-Agent头上标注自己是什么网站的爬虫。先配置一下access_log的格式打印出来User-Agent,重启服务器,等一段时间重新看一下access_log,看看是不是正常爬虫,非正常爬虫你也没办法,只能限制IP访问。
      

  4.   

    百度的各种蜘蛛名字:  产品名称 对应user-agent
      网页搜索 Baiduspider
      无线搜索 Baiduspider-mobile
      图片搜索 Baiduspider-image
      视频搜索 Baiduspider-video
      新闻搜索 Baiduspider-news
      百度搜藏 Baiduspider-favo
      百度联盟 Baiduspider-cpro这是百度的爬虫。
      

  5.   

    robots.txt对大部分爬虫还是有用滴, 直接挡掉, 但是对某些爬虫, 例如百度, 是挡不住的.
    建议加上. 
      

  6.   

    有个站比较牛逼, 他的robots.txt对爬虫的处理, wget也是默认不让爬的
    User-Agent: almaden
    Disallow: /
    User-Agent: ASPSeek
    Disallow: /
    User-Agent: Axmo
    Disallow: /
    User-Agent: BaiduSpider
    Disallow: /
    User-Agent: booch
    Disallow: /
    User-Agent: DTS Agent
    Disallow: /
    User-Agent: Downloader
    Disallow: /
    User-Agent: EmailCollector
    Disallow: /
    User-Agent: EmailSiphon
    Disallow: /
    User-Agent: EmailWolf
    Disallow: /
    User-Agent: Expired Domain Sleuth
    Disallow: /
    User-Agent: Franklin Locator
    Disallow: /
    User-Agent: Gaisbot
    Disallow: /
    User-Agent: grub
    Disallow: /
    User-Agent: HughCrawler
    Disallow: /
    User-Agent: iaea.org
    Disallow: /
    User-Agent: lcabotAccept
    Disallow: /
    User-Agent: IconSurf
    Disallow: /
    User-Agent: Iltrovatore-Setaccio
    Disallow: /
    User-Agent: Indy Library
    Disallow: /
    User-Agent: IUPUI
    Disallow: /
    User-Agent: Kittiecentral
    Disallow: /
    User-Agent: iaea.org
    Disallow: /
    User-Agent: larbin
    Disallow: /
    User-Agent: lwp-trivial
    Disallow: /
    User-Agent: MetaTagRobot
    Disallow: /
    User-Agent: Missigua Locator
    Disallow: /
    User-Agent: NetResearchServer
    Disallow: /
    User-Agent: NextGenSearch
    Disallow: /
    User-Agent: NPbot
    Disallow: /
    User-Agent: Nutch
    Disallow: /
    User-Agent: ObjectsSearch
    Disallow: /
    User-Agent: Oracle Ultra Search
    Disallow: /
    User-Agent: PEERbot
    Disallow: /
    User-Agent: PictureOfInternet
    Disallow: /
    User-Agent: PlantyNet
    Disallow: /
    User-Agent: QuepasaCreep
    Disallow: /
    User-Agent: ScSpider
    Disallow: /
    User-Agent: SOFT411
    Disallow: /
    User-Agent: spider.acont.de
    Disallow: /
    User-Agent: Sqworm
    Disallow: /
    User-Agent: SSM Agent
    Disallow: /
    User-Agent: TAMU
    Disallow: /
    User-Agent: TheUsefulbot
    Disallow: /
    User-Agent: TurnitinBot
    Disallow: /
    User-Agent: Tutorial Crawler
    Disallow: /
    User-Agent: TutorGig
    Disallow: /
    User-Agent: WebCopier
    Disallow: /
    User-Agent: WebZIP
    Disallow: /
    User-Agent: ZipppBot
    Disallow: /
    User-Agent: Xenu
    Disallow: /
    User-Agent: Wotbox
    Disallow: /
    User-Agent: Wget
    Disallow: /
    User-Agent: NaverBot
    Disallow: /
    User-Agent: mozDex
    Disallow: /
    User-Agent: Sosospider
    Disallow: /
      

  7.   

    原本robots.txt 就可以了,不过总是有人不守规则.所以还是要记录,然后屏蔽掉某些ip地址...当然,你也可以用https...呵呵
      

  8.   

    既然这个爬虫1秒7.8次,那你觉得他会看你的robots.txt吗?
    百度都不看,别说这类采集器了。判断频率或者分析它的ua头,果断禁止掉吧。别客气了