怎么样阻止不友好的搜索引擎机器人蜘蛛爬虫? 今天在服务器上面发现,MYSQL流量很高。然后查看一下日志,发现一个不友好的蜘蛛爬虫,看了一下时间 一秒钟访问页面7,8次,而且访问的是网站的整站收索页面。就是不听的查询数据库。我想问一下大家遇到这类的问题,如何防范? 现在我已经静止了这个IP地址 解决方案 » 免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货 没有什么好方法。你可以观察哪些ip访问频繁,有嫌疑的就禁封。程序当中,你可以设置同一个ip两次访问的间隔时间。 谢谢,刚才看了一下DISCUZ,好像有一个robots.txt 可以设置爬虫的访问站点,这个是否有用呢? robots.txt是通用的,搜索引擎遵守的规范,它们会先爬你的robots.txt,根据其中的约束进行爬取。关键你看看access日志,看看是谁家的爬虫来看的,它们都会在User-Agent头上标注自己是什么网站的爬虫。先配置一下access_log的格式打印出来User-Agent,重启服务器,等一段时间重新看一下access_log,看看是不是正常爬虫,非正常爬虫你也没办法,只能限制IP访问。 百度的各种蜘蛛名字: 产品名称 对应user-agent 网页搜索 Baiduspider 无线搜索 Baiduspider-mobile 图片搜索 Baiduspider-image 视频搜索 Baiduspider-video 新闻搜索 Baiduspider-news 百度搜藏 Baiduspider-favo 百度联盟 Baiduspider-cpro这是百度的爬虫。 robots.txt对大部分爬虫还是有用滴, 直接挡掉, 但是对某些爬虫, 例如百度, 是挡不住的.建议加上. 有个站比较牛逼, 他的robots.txt对爬虫的处理, wget也是默认不让爬的User-Agent: almadenDisallow: /User-Agent: ASPSeekDisallow: /User-Agent: AxmoDisallow: /User-Agent: BaiduSpiderDisallow: /User-Agent: boochDisallow: /User-Agent: DTS AgentDisallow: /User-Agent: DownloaderDisallow: /User-Agent: EmailCollectorDisallow: /User-Agent: EmailSiphonDisallow: /User-Agent: EmailWolfDisallow: /User-Agent: Expired Domain SleuthDisallow: /User-Agent: Franklin LocatorDisallow: /User-Agent: GaisbotDisallow: /User-Agent: grubDisallow: /User-Agent: HughCrawlerDisallow: /User-Agent: iaea.orgDisallow: /User-Agent: lcabotAcceptDisallow: /User-Agent: IconSurfDisallow: /User-Agent: Iltrovatore-SetaccioDisallow: /User-Agent: Indy LibraryDisallow: /User-Agent: IUPUIDisallow: /User-Agent: KittiecentralDisallow: /User-Agent: iaea.orgDisallow: /User-Agent: larbinDisallow: /User-Agent: lwp-trivialDisallow: /User-Agent: MetaTagRobotDisallow: /User-Agent: Missigua LocatorDisallow: /User-Agent: NetResearchServerDisallow: /User-Agent: NextGenSearchDisallow: /User-Agent: NPbotDisallow: /User-Agent: NutchDisallow: /User-Agent: ObjectsSearchDisallow: /User-Agent: Oracle Ultra SearchDisallow: /User-Agent: PEERbotDisallow: /User-Agent: PictureOfInternetDisallow: /User-Agent: PlantyNetDisallow: /User-Agent: QuepasaCreepDisallow: /User-Agent: ScSpiderDisallow: /User-Agent: SOFT411Disallow: /User-Agent: spider.acont.deDisallow: /User-Agent: SqwormDisallow: /User-Agent: SSM AgentDisallow: /User-Agent: TAMUDisallow: /User-Agent: TheUsefulbotDisallow: /User-Agent: TurnitinBotDisallow: /User-Agent: Tutorial CrawlerDisallow: /User-Agent: TutorGigDisallow: /User-Agent: WebCopierDisallow: /User-Agent: WebZIPDisallow: /User-Agent: ZipppBotDisallow: /User-Agent: XenuDisallow: /User-Agent: WotboxDisallow: /User-Agent: WgetDisallow: /User-Agent: NaverBotDisallow: /User-Agent: mozDexDisallow: /User-Agent: SosospiderDisallow: / 原本robots.txt 就可以了,不过总是有人不守规则.所以还是要记录,然后屏蔽掉某些ip地址...当然,你也可以用https...呵呵 既然这个爬虫1秒7.8次,那你觉得他会看你的robots.txt吗?百度都不看,别说这类采集器了。判断频率或者分析它的ua头,果断禁止掉吧。别客气了 mysql_fetch_array(): supplied argument is not a valid mysql result resource PHP语句日期比较问题 高手请帮帮… 求助php循环批量like查询与修改的方法。 WINDOWS XP上安装apache错误 Smarty数组下标中怎么进行数值计算? 求助高手帮我把这段httpd.in代码转换成.htaccess代码 如何解决PHP在ms_sql server2000视图查询问题? 有没有php的在线直播程序代码? 高手请指教,简单的问题? php中@property的作用? php+mysql 中文显示变成了问号~~
网页搜索 Baiduspider
无线搜索 Baiduspider-mobile
图片搜索 Baiduspider-image
视频搜索 Baiduspider-video
新闻搜索 Baiduspider-news
百度搜藏 Baiduspider-favo
百度联盟 Baiduspider-cpro这是百度的爬虫。
建议加上.
User-Agent: almaden
Disallow: /
User-Agent: ASPSeek
Disallow: /
User-Agent: Axmo
Disallow: /
User-Agent: BaiduSpider
Disallow: /
User-Agent: booch
Disallow: /
User-Agent: DTS Agent
Disallow: /
User-Agent: Downloader
Disallow: /
User-Agent: EmailCollector
Disallow: /
User-Agent: EmailSiphon
Disallow: /
User-Agent: EmailWolf
Disallow: /
User-Agent: Expired Domain Sleuth
Disallow: /
User-Agent: Franklin Locator
Disallow: /
User-Agent: Gaisbot
Disallow: /
User-Agent: grub
Disallow: /
User-Agent: HughCrawler
Disallow: /
User-Agent: iaea.org
Disallow: /
User-Agent: lcabotAccept
Disallow: /
User-Agent: IconSurf
Disallow: /
User-Agent: Iltrovatore-Setaccio
Disallow: /
User-Agent: Indy Library
Disallow: /
User-Agent: IUPUI
Disallow: /
User-Agent: Kittiecentral
Disallow: /
User-Agent: iaea.org
Disallow: /
User-Agent: larbin
Disallow: /
User-Agent: lwp-trivial
Disallow: /
User-Agent: MetaTagRobot
Disallow: /
User-Agent: Missigua Locator
Disallow: /
User-Agent: NetResearchServer
Disallow: /
User-Agent: NextGenSearch
Disallow: /
User-Agent: NPbot
Disallow: /
User-Agent: Nutch
Disallow: /
User-Agent: ObjectsSearch
Disallow: /
User-Agent: Oracle Ultra Search
Disallow: /
User-Agent: PEERbot
Disallow: /
User-Agent: PictureOfInternet
Disallow: /
User-Agent: PlantyNet
Disallow: /
User-Agent: QuepasaCreep
Disallow: /
User-Agent: ScSpider
Disallow: /
User-Agent: SOFT411
Disallow: /
User-Agent: spider.acont.de
Disallow: /
User-Agent: Sqworm
Disallow: /
User-Agent: SSM Agent
Disallow: /
User-Agent: TAMU
Disallow: /
User-Agent: TheUsefulbot
Disallow: /
User-Agent: TurnitinBot
Disallow: /
User-Agent: Tutorial Crawler
Disallow: /
User-Agent: TutorGig
Disallow: /
User-Agent: WebCopier
Disallow: /
User-Agent: WebZIP
Disallow: /
User-Agent: ZipppBot
Disallow: /
User-Agent: Xenu
Disallow: /
User-Agent: Wotbox
Disallow: /
User-Agent: Wget
Disallow: /
User-Agent: NaverBot
Disallow: /
User-Agent: mozDex
Disallow: /
User-Agent: Sosospider
Disallow: /
百度都不看,别说这类采集器了。判断频率或者分析它的ua头,果断禁止掉吧。别客气了