我昨天在检查日志的时候
发现好多IP在站里四处流闯,访问了很多页面
在看一下历史纪录,都访问了好几万次了
搜索IP,基本都是美国google的
有时候一天派十几个来抓数据。来抓数据我不反对,问题是我出访问报告的时候就郁闷了,
以前没有想到机器人的访问量占的比例很大
我要是这次把机器人的访问都刨掉,访问量就要下来一半,
要是这样的报告出去,不被骂死才怪呢
要是不理睬,数据递增很快,可都是机器人干的,最后也会死得很惨还有一个问题,怎么样才能确认对方是机器人??

解决方案 »

  1.   

    我现在办法是往客户端写一个GUID存在cookie中,没有就往里写,当作新的客户端
    机器人用的是多线程,cookie是写不进去的,每次都是新的
    这样一个IP就会对应很多GUID
    计算的时候采用
    select Remote_IP,count(*) total from Log group by Remote having count(*)>50
    就能找到那些 total>50以上的基本上都能算是机器人了不知道这样算有没有漏洞?
      

  2.   

    这是今天的统计
    select Remote_IP,count(distinct GUID) total from Visited_Log
    where visited_Date between '2010-2-18' and '2010-2-19'
    group by Remote_IP
    order by total descRemote_IP     total
    203.208.60.175 109   //本站主数据:北京市 Google中国
    220.181.94.215 75    //本站主数据:北京市 电信
    67.195.114.37 61    //本站主数据:美国 弗吉尼亚州
    218.66.59.177 35    //本站主数据:福建省福州市 电信
    208.115.111.243 16    //本站主数据:美国靠一晚上,就来抓了我100多个页面
      

  3.   

    机器人的ip都是固定的。lz现在一定有很多ip样本了。把排名前几个的ip找出来,直接封掉。统计user-agent可以
      

  4.   

    如果只是不想记录机器人,只要判断user-agent就可以了。
      

  5.   

    如果用IP的话,会存在这么个问题
    同一家公司的出口IP都是一样的
    如果同一家公司有10个员工上了,我只算一个吗?
    因为同一家公司的机器配置基本一样
    操作系统也基本一样
      

  6.   

    今天应该人多了
    问一个问题
    在不用ActiveX的情况下
    我想知道有多少台机器访问我的网站如果用IP的话,会存在这么个问题 
    同一家公司的出口IP都是一样的 
    如果同一家公司有10个员工上了,我只算一个吗? 
    因为同一家公司的机器配置基本一样 
    操作系统也基本一样 如果我往里面写Cookie的话,装3个浏览器,就会有3台机器,
    还有就是机器人的问题
    希望大家能提供点好思路,谢谢
      

  7.   

    管他呢。我这里也有baidu的蜘蛛来抓页面。
      

  8.   

    没有办法,UserAgent和Cookie都是可以伪造的
    像Google,Baidu来抓取的话都可以通过UserAgent判断,当然也不排除有人伪造成Google的
      

  9.   


    你能获取到的iP肯定是外网IP, 一个局域网里面的所有人的外网IP是同一个的