如何获取网页被哪些蜘蛛爬过？

最近突然想到一个问题，怎么样通过程序来获取哪些网页被哪些蜘蛛来爬过？
不知道是否可以得到相应的信息？

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

http://www.china1024.com
我这里就记录了被爬的信息
找不到啊！
希望www203(水户洋平)能够说得详细一点！
如果是别人的网页，那你恐怕是没什么办法了。如果是你自己的网页，那么通过检查 HTTP request header，应该能看出点东西，一般蜘蛛都应该在 header 里表明自己的身份吧？……
是自己的网页阿！
在asp中好像是有获得SCRIPT_NAME的函数，用这来判断！
不知道这个在java中是怎么处理的阿？
maquan('ma:kju) 你再说的详细点
我也想学
没人回答了么？
java中怎样获得像在asp中是有获得SCRIPT_NAME值的函数阿？
既然给的只有20分，那我也只能告诉你实现Filter，然后log4j记录各种来路，包括spider
某时间段内的访问最大次数IP是个线索...而某些蜘蛛会访问站点下的指定文件..比如站点map.xml等等..记录这些被访问的页面来源..也是个线索...
正规的蜘蛛都会访问robot.txt文件
liuqstion(啊)：
我觉得我来csdn不是只为了达到多少积分吧，更重要的还是大家一起交流阿！
如果你要多点分，我可以追加给你的阿！
也许一些web服务器和应用服务器都有访问日志纪录，但是这个日志里包含很多信息，我是只想要那些关于spider的爬行纪录，不知道该如何处理阿？
每个公司的蜘蛛的useragent都不同，可以判断。
只能统计正常情况下的sprider访问。
如果人家刷你的网站鬼知道是谁访问了你的网站！
每个人都可以说自己是baidu spider或google sprider
呵呵，这个贴还没结。
给你答案：先在web.xml中加这么几条
<filter>
        <filter-name>FileFilter</filter-name>
        <filter-class>com.abc.FileFilter</filter-class>
    </filter>
    <filter-mapping>
        <filter-name>FileFilter</filter-name>
        <url-pattern>/*.jsp</url-pattern>
    </filter-mapping>
这是把所有的访问xxx.jsp的都先通过com.abc.FileFilter这个类，这样就好记录了
com.abc.FileFilter：import org.apache.commons.logging.Log;
import org.apache.commons.logging.LogFactory;import javax.servlet.*;
import javax.servlet.http.HttpServletRequest;
import java.util.Date;
public class FileFilter
        implements Filter {
    public void init(FilterConfig config) throws javax.servlet.ServletException {
    }    private static Log log = LogFactory.getLog(FileFilter.class);    private StringBuffer sb;    public void doFilter(ServletRequest request, ServletResponse response,
                         FilterChain chain) throws java.io.IOException,
            javax.servlet.ServletException {
        HttpServletRequest hrequest = (HttpServletRequest) request;
        sb = new StringBuffer();
        String uri = hrequest.getServletPath();
        uri = uri.toLowerCase();
        String referer = request.getHeader("referer");
        log.debug(referer);//=================这里记录访问记录等信息
        if (uri.startsWith("/list-")) {//================这里是返回到你的页面，具体改一下
hrequest.getRequestDispatcher(sb.append("/search.jsp?action=singer&keyword=").append(uri.substring(8, uri.length()).replaceAll(".jsp", "")).toString()).forward(request, response);
            sb = null;
        }
    }    public void destroy() {
    }
}分不是问题，这只是个帐号，只是看你对这个问题的重视程度而已，所以上面我才说“才20分”
蜘蛛-->robot.txt 多了就不用说了