最近突然想到一个问题,怎么样通过程序来获取哪些网页被哪些蜘蛛来爬过?
不知道是否可以得到相应的信息?

解决方案 »

  1.   

    http://www.china1024.com
    我这里就记录了被爬的信息
      

  2.   

    找不到啊!
    希望www203(水户洋平)能够说得详细一点!
      

  3.   

    如果是别人的网页,那你恐怕是没什么办法了。如果是你自己的网页,那么通过检查 HTTP request header,应该能看出点东西,一般蜘蛛都应该在 header 里表明自己的身份吧?……
      

  4.   

    是自己的网页阿!
    在asp中好像是有获得SCRIPT_NAME的函数,用这来判断!
    不知道这个在java中是怎么处理的阿?
      

  5.   

    maquan('ma:kju) 你再说的详细点
    我也想学
      

  6.   

    没人回答了么?
    java中怎样获得像在asp中是有获得SCRIPT_NAME值的函数阿?
      

  7.   

    既然给的只有20分,那我也只能告诉你实现Filter,然后log4j记录各种来路,包括spider
      

  8.   

    某时间段内的访问最大次数IP是个线索...而某些蜘蛛会访问站点下的指定文件..比如站点map.xml等等..记录这些被访问的页面来源..也是个线索...
      

  9.   

    正规的蜘蛛都会访问robot.txt文件
      

  10.   

    liuqstion(啊):
    我觉得我来csdn不是只为了达到多少积分吧,更重要的还是大家一起交流阿!
    如果你要多点分,我可以追加给你的阿!
    也许一些web服务器和应用服务器都有访问日志纪录,但是这个日志里包含很多信息,我是只想要那些关于spider的爬行纪录,不知道该如何处理阿?
      

  11.   

    每个公司的蜘蛛的useragent都不同,可以判断。
      

  12.   

    只能统计正常情况下的sprider访问。
    如果人家刷你的网站鬼知道是谁访问了你的网站!
    每个人都可以说自己是baidu spider或google sprider
      

  13.   

    呵呵,这个贴还没结。
    给你答案:先在web.xml中加这么几条
    <filter>
            <filter-name>FileFilter</filter-name>
            <filter-class>com.abc.FileFilter</filter-class>
        </filter>
        <filter-mapping>
            <filter-name>FileFilter</filter-name>
            <url-pattern>/*.jsp</url-pattern>
        </filter-mapping>
    这是把所有的访问xxx.jsp的都先通过com.abc.FileFilter这个类,这样就好记录了
    com.abc.FileFilter:import org.apache.commons.logging.Log;
    import org.apache.commons.logging.LogFactory;import javax.servlet.*;
    import javax.servlet.http.HttpServletRequest;
    import java.util.Date;
    public class FileFilter
            implements Filter {
        public void init(FilterConfig config) throws javax.servlet.ServletException {
        }    private static Log log = LogFactory.getLog(FileFilter.class);    private StringBuffer sb;    public void doFilter(ServletRequest request, ServletResponse response,
                             FilterChain chain) throws java.io.IOException,
                javax.servlet.ServletException {
            HttpServletRequest hrequest = (HttpServletRequest) request;
            sb = new StringBuffer();
            String uri = hrequest.getServletPath();
            uri = uri.toLowerCase();
            String referer = request.getHeader("referer");
            log.debug(referer);//=================这里记录访问记录等信息
            if (uri.startsWith("/list-")) {//================这里是返回到你的页面,具体改一下
    hrequest.getRequestDispatcher(sb.append("/search.jsp?action=singer&keyword=").append(uri.substring(8, uri.length()).replaceAll(".jsp", "")).toString()).forward(request, response);
                sb = null;
            }
        }    public void destroy() {
        }
    }分不是问题,这只是个帐号,只是看你对这个问题的重视程度而已,所以上面我才说“才20分”
      

  14.   

    蜘蛛-->robot.txt 多了就不用说了