用heritrix爬下的东西为什么不是想要东西,如我想爬的是xxx.com/list.asp?unid=1234,可是实际爬下的却是xxx.com/listunid=1171.asp,请问哪位大侠做过,给个答案,本人很着急啊,谢谢了!!

解决方案 »

  1.   

    一般爬虫读的都是httpheader的信息
    是不是header信息不一致。
      

  2.   

    我想要的是xxx.com/list.asp?unid=1234,可是出来却是xxx.com/listunid=1234.asp
      

  3.   

    楼主,你的heritrix是在什么环境下安的啊?
      

  4.   

    这主要是文件名中不能包含?,heritrix在写文件的时候做了处理(将?去除,并把网页文件扩展名放到最后)