网络爬虫heritrix 用heritrix爬下的东西为什么不是想要东西,如我想爬的是xxx.com/list.asp?unid=1234,可是实际爬下的却是xxx.com/listunid=1171.asp,请问哪位大侠做过,给个答案,本人很着急啊,谢谢了!! 解决方案 » 免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货 一般爬虫读的都是httpheader的信息是不是header信息不一致。 我想要的是xxx.com/list.asp?unid=1234,可是出来却是xxx.com/listunid=1234.asp 楼主,你的heritrix是在什么环境下安的啊? 这主要是文件名中不能包含?,heritrix在写文件的时候做了处理(将?去除,并把网页文件扩展名放到最后) 面试的一道算法题 Eclipse里常用快捷键 新手的 问题!~ jdk1.5或则1.6安装文件。 paintComponents为什么不管用 java软件开发交流群:3381806 谁有对“汉字”进行“加密”的程序?能发给我一份吗!不胜感激!Email: [email protected] 请帮忙·——· package怎么使用啊! 一个菜鸟的问题,很弱智的。 一个奇怪的java基础问题 ? 获得文件大小的最后修改时间
是不是header信息不一致。