我用Heritrix1.14.1抓取网页,seed中包含中文,抓取不到东西(不带中文时好使),修改Extractor貌似只能改内容的问题。
基本已经排除数据为动态生成的情况,请各位高手指导,谢谢拉!

解决方案 »

  1.   

    没有用过Heritrix1.14.1 用过htmlparser去抓取网页,中文也没问题。只能帮你顶下
      

  2.   


    shtml也可以用htmlparser去获取内容吗?
      

  3.   


    shtml也可以用htmlparser去获取内容吗?
    还是有其他的技术?
      

  4.   

    中文链接你得先编码才可以,URLEncoder.encode
      

  5.   


    我已经通过函数转码了,抓下来的都是shtml的文件。
    如果用htmlparser,可以获取里面的内容吗?
      

  6.   

    我遇到了楼主的问题,楼主能详细解释解决办法吗?转码的步骤应该在哪添加进去呢?要修改Heritrix的代码吗?
      

  7.   

    这位大侠,能否交流一下,heritrix中怎么抓取动态网页,我的QQ328843126