Heritrix种子URL中含有中文~ - 调试易

Heritrix种子URL中含有中文~

我用Heritrix1.14.1抓取网页，seed中包含中文，抓取不到东西（不带中文时好使），修改Extractor貌似只能改内容的问题。
基本已经排除数据为动态生成的情况，请各位高手指导，谢谢拉！

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

没有用过Heritrix1.14.1 用过htmlparser去抓取网页，中文也没问题。只能帮你顶下
shtml也可以用htmlparser去获取内容吗？
shtml也可以用htmlparser去获取内容吗？
还是有其他的技术？
中文链接你得先编码才可以，URLEncoder.encode
我已经通过函数转码了，抓下来的都是shtml的文件。
如果用htmlparser，可以获取里面的内容吗？
我遇到了楼主的问题，楼主能详细解释解决办法吗？转码的步骤应该在哪添加进去呢？要修改Heritrix的代码吗?
这位大侠,能否交流一下,heritrix中怎么抓取动态网页,我的QQ328843126