小弟最近在爬香港的一些页面,但是爬取出来的页面个别字是乱码,我看了一下这个字在以前是没有收录的,在2016年之后才收录进HKSCS(香港增补字符集)里面,想问一下有没有什么解决方案。我框架用的webmagic,我在site里面设置了编码的
private Site site = Site.me().setSleepTime(forumSpiderSourceUtil.getSleepTime(spiderID))
.setCycleRetryTimes(forumSpiderSourceUtil.getRetryTimes(spiderID))
.setUserAgent("Mozilla/5.0 (Windows NT 6.1; WOW64; rv:53.0) Gecko/20100101 Firefox/53.0")
.setCharset("Big5-HKSCS")
这个charset我用Big5-HKSCS和Big5都试过了,Big5-HKSCS这个要好一点,但是还是有乱码。