我用java进行网页数据抓取时获得的数据为潮安县,但我想在入库前将它转为汉字,如图即是将上图以&#开头的那一串字符串转为汉字,我知道那串东西其实就是汉字 “径南分园110千伏铁铺变电站 []”,但是不知道怎么转换,请教各位谁能够提供一个能够进行转换的java代码,谢谢。

解决方案 »

  1.   

    html或者网页最上面定义格式
    <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"  "http://www.w3.org/TR/html4/loose.dtd">
    <html>
    <head>
        <title>WishWall</title>
        <meta http-equiv="Content-Type" content="text/html;charset=UTF-8" />
    </head>
    <body>
    </body>
    </html>
      

  2.   

    这个就是GBK编码。 
    通过正则表达式,得到&#;之间的数字。
    然后 Strig.valueOf((char)number) 就是啦。