写网络爬虫遇到字符集变换的问题

用java写了一个简单的抓取html源文件的程序。
但有的网页抓取下来是乱码，如下：<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="zh-cn" lang="zh-cn">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>
<title>宕囧窞鍑烘父鎸囧崡,宕囧窞鏃呰绀剧嚎璺绋?鏃呮父鍥㈡姤浠?-51766鏃呮父缃?/title>
<meta name="description" content="宕囧窞鍑烘父鎸囧崡,宕囧窞鏃呰绀炬彁渚涘悇绉嶅磭宸炲嚭鍙戠殑鍥藉唴娓搞?鍑哄娓哥嚎璺绋嬨?鍙戝洟鏃ユ湡銆佹梾娓稿洟鎶ヤ环锛岃缁嗚绋嬩互鍙婂湪绾垮挩璇?">
<LINK REL="SHORTCUT ICON" HREF="http://www.51766.com/www/favicon.ico">我总结了一下，如果编码方式是utf-8,则会出现这个问题，是gb2312则没有。我在想是不是应该将utf-8转换为gb2312，异或是还有什么更好的办法？

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

firefox  --> 查看 --> 字符编码  --> 选择其他编码试试
其实我今天抓取php中的内容时  就出现乱码使用的是gbk
但是我修改成了 utf-8 抓取就正常了！