是cnblogs的一个博客html源码,我用htmlparser把进行处理,只是过滤一些元素,没有修改,重新输出html文件,发现中文竟然成了乱码。我把charset从utf-8改成gb2312才好使了。为什么呢?我在网上看他的charset就是utf-8呀,没有乱码。<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>
<title>九个月可以做成什么事? - DanielWise - 博客园</title>
<link type="text/css" rel="stylesheet" href="http://common.cnblogs.com/blog/css/common.css?id=2012040903"/>
<link id="MainCss" type="text/css" rel="stylesheet" href="http://common.cnblogs.com/Skins/Minyx2_Lite/style.css?id=2012040903"/>
<link type="text/css" rel="stylesheet" href="http://common.cnblogs.com/blog/css/common2.css"/>
<link type="text/css" rel="stylesheet" href="http://common.cnblogs.com/css/shStyle.css"/>
<link title="RSS" type="application/rss+xml" rel="alternate" href="http://www.cnblogs.com/danielWise/rss"/>
<link title="RSD" type="application/rsd+xml" rel="EditURI" href="http://www.cnblogs.com/danielWise/rsd.xml"/>
<link type="application/wlwmanifest+xml" rel="wlwmanifest" href="http://www.cnblogs.com/danielWise/wlwmanifest.xml"/>
  
 </head>
<body>
<a name="top"></a>
<form method="post" action="2086385.html" id="Form1">
<div class="aspNetHidden">
<input type="hidden" name="__EVENTTARGET" id="__EVENTTARGET" value="" />
<input type="hidden" name="__EVENTARGUMENT" id="__EVENTARGUMENT" value="" />
<input type="hidden" name="__VIEWSTATE" id="__VIEWSTATE" value="" />
</div>    <div id="container">
    <a class="minyx" href="http://www.spiga.com.mx/">Spiga</a>
    <ul id="topMnu">
        
        <li>
        
            
Posts - 235, 
Articles - 0, 
Comments - 415
            
        
        </li>
        
        
        <li><a href="http://www.cnblogs.com">Cnblogs</a></li>
        
        <li id="topMnu-dashboard"><a id="lnkDashboard" href="http://www.cnblogs.com/danielWise/admin/EditPosts.aspx">Dashboard</a></li>
        <li><a id="lnkLogin" href="http://passport.cnblogs.com/login.aspx?ReturnUrl=http://www.cnblogs.com/danielWise/archive/2011/06/21/2086385.html">Login</a></li>
    </ul>
    
        <div id="header">
        <ul id="menu">
                
                <li id="menu-home" class="current"><a id="lnkHome" href="http://www.cnblogs.com/danielWise/">Home</a></li>
                
                <li id="menu-contact"><a id="lnkContact" href="http://space.cnblogs.com/msg/send/DanielWise">Contact</a></li>
                
                <li id="menu-gallary"><a id="lnkGallery" href="http://www.cnblogs.com/danielWise/gallery.html">Gallery</a></li>
                
                <li id="rss"><a id="lnkRss" href="http://www.cnblogs.com/danielWise/rss">RSS</a></li>
        </ul>
<div id="newmsg"></div>
        <h1>
            
            <a id="lnkBlogTitle" href="http://www.cnblogs.com/danielWise/">DanielWise</a>
            
            <small></small>
        </h1>
    </div>
    
    
        
    <div id="wrapper"> 
        <div id="content">
             
            

<div class="post" id="post"><a name="top"></a>
    <h2>
        <a id="ctl02_lnkTitle" href="http://www.cnblogs.com/danielWise/archive/2011/06/21/2086385.html">九个月可以做成什么事?</a></h2>
    <small>
        2011-06-21 21:29
        by
        DanielWise,
        4162
        visits,
        <a href="#" onclick="PutInWz();return false;">收藏</a>,
        <a id="ctl02_lnkEdit" href="http://www.cnblogs.com/danielWise/admin/EditPosts.aspx?postid=2086385">编辑</a></small>
    <div class="entry">
        <div id="cnblogs_post_body"><p>九个月时间可以做成什么事情?九个月时间可以完成一件事情,可以通过这件事情证明另外一件事情。</p>
<p>&nbsp; 距离《<a href="http://www.cnblogs.com/danielWise/">Essential Windows Communication Foundation</a>》全篇翻译结束已经九天了,这九天时间里我每天除了游戏还是游戏,没有压力,不用考虑今天翻译了多少页了,还有多少页没翻译完。</p>
<p>我想凡是做完一件事情都应该有一个总结,这样才算是完整。其实关于翻译《<a href="http://www.cnblogs.com/danielWise/">Essential Windows Communication Foundation</a>》的总结早就该写了,但是我很困惑自己为什么一直没有任何想法?</p>
<p>&nbsp; 做这件事情的初衷是想完整地完成一件事情,期间我因为一些事情耽误了很长时间,幸运的是还能接着继续。</p>
<p>&nbsp; 这里要提到一件很有意思的事情,因为翻译的多了,有时候上网查资料能搜到自己的文章,还能搜到别人转载的自己的文章。我在翻译过程中的乐趣之一就是搜搜自己每篇文章被多少人转载了,但希望大家转载的同时也能尊重作者的劳动。</p>
<p>&nbsp; 在还剩下一章多点的时候我忍痛买了台笔记本,加上原来的台式机做了双屏显示器,翻译起来方便了很多,为了对得起买电脑的钱我每天早上六点起来翻译,一直到七点多,然后洗漱,上班。最疯狂的是周末花了一下午时间把附录整个翻译完了。回想起来真的很疯狂。</p>
<p>&nbsp; 另外也很感谢支持我的人,我能坚持下来也得益于你们的支持。</p>
<p>&nbsp; 最后,希望大家能多看看《<a href="http://www.cnblogs.com/danielWise/">Essential Windows Communication Foundation</a>》,提出你们的宝贵意见。</p></div><div id="MySignature">        <div id="AllanboltSignature">
           <p id="PSignature" style="border-top: #e0e0e0 1px dashed; border-right: #e0e0e0 1px dashed; border-bottom: #e0e0e0 1px dashed; border-left: #e0e0e0 0px dashed;padding-top: 9px;padding-right: 10px;padding-bottom: 10px;padding-left: 60px;background: url(http://files.cnblogs.com/danielWise/copyright.ico) #e5f1f4 no-repeat 1% 50%;font-family: 微软雅黑; font-size:12px;">
           <br />
             作者:<a href="http://www.cnblogs.com/danielWise/" target="_blank">DanielWise</a>
           <br />
             出处:<a href="http://www.cnblogs.com/danielWise/" target="_blank">http://www.cnblogs.com/danielWise/</a>
           <br />本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。
           </p>
       </div></div>
        <div id="blog_post_info_block">
<div id="BlogPostCategory"></div>
<div id="EntryTag"></div>
<div id="green_channel" style="display:none;">
绿色通道:<a href="javascript:void(0);" id="green_channel_digg" onclick="DiggIt(cb_entryId,cb_blogId,1);green_channel_success(this,'谢谢推荐!');">好文要顶</a><a id="green_channel_follow" onclick="c_follow();" href="javascript:void(0);">关注我</a><a id="green_channel_favorite" onclick="AddToWz(2086385);return false;" href="javascript:void(0);" >收藏该文</a><a id="green_channel_contact" href="http://space.cnblogs.com/msg/send/DanielWise" target="_blank">与我联系</a>
<a id="green_channel_weibo" href="javascript:void(0);" title="分享至新浪微博" onclick="ShareToTsina()"></a>
</div>
<div id="digg_block">
<div id="author_profile">
<div id="author_profile_info" class="author_profile_info">
<div id="author_profile_detail" class="author_profile_info">
</div>
</div>
<div class="clear"></div>
<div id="author_profile_honor"></div>
<div id="author_profile_follow"></div>
</div>
<div id="div_digg" style="display:none;">
<div class="diggit" onclick="DiggIt(cb_entryId,cb_blogId,1)"> 
<span class="diggnum" id="digg_count"></span>
</div>
<div class="buryit" onclick="DiggIt(cb_entryId,cb_blogId,2)"> 
<span class="burynum" id="bury_count"></span>
</div>
<div class="clear"></div>
<div class="diggword" id="digg_tips"></div>
</div>
</div>
<div class="clear"></div>
<div id="post_next_prev">
</div>
</div>
    </div>
    <span></span>
    <ul class="postmetadata">
        
        
        
    </ul>
</div></form> </body>
</html>

解决方案 »

  1.   

    因为你考过来的代码本身就是gbk的虽然代码里写的是utf-8,写的字符集和本身的不一致,浏览器匹配的时候是根据charset=‘utf-8’这个来匹配的
    所以你用编辑器把这些代码转成utf-8的就可以了
      

  2.   

      同意,我也遇到过此类问题,我一般都是把它拷到eclipse或myeclipse中,点击保存,如果编码不一致,工具会提示你编码错误.
      

  3.   

    我的做法是只拷贝HTML标签内的内容。其他的以IDE自动生成的为准。