http://www.google.co.jp/search?hl=ja&newwindow=1&q=%e3%82%b7%e3%83%a7%e3%83%83%e3%83%94%e3%83%b3%e3%82%b0%e6%9e%a0+%e7%8f%be%e9%87%91%e5%8c%96  这个是日本google搜索的结果,我现在要把这个网页采集下来,然后另存为一个html文件,但是获取不到该页面的编码,用了默认的utf-8出现乱码,请问如何才能采集到正常的页面。

解决方案 »

  1.   

    if(b[0]==0xFF && b[1]==0xFE)
                            {
                                    return System.Text.Encoding.Unicode.GetString(b,0,b.Length);
                            }
                                    //UNICODE BIG ENDIAN
                            else if(b[0]==0xFE && b[1]==0xFF)
                            {
                                    return System.Text.Encoding.BigEndianUnicode.GetString(b,0,b.Length);
                            }
                                    //UTF8
                            else if(b[0]==0xEF && b[1]==0xBB)
                            {
                                    return System.Text.Encoding.UTF8.GetString(b,0,b.Length);
                            }
                                    //DEFAULT ANSII
                            else
                            {
                                    return System.Text.Encoding.Default.GetString(b,0,b.Length);
                            }
      

  2.   

    用一下gb2312或utf-8吧,,,一般就这两个
      

  3.   

    你们几个真幽默。日本也用中国的编码吗?用浏览器打开看网页是显示utf-8的。Google是用gzip压缩网页,可能你采集到的是gzip压缩包,当作utf-8打开了。你怎么写的采集代码?