小弟想做个抓取网页的小软件:
主要是想获取某table里的标题和连接,曾在网上找到过代码,抓取Utf-8的页面中文显示正常,gb2312的页面中文信息出现乱码,非常苦恼,求大侠指教

解决方案 »

  1.   

    StreamReader("",Encoding.GetEncoding("GB2312"))可以设置编码的
      

  2.   

    把抓取得到乱码在用utf-8 解码一下 ..
      

  3.   

    出现的汉字乱码都是这样的ÇëÊäÈë\"¹Ø¼ü×Ö\"
    而且我已经解码了
     public static String GetHtml(string url)
            {
                try
                {
                    HttpWebRequest req = HttpWebRequest.Create(url) as HttpWebRequest;
                    req.Timeout = 30 * 1000;
                    HttpWebResponse response = req.GetResponse() as HttpWebResponse;
                    Stream stream = response.GetResponseStream();                MemoryStream buffer = new MemoryStream();
                    Byte[] temp = new Byte[4096];
                    int count = 0;
                    while ((count = stream.Read(temp, 0, 4096)) > 0)
                    {
                        buffer.Write(temp, 0, count);
                    }                return Encoding.GetEncoding(response.CharacterSet).GetString(buffer.GetBuffer());
                }
                catch
                {
                    return String.Empty;
                }
            }
      

  4.   

     bt = System.Text.UTF8Encoding.UTF8.GetBytes(a_tags[0].InnerHTML);
    我再解了一次结果   ÇëÊäÈë\"¹Ø¼ü×Ö\变成   脦脗脰脻脌脷脜碌脨卢虏脛脫脨脧脼鹿芦脣戮