如果是.net,使用Webrequest吧。可以控制编码的http://dotnet.aspx.cc/article/0a6660ce-4138-41ef-b882-15db65564709/read.aspx

解决方案 »

  1.   

    public string SnatchHtml(string url,string charset)
        {
            System.Net.WebClient MyWebClinent = new WebClient();
            MyWebClinent.Credentials = CredentialCache.DefaultCredentials;
            string pageHtml;
            byte[] pageData = MyWebClinent.DownloadData(url);        if (charset.ToLower() == "gb2312")
            {
                pageHtml = Encoding.Default.GetString(pageData);  //如果获取网站页面采用的是GB2312,则使用这句
            }
            else if (charset.ToLower() == "utf-8")
            {
                pageHtml = Encoding.UTF8.GetString(pageData); //如果获取网站页面采用的是UTF-8,则使用这句
            }
            else
            {
                pageHtml = Encoding.Unicode.GetString(pageData); //如果获取网站页面采用的是Unicode,则使用这句
            }
            return pageHtml;
        }