最近在写一个网页分析程序,在读取网页内容时总是出现乱码,我的编译器环境是Unicode的,我按照网上的说明调用 charToUnicode 部分转换过来了,但是我发现网页本来很长的,结果读取出来只有很短,丢失很多信息
CInternetSession session(NULL, 0);
CStdioFile* pHttpFile = (CStdioFile*)session.OpenURL(strURL, 1, INTERNET_FLAG_TRANSFER_BINARY);
CString strHtmlSource ,strTemp;
while(pHttpFile->ReadString(strTemp))
{
::function(strBuf);
strHtmlSource += strBuf;
}
CInternetSession session(NULL, 0);
CStdioFile* pHttpFile = (CStdioFile*)session.OpenURL(strURL, 1, INTERNET_FLAG_TRANSFER_BINARY);
CString strHtmlSource ,strTemp;
while(pHttpFile->ReadString(strTemp))
{
::function(strBuf);
strHtmlSource += strBuf;
}
比如将任何杂毛的字节全部处理为空格,然后再进行后续处理
实际上,utf-8是最不麻烦的了,因为它看起来与ansi无异,其它的异种语言的解析才是问题
你就网上找下utf8转unicode的,有很多例子的