我是用SDK的Wininet 函数来做的.
以下是部份源代码,可以得到所有的 .html 页面。
但当抓取.php程序所形成的页面时,发现在执行到
bQuery=HttpQueryInfo(hHttpFile,HTTP_QUERY_CONTENT_LENGTH,achQueryBuf,&dwQueryBufLen,NULL);
这一句时 返回的bQuery是假了.
而最后得到的网面内容了只是最前面一部份。 在线等待!
/**********************/
//第一步:初始化internet DLL,这是第一个被调用的函数
HINTERNET hSession=InternetOpen("http",PRE_CONFIG_INTERNET_ACCESS,"",INTERNET_INVALID_PORT_NUMBER,0);
//判断会话句柄是否有效
   if(hSession==NULL)
   {
    MessageBox(hDlg,"InternetOpen","IDC_BUTTON1!",0);
    return false;
   }
//第二步:初始化HTTP session,开始与HTTP服务器的连接
   HINTERNET hConnect=InternetConnect(hSession,m_strServer,INTERNET_INVALID_PORT_NUMBER,"","",INTERNET_SERVICE_HTTP,0,0);
//判断连接句柄是否有效
   if(hConnect==NULL)
   {
    MessageBox(hDlg,"InternetConnect","hConnect!",0);
    //关闭会话句柄
    InternetCloseHandle(hSession);
    return false;
   }
//第三步:打开一个HTTP 请求,并返回一个请求的句柄
   HINTERNET hHttpFile=HttpOpenRequest(hConnect,"GET",m_strPath,HTTP_VERSION,NULL,0,INTERNET_FLAG_DONT_CACHE,0);
//判断请求句柄是否有效
   if(hHttpFile==NULL)
   {
    MessageBox(hDlg,"HttpOpenRequest","hHttpFile!",0);
    //关闭会话句柄
    InternetCloseHandle(hConnect);
    InternetCloseHandle(hSession);
    return false;
   }
//第四步:发出请求
   BOOL bSendRequest=HttpSendRequest(hHttpFile,NULL,0,0,0);
   if(bSendRequest)
   {
    char achQueryBuf[16];
    DWORD dwFileSize;
    DWORD dwQueryBufLen=sizeof(achQueryBuf);
    BOOL bQuery=HttpQueryInfo(hHttpFile,HTTP_QUERY_CONTENT_LENGTH,achQueryBuf,&dwQueryBufLen,NULL);
    if(bQuery)
    {
     //查找成功,指出需要存放文件的内存大小
     dwFileSize=(DWORD)atol(achQueryBuf);
    }
    else
    {
     dwFileSize=10*1024;
    }
    char *lpszBuf=new char[dwFileSize+1];
    //读文件
    DWORD dwBytesRead;
    BOOL bRead=InternetReadFile(hHttpFile,lpszBuf,dwFileSize+1,&dwBytesRead);
    //显示HTML的源码
    SetWindowText(GetDlgItem(hDlg,IDC_EDIT2),lpszBuf);
    delete lpszBuf;
    //关闭会话句柄
    InternetCloseHandle(hHttpFile);
    InternetCloseHandle(hConnect);
    InternetCloseHandle(hSession);
   }
   else
   {
    MessageBox(hDlg,"联接失败!","hConnect!",0);
    InternetCloseHandle(hConnect);
    InternetCloseHandle(hSession);
   }

解决方案 »

  1.   

    试试我这段代码吧,基于MFC的:
    Bool GetFromWeb(LPSTR pURL, LPSTR SaveAsFilePath ) { CInternetSession session; //会话期对象)CHttpConnection* pServer = NULL; // 指向服务器地址(URL)CHttpFile * pHttpFile = NULL; // HTTP文件指针CString strServerName; //服务器名CString strObject; //查询对象名(http文件)INTERNET_PORT nPort; //端口DWORD dwServiceType; //服务类型DWORD dwHttpRequestFlags = //请求标志INTERNET_FLAG_EXISTING_CONNECT INTERNET_FLAG_NO_AUTO_REDIRECT;const TCHAR szHeaders[] = _T("Accept: text/*\r\nUser-Agent: HttpClient\r\n");BOOL OK=AfxParseURL( //词法分析pszURL, //被分析URL串dwServiceType, //服务类型,ftp,http等strServerName, //服务器名strObject, //URL中被查询对象nPort ); //URL指定的端口,可能为空OK=OK && //本例只考虑http协议(dwServiceType ==INTERNET_SERVICE_HTTP);if (!OK) { AfxMessageBox("URL出错"); //报错return false; }pServer = session.GetHttpConnection(strServerName, nPort); /获得服务器名pHttpFile = pServer-> OpenRequest( CHttpConnection::HTTP_VERB_GET,strObject, NULL, 1, NULL, NULL,dwHttpRequestFlags);//向服务器发送请求,建立http连接,//建立本机上的http文件指针pHttpFile->AddRequestHeaders(szHeaders);pHttpFile->SendRequest(); //发送请求CStdioFile f; //输出文件对象if( !f.Open( //打开输出文件SaveAsFilePath, CFile::modeCreate | CFile::modeWrite | CFile::typeText ) ) { MessageBox( "Unable to open file"; return false;}//下面将检索结果保存到文件上TCHAR szBuf[1024]; //缓存while (pHttpFile->ReadString(szBuf, 1023))f.WriteString( szBuf );f.Close(); //善后工作pHttpFile ->Close();pServer ->Close();if (pHttpFile != NULL) delete pHttpFile;if (pServer != NULL) delete pServer;session.Close();return true;}