有些抓取页面是需要登录的session或cookie的

解决方案 »

  1.   


    $content = file_get_contents("http://homelink.com.cn/");
    echo $content;
    $url = "http://www.baidu.com/";
    $ch = curl_init();  
    $timeout = 5;  
    curl_setopt($ch, CURLOPT_URL, $url);  
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);  
    curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout);  
    //curl_setopt($ch, CURLOPT_HTTPAUTH, CURLAUTH_ANY);  
    //curl_setopt($ch, CURLOPT_USERPWD, "".":"."");  
    $contents = curl_exec($ch);  
    curl_close($ch);  
    echo $contents;  两种方法都不行呀,他这个是保护起来不让访问了吗,返回503
      

  2.   


    $content = file_get_contents("http://homelink.com.cn/");
    echo $content;
    $url = "http://www.baidu.com/";
    $ch = curl_init();  
    $timeout = 5;  
    curl_setopt($ch, CURLOPT_URL, $url);  
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);  
    curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout);  
    //curl_setopt($ch, CURLOPT_HTTPAUTH, CURLAUTH_ANY);  
    //curl_setopt($ch, CURLOPT_USERPWD, "".":"."");  
    $contents = curl_exec($ch);  
    curl_close($ch);  
    echo $contents;  两种方法都不行呀,他这个是保护起来不让访问了吗,返回503
    是可以请求的,而且两种方法都可以的。503是服务器超载。
      

  3.   


    两种方法都不行呀,他这个是保护起来不让访问了吗,返回503
    是可以请求的,而且两种方法都可以的。503是服务器超载。我什么时候抓都抓不到他,这个503应该是可以设置的,我觉得是故意不让抓,他这个页面访问很正常不清楚这种抓取和正常访问的有什么不同,我觉得他是能区分,然后不让访问的如果你的程序无法抓取,可以在curl时加上相应的http头,用firebug可以清楚的看到请求的头信息。