今天做爬虫,要爬取一个网站的商家信息
但是网站的商家地址做了跳转 
例如 
http://shop.yijia.com/gosite/goshop_3576_1/
对应的是
http://shop.imeelee.com/http://shop.yijia.com/gosite/goshop_4388_1/
对应的是
http://www.tx29.com/这个怎么在php程序中根据上面能爬取道德 连接 得到真实的网址
自己分析了好久 好像不行 

在线等大牛

解决方案 »

  1.   

    不知道你用的什么方法,file_get_contents还是curl?  如果是curl,应该可以各种伪造header,然后能各种读返回的header信息,从中找到有价值的内容
      

  2.   

    我试验过几个curl fsoketopen 等 但是没有找到具体的方法 如果有知道的请上代码 能搜的我都搜了 所以才来发帖
      

  3.   


    http://shop.yijia.com/gosite/goshop_4388_1/
    对应的是
    http://www.tx29.com/哪个地址才是你要的?我用浏览器打开也是 http://www.tx29.com/ 你要的是 http://www.tx29.com/?
      

  4.   

    是的 我要的是浏览器上面的那个url 不是输入的那个url
      

  5.   

    要的就是 http://www.tx29.com/
      

  6.   

    function getContents($url){
        $header = array("Referer:http://www.tx29.com/");
        $ch = curl_init();
        curl_setopt($ch, CURLOPT_URL, $url);
        curl_setopt($ch, CURLOPT_TIMEOUT, 30);
        curl_setopt($ch, CURLOPT_HTTPHEADER,$header);
        curl_setopt($ch, CURLOPT_FOLLOWLOCATION,1);
        ob_start();
        curl_exec($ch);
        ob_end_clean();
        $x = curl_getinfo($ch);
        curl_close($ch);
        return $x;
    }$ghurl='http://shop.yijia.com/gosite/goshop_3576_1/';
    $contents = getContents($ghurl);
    print_R( $contents['url']);这个是获取正常的.但是你的另外一个地址不清楚怎么是跳转到 http://www.tx29.com/mobile/懒得跟数据了.自己看数据分析分析吧