riji日记我要采集一个网站的信息,这个网站分为三个城市,北京,上海,天津。
这三个城市的信息列表都是用的http://www.55tuan.com/group-buy 这一个路径,
请问我怎样才能分别采集到这三个城市的信息呢?

解决方案 »

  1.   

    file_get_contents获取页面信息,然后用正则去匹配
      

  2.   


    你们可能误解我的意思了,我知道分别采集,也知道用正则去匹配,现在问题是这三个城市的信息列表是同一个页面,也就是说点击北京,上海,深圳进入的列表页面都是http://www.55tuan.com/group-buy(没有可识别的参数),我现在无法判断这里面的信息是北京的还是上海的还是深圳的。
      

  3.   

    你没有看到他有这样一段js代码吗? var strCookie=document.cookie;
    var arrCookie=strCookie.split("; ");
    for(var i=0;i<arrCookie.length;i++){
    var arr=arrCookie[i].split("=");
    var city_name = document.getElementById('city_name');
    var cn = document.getElementById('cn');
    var city_id = document.getElementById('city_id');
    //alert(arr[0]);
    //找到名称为userId的cookie,并返回它的值
    if('ECSCP[city_id]'==arr[0]){
    //如果不是北京  不显示邮件列表
    switch(arr[1])
    {
    case '1':
    city_name.innerHTML = '北京';
    cn.innerHTML = '北京';
    city_id.value = 1;
    document.getElementById('beijing').className='current';
    break;
    case '2':
    city_name.innerHTML = '上海';
    cn.innerHTML = '上海';
    city_id.value = 2;
    document.getElementById('shanghai').className='current';
    break;
    case '3':
    city_name.innerHTML = '广州';
    cn.innerHTML = '广州';
    city_id.value = 3;
    document.getElementById('guangzhou').className='current';
    break;
    default:
    city_name.innerHTML = '北京';
    city_id.value = 4;
    }
    //alert(document.getElementById('city_id').value);
       break;
    }
    }所以你只要分析一下抓取到的cookie,就知道是那个城市了