信息采集,也叫抓取程序,也叫小偷程序给个例子

解决方案 »

  1.   

    #1.去复习http吧,客户端和服务端tcp 3次握手后,如何按照http协议请求服务器获取想要的资源,人和人之间可以自由谈话,但是机器和机器之间如何交流?必须有一套格式化的程序。
    #2.去学习正则或者xml dom吧,抓下来还得会取才行
      

  2.   


    // 初始化一个 cURL 对象
    $curl = curl_init();
    // 设置你需要抓取的URL
    curl_setopt($curl, CURLOPT_URL, 'http://news.163.com/11/0608/08/760TU2NJ00014AED.html');
    // 设置header
    curl_setopt($curl, CURLOPT_HEADER, 1);
    // 设置cURL 参数,要求结果保存到字符串中还是输出到屏幕上。
    curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);
    // 运行cURL,请求网页
    $data = curl_exec($curl);
    echo $data;
    // 关闭URL请求
    curl_close($curl);
    // 显示获得的数据
    eregi("<ul class=\"day_tabs\">(.*)</ul>",$data,$arr);
    echo $arr;可以吧!?
      

  3.   

    就是把指定网页上的一些信息给提取出来。比如,你需要偷 baidu.com 上的所有连接步骤:
    1.获取该地址上的源码,这个方法很多,file_get_contents/fopen/curl 等等
    2.根据一定的规很去获取需要的信息,就是在一个字符串中获取一段出来了,方法也有很多,str_split,explode,最常用的是正则