1:你可以直接用PHP去抓得你要的页面的内容,
2:接着分析它的数据的组织结构,
3:接下来就是用正则去取.//参照手册;

123同上,只是把数据组织到javascript中,再对数据进行处理;

解决方案 »

  1.   

    用php打开这个文件,然后用正则去匹配相应的内容,或者使用php的一些自带函数也可以。
      

  2.   

    1/获取地址的文件的内容 file_get_contents();
    2/正则分析,提取你需要的
    3/存入数据库
      

  3.   

    这个是偷标题的.....参考一下...
    <?php
    $file=fopen("http://www.163.com","r");
    if(!$file)
    {
    echo "cannot connect the file.<br>";
    exit;
    }
    while(!feof($file))
    {
    $str=fgets($file,1024);
    if(eregi("<title>([^<]*)</title>",$str,$out)){
    $title=$out[1];
    break;
    }
    }
    fclose($file);
    echo $title;
    ?>
      

  4.   

    我不会正则,用一个笨一点的方法,但是不知道效率怎么样,先偷个“标题”
    假设读取网页数据到字符串$str$str_arr1=explode('<div id="ArticleTit">',$str);
    $str_arr2=explode('</div>',$str_arr1[1]);
    $out=$str_arr2[0];//这个就是标题