把parent.htm读到本地,当成字符串
匹配<a href...> * </a>

解决方案 »

  1.   

    <script>
    <a href href="son"+i+".html"> * </a>
    </script>
      

  2.   

    <?
    $url = "http://localhost/parent.htm";
    $page = fopen($url, "r");print("Links at $url<br>\n");
    print("<ul>\n");while(!feof($page)){
    $line = fgets($page, 1024);
    while(ereg("href=\"[^\"]*\"", $line, $match)){
    print("<li>");
    print($match[0]);
    print("<br>\n");
    $replace = ereg_replace("\?", "\?", $line);
    }
    }
    print("</ul>\n");
    fclose($page);
    ?>这个可以找出所有你想要的parent.htm里的链接。
    后面那个什么keyword不明白楼主什么意思
      

  3.   

    来个实例吧,我想把http://shop33876956.taobao.com/上的所有宝贝的名称和价格罗列出来,那“http://shop33876956.taobao.com/”就是我所说的parent.htm;在这个页面上有指向每个宝贝的链接,比如“http://auction1.taobao.com/auction/1801/item_detail-0db2-c6fe8e07ca9cab8ce6602fb2e83469f1.jhtml”,这个就是我所说的sonN.htm。
    而我指的关键字“珀莱·祛痘霜”和“一 口 价:25.60元 ”就在这个页面上。
    我想通过程序,把这个页面“http://auction1.taobao.com/auction/1801/item_detail-0db2-c6fe8e07ca9cab8ce6602fb2e83469f1.jhtml”上的宝贝名称“珀莱·祛痘霜”和一口价“25.60元”取出来存放在数据库(sql,文本等)中。怎么实现阿?
      

  4.   

    用正则。
    先得到页面的串,然后把非/<a(.*)\/a>/的都删除掉,然后在拆分吧......
      

  5.   

    用file_get_contents($filename)读取页面,然后用正则或者html dom来解析keyword,思路已经给你了,剩下的就是查查函数,写逻辑语句的问题了。
      

  6.   

    to angel0829(复活):
    只能显示一个链接,接下去就死循环了
      

  7.   

    补充,和php无关
    因为小偷把东西偷到后,放数据库里了,你用就去取
      

  8.   

    得到任务列表循环体开始
       下载任务1
       html分析,抓取内容,具体问题具体分析,容易的是固定格式的,比如sina的新闻
       保存回数据库
       完成任务1
    循环体结束
      

  9.   

    很容易的啦``用sqlite 把抓到的数据全部插入到数据库 跟着再写一个读取的 非常简单 ··```