是用file_get_contents和正则表达式配合来读取链接内容,然后这样反复取吗?如何避免重复读取一个URL?有没有更好的办法呢?
第一次发帖,请多多关照!

解决方案 »

  1.   

    把读过的url记到一个数组里就行了
      

  2.   

    那如何确定一个链接是链向站内还是站外的呢?通过URL的domain部分吗?有没有其他的方法?
      

  3.   

    把取到的url剔除域名部分,md5后作为唯一id入数据库,域名部分可用于判断站内还是站外。
      

  4.   

    描述一下站内要遍历的网页是什么结构 如, index.php, main.php, post.php 还是 index.php?id=1,  index.php?id=2&sid=3