请教下,我根据一个网站的首页地址 比如是  http://www.abc.com
然后根据这个地址,获取到这个页面的源代码,然后请问如何根据这个源代码,获取下面一层页面的链接地址呢?然后再根据获到的下层页面源码,找到再下一层的页面链接地址,并把这些地址分层打印出来呢?分层的原理是?能否给点代码示例,谢谢

解决方案 »

  1.   

    http://blog.csdn.net/bookmoth/archive/2009/02/21/3916538.aspx
    里面记述了一个PHP实现的爬虫原型~~
      

  2.   

    使用file_get_contents或curl获取网页源码
    使用正则表达式“/<a([^\>]*)(\href\=\"?\w+\"?)|<a([^\>]*)/i”找到所有的链接重复上述过程即可
      

  3.   

    用 curl 先把第一个网页的源代码读出来,之后你用正则取里面的连接,之后再进行读连接,直到没有连接为止,呵呵,这也是一种解决办法,不过可能有点儿慢。