请教下多层页面的获取 - 调试易

请教下多层页面的获取

请教下，我根据一个网站的首页地址比如是 http://www.abc.com
然后根据这个地址，获取到这个页面的源代码，然后请问如何根据这个源代码，获取下面一层页面的链接地址呢？然后再根据获到的下层页面源码，找到再下一层的页面链接地址，并把这些地址分层打印出来呢？分层的原理是？能否给点代码示例，谢谢

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

http://blog.csdn.net/bookmoth/archive/2009/02/21/3916538.aspx
里面记述了一个PHP实现的爬虫原型~~
使用file_get_contents或curl获取网页源码
使用正则表达式“/<a([^\>]*)(\href\=\"?\w+\"?)|<a([^\>]*)/i”找到所有的链接重复上述过程即可
用 curl 先把第一个网页的源代码读出来，之后你用正则取里面的连接，之后再进行读连接，直到没有连接为止，呵呵，这也是一种解决办法，不过可能有点儿慢。