请教下,我根据一个网站的首页地址 比如是 http://www.abc.com
然后根据这个地址,获取到这个页面的源代码,然后请问如何根据这个源代码,获取下面一层页面的链接地址呢?然后再根据获到的下层页面源码,找到再下一层的页面链接地址,并把这些地址分层打印出来呢?分层的原理是?能否给点代码示例,谢谢
然后根据这个地址,获取到这个页面的源代码,然后请问如何根据这个源代码,获取下面一层页面的链接地址呢?然后再根据获到的下层页面源码,找到再下一层的页面链接地址,并把这些地址分层打印出来呢?分层的原理是?能否给点代码示例,谢谢
里面记述了一个PHP实现的爬虫原型~~
使用正则表达式“/<a([^\>]*)(\href\=\"?\w+\"?)|<a([^\>]*)/i”找到所有的链接重复上述过程即可