各位大虾好,我现在正在做一个 采集器,,,
我想求一个 递归算法 获取 子级网址中的所有链接,,,
比如A页面是0级页面,B是A页面中的所有链接,C是B页面中对应链接网址页面中的所有链接,,,依次类推...
我如何获取到 最后一级网页中的所有链接.....
我百思不得其解,不知道 递归终止条件应该指定为什么,,,求各位大虾指教
我想求一个 递归算法 获取 子级网址中的所有链接,,,
比如A页面是0级页面,B是A页面中的所有链接,C是B页面中对应链接网址页面中的所有链接,,,依次类推...
我如何获取到 最后一级网页中的所有链接.....
我百思不得其解,不知道 递归终止条件应该指定为什么,,,求各位大虾指教
对一个连接,能获取文件内容的为有效,否则丢弃该连接3、连接的重复
有些连接会多次出现,要检测是否已经收录,已收录的要丢弃4、好的正则表达式
对已知的网站,可指定有针对性的“正则表达式”,已高效获取5、递归的结束
搜索的连接进入队列,出队的进入递归,队中无数据,递归结束。