做过一段时间数据搜索,近期面试,面试官问我做的爬取数据的深度最多有多少,我的理解就是对当前页面的链接往下深入,好像不是他问的答案还问我怎么排重的,就是说重覆的内容不要,我一般都进页面找规律,用正则匹配,没弄过排重,说对内容进行比较,问我怎么比较,我就说做个循环,对取到的内容进行比较,也答的不对还有我一般用什么获取过滤需要的信息,我就是用的正则啊还有遍历文件夹,文件夹里面还有文件夹如何遍历如何提高获取需要信息的效率没答上来还问我每天获取的信息量是多少,这东西能定么,当初做的时候是按公司要求的,没定量还问数据量大如何解决
请教高手,我答的是不是过于浅了,应该怎么弄,这些我做的不是很多,问的我都不好意思了
请教高手,我答的是不是过于浅了,应该怎么弄,这些我做的不是很多,问的我都不好意思了
人家是专业做搜索的,可能确实比较有经验。所以用词专业术语较多。