做过一段时间数据搜索,近期面试,面试官问我做的爬取数据的深度最多有多少,我的理解就是对当前页面的链接往下深入,好像不是他问的答案还问我怎么排重的,就是说重覆的内容不要,我一般都进页面找规律,用正则匹配,没弄过排重,说对内容进行比较,问我怎么比较,我就说做个循环,对取到的内容进行比较,也答的不对还有我一般用什么获取过滤需要的信息,我就是用的正则啊还有遍历文件夹,文件夹里面还有文件夹如何遍历如何提高获取需要信息的效率没答上来还问我每天获取的信息量是多少,这东西能定么,当初做的时候是按公司要求的,没定量还问数据量大如何解决
请教高手,我答的是不是过于浅了,应该怎么弄,这些我做的不是很多,问的我都不好意思了
请教高手,我答的是不是过于浅了,应该怎么弄,这些我做的不是很多,问的我都不好意思了
解决方案 »
- 打印全局变量怎么让有html代码的变量显示字符串而不是html解析显示?
- 一个php的万年历中的数组不太理解。。
- 请问,如何获取服务器的系统信息,如CPU,内存利用率,ip地址,服务器持续运行时间等?
- url rewrite,可以禁止输入实际url访问的访问吗?
- 使用PHP如何从MSSQL中读取到数据库的信息?
- 用Socket发送电子邮件,遇到“421 closing transmission channel”。怎么解决?
- 求一mysql存储过程
- 如何更大mysql的并发数
- 请大家介绍几个php的开发工具
- 动态网站属于下面哪一种软件开发形式?
- wamp运行的php文件为什么装在www文件夹内?
- 如何查询mysql的执行记录?
人家是专业做搜索的,可能确实比较有经验。所以用词专业术语较多。