采集中关村数码相机频道
1. 我要做什么?
2. 怎么样去做?
3. 表结构虚拟设计?
4. 代码的虚拟设计?1. 我要用代码实现对中关村数码相机的采集,将获取的数据插入到数据库。
2. 我的业务需求就是要抓取中关村的数码相机频道的数据,根据业务的逻辑,必须先知道展示品牌的地址,再进入到品牌所指向的地址,获取数码相机。对于数码相机品牌的需 求是通过程序获取品牌的名称,品牌的图片,所指向的超链接插入到数据库,程序执行当 中有两种状态,非正常就是产生了错误如
断电
目标网址对IP访问量的限制
正则出现问题
如果发生了错误,我得把这个错误记录下来,刚才说了以上几种类型的错误,如果发生的错误是正则出现问题,那么即使重新启动程序那么也不能运行,(直到我修改了表达式),如果发生的错误是断电,那么启动程序后可以追踪到某个品牌(品牌还没有涉及到分页的情况)的第几条记录。比如说本来一共有5条数据
1
2
3
4
5
当我执行到第3条数据的时候,断电了。。那么我数据库里面保存的数据是2,那么当我在执行程序的时候,那么取的结果是3,4,5正常情况下:获取数据判断数据是否存在,如果存在,那么continue;,另外如果是我手动停止了抓取任务,那么再恢复的话,与我所说的上个例子(红色文字的例子)是一样的。
对了,品牌不涉及到更新的问题!对于品牌的图片,新闻,相关问题都有另外的一套组件获取对于相机我的业务需求是:相机的基本属性如名称,图片,报价……
取出品牌表的PKID和所指向的连接地址,PKID用于逻辑关联,进入到指定了连接地址就是该品牌的相机列表,这其中涉及到一个分页的问题,实际上该品牌指向的连接就是第一页相机数据的列表,这其中的过程无非就是判断是否存在分页,如果分页,那么避免第一页再次被请求,遍历每一页上的相机列表,得到每一个相机小图,通过它的URL规则,我可以提炼出详细参数地址,报价地址,帖子地址,此相机获取的非正常情况与品牌出现的大致相同,只不过其的追逐级别在于某个品牌的某一页上(这个时候使用了红色文字的例子),正常情况与品牌的有一点不同,品牌是存在那么Continue,那么相机是如果不存在,那么insert,如果存在,那么Update!相机的价格阿,帖子阿,都有存在更新的可能性,对于相机的图片,新闻,相关问题都有另外的一套组件获取。
请问分析思路合理吗??
3和4没有写,
1. 我要做什么?
2. 怎么样去做?
3. 表结构虚拟设计?
4. 代码的虚拟设计?1. 我要用代码实现对中关村数码相机的采集,将获取的数据插入到数据库。
2. 我的业务需求就是要抓取中关村的数码相机频道的数据,根据业务的逻辑,必须先知道展示品牌的地址,再进入到品牌所指向的地址,获取数码相机。对于数码相机品牌的需 求是通过程序获取品牌的名称,品牌的图片,所指向的超链接插入到数据库,程序执行当 中有两种状态,非正常就是产生了错误如
断电
目标网址对IP访问量的限制
正则出现问题
如果发生了错误,我得把这个错误记录下来,刚才说了以上几种类型的错误,如果发生的错误是正则出现问题,那么即使重新启动程序那么也不能运行,(直到我修改了表达式),如果发生的错误是断电,那么启动程序后可以追踪到某个品牌(品牌还没有涉及到分页的情况)的第几条记录。比如说本来一共有5条数据
1
2
3
4
5
当我执行到第3条数据的时候,断电了。。那么我数据库里面保存的数据是2,那么当我在执行程序的时候,那么取的结果是3,4,5正常情况下:获取数据判断数据是否存在,如果存在,那么continue;,另外如果是我手动停止了抓取任务,那么再恢复的话,与我所说的上个例子(红色文字的例子)是一样的。
对了,品牌不涉及到更新的问题!对于品牌的图片,新闻,相关问题都有另外的一套组件获取对于相机我的业务需求是:相机的基本属性如名称,图片,报价……
取出品牌表的PKID和所指向的连接地址,PKID用于逻辑关联,进入到指定了连接地址就是该品牌的相机列表,这其中涉及到一个分页的问题,实际上该品牌指向的连接就是第一页相机数据的列表,这其中的过程无非就是判断是否存在分页,如果分页,那么避免第一页再次被请求,遍历每一页上的相机列表,得到每一个相机小图,通过它的URL规则,我可以提炼出详细参数地址,报价地址,帖子地址,此相机获取的非正常情况与品牌出现的大致相同,只不过其的追逐级别在于某个品牌的某一页上(这个时候使用了红色文字的例子),正常情况与品牌的有一点不同,品牌是存在那么Continue,那么相机是如果不存在,那么insert,如果存在,那么Update!相机的价格阿,帖子阿,都有存在更新的可能性,对于相机的图片,新闻,相关问题都有另外的一套组件获取。
请问分析思路合理吗??
3和4没有写,
采集中关村数码相机频道
1. 我要做什么?
2. 怎么样去做?
3. 表结构虚拟设计?
4. 代码的虚拟设计?1. 我要用代码实现对中关村数码相机的采集,将获取的数据插入到数据库。
2. 我的业务需求就是要抓取中关村的数码相机频道的数据,根据业务的逻辑,必须先知道展示品牌的地址,再进入到品牌所指向的地址,获取数码相机。对于数码相机品牌的需 求是通过程序获取品牌的名称,品牌的图片,所指向的超链接插入到数据库,程序执行当 中有两种状态,非正常就是产生了错误如
断电
目标网址对IP访问量的限制
正则出现问题
如果发生了错误,我得把这个错误记录下来,刚才说了以上几种类型的错误,如果发生的错误是正则出现问题,那么即使重新启动程序那么也不能运行,(直到我修改了表达式),如果发生的错误是断电,那么启动程序后可以追踪到某个品牌(品牌还没有涉及到分页的情况)的第几条记录。比如说本来一共有5条数据
1
2
3
4
5
当我执行到第3条数据的时候,断电了。。那么我数据库里面保存的数据是2,那么当我在执行程序的时候,那么取的结果是3,4,5正常情况下:获取数据判断数据是否存在,如果存在,那么continue;,另外如果是我手动停止了抓取任务,那么再恢复的话,与我所说的上个例子(红色文字的例子)是一样的。
对了,品牌不涉及到更新的问题!对于品牌的图片,新闻,相关问题都有另外的一套组件获取对于相机我的业务需求是:相机的基本属性如名称,图片,报价……
取出品牌表的PKID和所指向的连接地址,PKID用于逻辑关联,进入到指定了连接地址就是该品牌的相机列表,这其中涉及到一个分页的问题,实际上该品牌指向的连接就是第一页相机数据的列表,这其中的过程无非就是判断是否存在分页,如果分页,那么避免第一页再次被请求,遍历每一页上的相机列表,得到每一个相机小图,通过它的URL规则,我可以提炼出详细参数地址,报价地址,帖子地址,此相机获取的非正常情况与品牌出现的大致相同,只不过其的追逐级别在于某个品牌的某一页上(这个时候使用了红色文字的例子),正常情况与品牌的有一点不同,品牌是存在那么Continue,那么相机是如果不存在,那么insert,如果存在,那么Update!相机的价格阿,帖子阿,都有存在更新的可能性,对于相机的图片,新闻,相关问题都有另外的一套组件获取。