采集中关村数码相机频道
1. 我要做什么?
2. 怎么样去做?
3. 表结构虚拟设计?
4. 代码的虚拟设计?1. 我要用代码实现对中关村数码相机的采集,将获取的数据插入到数据库。
2. 我的业务需求就是要抓取中关村的数码相机频道的数据,根据业务的逻辑,必须先知道展示品牌的地址,再进入到品牌所指向的地址,获取数码相机。对于数码相机品牌的需  求是通过程序获取品牌的名称,品牌的图片,所指向的超链接插入到数据库,程序执行当     中有两种状态,非正常就是产生了错误如
断电
目标网址对IP访问量的限制
正则出现问题
如果发生了错误,我得把这个错误记录下来,刚才说了以上几种类型的错误,如果发生的错误是正则出现问题,那么即使重新启动程序那么也不能运行,(直到我修改了表达式),如果发生的错误是断电,那么启动程序后可以追踪到某个品牌(品牌还没有涉及到分页的情况)的第几条记录。比如说本来一共有5条数据
1
2
3
4
5
当我执行到第3条数据的时候,断电了。。那么我数据库里面保存的数据是2,那么当我在执行程序的时候,那么取的结果是3,4,5正常情况下:获取数据判断数据是否存在,如果存在,那么continue;,另外如果是我手动停止了抓取任务,那么再恢复的话,与我所说的上个例子(红色文字的例子)是一样的。
对了,品牌不涉及到更新的问题!对于品牌的图片,新闻,相关问题都有另外的一套组件获取对于相机我的业务需求是:相机的基本属性如名称,图片,报价……
取出品牌表的PKID和所指向的连接地址,PKID用于逻辑关联,进入到指定了连接地址就是该品牌的相机列表,这其中涉及到一个分页的问题,实际上该品牌指向的连接就是第一页相机数据的列表,这其中的过程无非就是判断是否存在分页,如果分页,那么避免第一页再次被请求,遍历每一页上的相机列表,得到每一个相机小图,通过它的URL规则,我可以提炼出详细参数地址,报价地址,帖子地址,此相机获取的非正常情况与品牌出现的大致相同,只不过其的追逐级别在于某个品牌的某一页上(这个时候使用了红色文字的例子),正常情况与品牌的有一点不同,品牌是存在那么Continue,那么相机是如果不存在,那么insert,如果存在,那么Update!相机的价格阿,帖子阿,都有存在更新的可能性,对于相机的图片,新闻,相关问题都有另外的一套组件获取。
请问分析思路合理吗??
3和4没有写,

解决方案 »

  1.   


    采集中关村数码相机频道
    1. 我要做什么?
    2. 怎么样去做?
    3. 表结构虚拟设计?
    4. 代码的虚拟设计?1. 我要用代码实现对中关村数码相机的采集,将获取的数据插入到数据库。
    2. 我的业务需求就是要抓取中关村的数码相机频道的数据,根据业务的逻辑,必须先知道展示品牌的地址,再进入到品牌所指向的地址,获取数码相机。对于数码相机品牌的需  求是通过程序获取品牌的名称,品牌的图片,所指向的超链接插入到数据库,程序执行当     中有两种状态,非正常就是产生了错误如
    断电
    目标网址对IP访问量的限制
    正则出现问题
    如果发生了错误,我得把这个错误记录下来,刚才说了以上几种类型的错误,如果发生的错误是正则出现问题,那么即使重新启动程序那么也不能运行,(直到我修改了表达式),如果发生的错误是断电,那么启动程序后可以追踪到某个品牌(品牌还没有涉及到分页的情况)的第几条记录。比如说本来一共有5条数据
    1
    2
    3
    4
    5
    当我执行到第3条数据的时候,断电了。。那么我数据库里面保存的数据是2,那么当我在执行程序的时候,那么取的结果是3,4,5
    正常情况下:获取数据判断数据是否存在,如果存在,那么continue;,另外如果是我手动停止了抓取任务,那么再恢复的话,与我所说的上个例子(红色文字的例子)是一样的。
    对了,品牌不涉及到更新的问题!对于品牌的图片,新闻,相关问题都有另外的一套组件获取对于相机我的业务需求是:相机的基本属性如名称,图片,报价……
    取出品牌表的PKID和所指向的连接地址,PKID用于逻辑关联,进入到指定了连接地址就是该品牌的相机列表,这其中涉及到一个分页的问题,实际上该品牌指向的连接就是第一页相机数据的列表,这其中的过程无非就是判断是否存在分页,如果分页,那么避免第一页再次被请求,遍历每一页上的相机列表,得到每一个相机小图,通过它的URL规则,我可以提炼出详细参数地址,报价地址,帖子地址,此相机获取的非正常情况与品牌出现的大致相同,只不过其的追逐级别在于某个品牌的某一页上(这个时候使用了红色文字的例子),正常情况与品牌的有一点不同,品牌是存在那么Continue,那么相机是如果不存在,那么insert,如果存在,那么Update!相机的价格阿,帖子阿,都有存在更新的可能性,对于相机的图片,新闻,相关问题都有另外的一套组件获取。
      

  2.   

    这个需要对相关网页的结构有一个分析,比如HTML中产品名称前后有些什么特征,产品介绍有什么特征,报价有什么特征,如果分页,分页的链接有什么特征。对于每条记录我们设置一个标志,标志分为:正常、未执行、分析出错、IP地址限制等等。
      

  3.   

    至于表结构你可以根据人家HTML代码分页,哪些有特征并且是你需要的就添加相应字段。
      

  4.   

    你用桌面程序还是web程序呢?桌面程序相对好搞些不过需拥有自己 的服务器,不然你要老上传。。