有个老版本的采集数据软件,采集数据并存储数据到access数据库,采集程序为vb开发,现在我要将其移植到c#(发到java板块是因为我以前做java,觉得java区域高人多啊),并且数据库改为oracle。原access数据存储是每个站点(站点就是采集数据的来源,每个站点位于不同的地区)都会创建一个表,并且表里的字段正好对应该站点锁需要保存的信息(也就是说每个表的字段都可能不一致)。现在我的问题是:我到底是应该给每个站点都动态创建表、创建字段来存储数据,还是创建1个站点表保存所有站点信息,另外创建一个数据表(包含了全部采集字段,每个站点不关心的字段都保持默认值)保存所有站点的数据,用外键区分数据所属站点。请大神指导,按以前的做法每个站点创建1个表和统一的数据表来存储所有数据,哪个好?优劣各是什么,这个采集数据大致是每个站点每3分钟存一次数据库。如果采用1张表来存储,那么oracle能否抗住每个站点每3分钟存一次数据的性能要求?

解决方案 »

  1.   

    原先可以用access放,说明数据量不大
    所以,无论单表还是多表都没什么问题
    但是考虑扩展性,还是多表比较好
    比方将来又多个站点,又一些特殊字段,单表的话,你怎么办,去改表结构么?
    而且既然移植到oracle就是有可能会有数据量的增加,那更是多表性能更佳
      

  2.   


    突然想到一个问题,如果说我用了“分开”,我另外的程序在统计的时候,那就只能是动态sql,这效率会不会低了点?
      

  3.   

    当然是分开做表咯。
    数据采集的根本目的,不是为了存储数据,而是为了处理数据。
    你把所有站点的数据,都采集到一张表里面,那么,这个表的长度会变得非常大。
    由于每个站点的数据格式都不相同(涉及的字段不同),所以,这些数据的处理流程也不相同。
    也就意味着,同一张表,你会采用多种不同的方式,去里面统计(提取)数据。
    这张表的负载就会很大。
    比如,有个查询操作很费时,它正在进行时你又对这张表做另一个查询操作,就造成两个操作都会很慢。分开做,有几个优点:
    1. 由于每个站点,数据结构不同(表结构不同),数据的处理,思路会更加清晰。
        不同站点,采用不同的处理流程即可,不存在什么容易混淆的字段,产生bug。
    2. 风险隔离。如果有个误操作,把一个站点的数据搞乱了,不影响其他站点的原始数据。
        比如:delete语句,忘了加where条件,或者少加了几个where条件之类的事情。
    3. 负载均衡。这个只是相对的均衡,因为,每个站点的操作,要找对应的表去操作。
        数据库会针对每个表的查询操作,进行优化,这个效率一定比多个查询一张表要高。
    4. 升级、添加站点的代价较低。只需要添加对应的数据表,添加对应的处理流程即可。当然,缺点也有一些:
    1. 数据处理,缺少统一处理的过程。每个站点都要有对应的不同的处理过程,这个过程难于统一管理。
        当然,这个问题,类似Java里面的多态,我们只要转变思路,还是能够较好的解决这个问题的。
    2. 数据过于分散,难于维护。每个站点一张表,站点过多,涉及的表就会很多。
        可能会产生,数据复杂、难于管理的感觉。这个方面,可以通过提取共有部分,抽象处理方法等,尝试优化。
    其他缺点,我还没有想太多,应该还有不少缺点。但是,分开表的优点,我很欣赏,所以,推荐楼主采用。下面说说关于性能的问题:
    楼主问,动态SQL会不会费性能?
    首先,动态生成SQL语句不会耗费什么时间,费时间的是执行语句;
    其次,我们可以针对每个站点表,编写不同SQL语句,这些语句就不用动态生成了,它们都是常量字符串;
    (当然,有人不太喜欢用常量SQL配合数据参数进行数据的插入,我也没有办法,
    就如同PreparedStatement,很多人都不太喜欢调用setParameter方法设置参数,
    而把参数写到SQL里面,引起SQL注入这种隐含漏洞。我也是没办法的事情。)Oracle能否扛得住3分钟一次的数据录入?
    这个要看具体的场景:
    多少个并发录入、每个录入的数据量、每个录入的要求的最大录入时间。
    这些参数都确定的情况下,再来考虑问题的瓶颈。
    问题瓶颈往往都在数据传输、数据解压上面。
    楼主说的数据库由于录入压力过大,产生过载的现象,一般不会发生。
    如果楼主能够确切掌握上面说的几个数据,可以通过调整Oracle缓存的方式,优化他们。
    应该没有什么大问题的。