大数据量的表似乎只能水平分表吧,但分表后如何实现关系查询呢?
例如淘宝的商品查询,能够以各种条件查到任何商品,它的商品库非常庞大,肯定不是一个表,但可通过各种条件查询,通常这些条件会是商品表的外键,如果分表,怎么进行关系查询呢?

解决方案 »

  1.   

    如果a,b表结构相同可以通过union来联接select * from a
    union all
    select * from b但对大表很少这样处理。 一般是采取分区表.而不是分为多个表。
      

  2.   

    分区表的话就只能放在一台服务器的一个库中了吧?分区表能够正常使用SQL关联查询吗?
      

  3.   

    MySQL中的分区概述SQL标准在数据存储的物理方面没有提供太多的指南。SQL语言的使用独立于它所使用的任何数据结构或图表、表、行或列下的介质。但是,大部分高级数据库管理系统已经开发了一些根据文件系统、硬件或者这两者来确定将要用于存储特定数据块物理位置的方法。在MySQL中,InnoDB存储引擎长期支持表空间的概念,并且MySQL服务器甚至在分区引入之前,就能配置为存储不同的数据库使用不同的物理路径.分区又把这个概念推进了一步,它允许根据可以设置为任意大小的规则,跨文件系统分配单个表的多个部分。实际上,表的不同部分在不同的位置被存储为单独的表。用户所选择的、实现数据分割的规则被称为分区函数,这在MySQL中它可以是模数,或者是简单的匹配一个连续的数值区间或数值列表,或者是一个内部HASH函数,或一个线性HASH函数。函数根据用户指定的分区类型来选择,把用户提供的表达式的值作为参数。该表达式可以是一个整数列值,或一个作用在一个或多个列值上并返回一个整数的函数。这个表达式的值传递给分区函数,分区函数返回一个表示那个特定记录应该保存在哪个分区的序号。这个函数不能是常数,也不能是任意数。它不能包含任何查询,但是实际上可以使用MySQL 中任何可用的SQL表达式,只要该表达式返回一个小于MAXVALUE(最大可能的正整数)的正数值。可以通过使用用来创建分区表的CREATE TABLE语句的PARTITION子句的DATA DIRECTORY(数据路径)和INDEX DIRECTORY(索引路径)选项,为每个分区的数据和索引指定特定的路径。此外,MAX_ROWS和MIN_ROWS选项可以用来设定最大和最小的行数,它们可以各自保存在每个分区里。分区的一些优点包括: ·         与单个磁盘或文件系统分区相比,可以存储更多的数据。 ·         对于那些已经失去保存意义的数据,通常可以通过删除与那些数据有关的分区,很容易地删除那些数据。相反地,在某些情况下,添加新数据的过程又可以通过为那些新数据专门增加一个新的分区,来很方便地实现。通常和分区有关的其他优点包括下面列出的这些。MySQL 分区中的这些功能目前还没有实现,但是在我们的优先级列表中,具有高的优先级;我们希望在5.1的生产版本中,能包括这些功能。·         一些查询可以得到极大的优化,这主要是借助于满足一个给定WHERE 语句的数据可以只保存在一个或多个分区内,这样在查找时就不用查找其他剩余的分区。因为分区可以在创建了分区表后进行修改,所以在第一次配置分区方案时还不曾这么做时,可以重新组织数据,来提高那些常用查询的效率。 ·         涉及到例如SUM() 和 COUNT()这样聚合函数的查询,可以很容易地进行并行处理。这种查询的一个简单例子如 “SELECT salesperson_id, COUNT(orders) as order_total FROM sales GROUP BY salesperson_id;”。通过“并行”, 这意味着该查询可以在每个分区上同时进行,最终结果只需通过总计所有分区得到的结果。 ·         通过跨多个磁盘来分散数据查询,来获得更大的查询吞吐量。 
      

  4.   

    分区类型·         RANGE 分区:基于属于一个给定连续区间的列值,把多行分配给分区。
    ·         LIST 分区:类似于按RANGE分区,区别在于LIST分区是基于列值匹配一个离散值集合中的某个值来进行选择。
    ·         HASH分区:基于用户定义的表达式的返回值来进行选择的分区,该表达式使用将要插入到表中的这些行的列值进行计算。这个函数可以包含MySQL 中有效的、产生非负整数值的任何表达式。
    ·         KEY 分区:类似于按HASH分区,区别在于KEY分区只支持计算一列或多列,且MySQL 服务器提供其自身的哈希函数。必须有一列或多列包含整数值。无论使用何种类型的分区,分区总是在创建时就自动的顺序编号,且从0开始记录,记住这一点非常重要。当有一新行插入到一个分区表中时,就是使用这些分区编号来识别正确的分区。例如,如果你的表使用4个分区,那么这些分区就编号为0, 1, 2, 和3。对于RANGE和LIST分区类型,确认每个分区编号都定义了一个分区,很有必要。对HASH分区,使用的用户函数必须返回一个大于0的整数值。对于KEY分区,这个问题通过MySQL服务器内部使用的 哈希函数自动进行处理。 分区的名字基本上遵循其他MySQL 标识符应当遵循的原则,例如用于表和数据库名字的标识符。但是应当注意,分区的名字是不区分大小写的。
      

  5.   

    是否可以这样理解:
    1、表分区后,sql查询将在多个分区并行,并把结果返回,sum或count操作,则在多个分区分别处理后汇总?是以这种原理提高性能吗?
    2、表分区后,不需要修改原单表中的任何sql语句?
    3、表分区后,各种关系操作不受影响,如某个表引用该表主键作为外键,即使分区,也不受影响
      

  6.   

    是否可以这样理解: 
    1、表分区后,sql查询将在多个分区并行,并把结果返回,sum或count操作,则在多个分区分别处理后汇总?是以这种原理提高性能吗? 应该不是这样,全表扫描不会有什么显著的效率提高。否则就不是有什么数据仓库之说了。 建议你GOOGLE中找一下数据仓库。这个OLTP不是一个概念。 分区能够得到提高的是当你仅查2004看的时候,它只要访问2004这个分区就行了。 如6楼所说。2、表分区后,不需要修改原单表中的任何sql语句? 
    对用户来说是透明的。不需要修改原单表中的任何sql语句.3、表分区后,各种关系操作不受影响,如某个表引用该表主键作为外键,即使分区,也不受影响 
    不受影响
      

  7.   

    换换思路吧,分区,分表的肯定是要去做的,如果表非常大的话。
    楼猪说到淘宝此类网站,一般此类架构肯定会去做静态化处理(定时处理数据字典):
    1.实时查询数据库方案:假设商品表有1000W数据,不管你建索引啥的,肯定要进行排序是吧,或者加个条件你在oracle上试试,我包你10秒出不来结果,别再说关联其他表了,但是我们访问百度、淘宝搜索为啥就“秒杀”呢--所以实时查询是不成立的。2.异步处理--定时生成静态化页面:
    联想下,淘宝,百度,google,你们作为站长知道你刚上一个网站百度就会将你的网站放上去?不会,因为他要计算,审核,等,如果你做过淘宝你肯定知道 你刚新上架一个产品,你在搜索上搜索你的商品关键字,你翻啊翻啊,发现甚么,尽然没有你的商品,但是你过个1小时,或者半天就能发现了很多例子,这是为啥,为啥不能做个实时的呢,不是他们要审核等其他因素,我告诉你他们做不到!!!
    百度,google 淘宝做不到的事情,我们也不必去大费心思了。我虽然不是在里面工作过,但是可以想象到,当你输入关键字查询,他会根据一个数据字典进行检索你想要甚么东西,他会将“相对”静态的页面数据转发给你,html 那当然很快了;
    那这些静态页面是从甚么地方来的呢?当你增加一个商品,百度检索到一个新网站,他们会根据特点建立好数据字典,然后重新生成静态化数据页面。
    至此大数据量查询方案一般都这么个做法(商业领域)。
    本人一直在研究静态化生成规则方案,一直没想到很好的方案,希望有关做过此方面的专家人士能够相互探讨,更希望在淘宝,百度,google的架构师们与我联系:QQ200898125