解决方案 »

  1.   


    逻辑比较复杂,在MySQL中去重可能不太容易实现,有些字段是要拆解出来做统计的,比如一个字段是“a-b”,这条数据被拿出来后,要拆解成"所有"、"a"、"a-b"三个级别,在三个级别内相应的去重(类似的字段有多个),同张表内有多种字段组合的需要去重,目前高峰的时候数据量几千万+,还在增长中,用DISTINCT的话效率应该也不高,分次5w条取数据的时候会在5w条内用DISTINCT做个预去重,然后再入到PHP中去重。
      

  2.   

    CREATE TABLE `play` (
      `id` int(10) unsigned NOT NULL AUTO_INCREMENT,
      `time` time NOT NULL,
      `uid` int(10) unsigned NOT NULL,
      `game` varchar(255) NOT NULL',
      `channel` varchar(255) NOT NULL,
      `system` varchar(255) NOT NULL,
      `screen` varchar(255) NOT NULL,
      `network` varchar(255) NOT NULL,
      PRIMARY KEY (`id`),
      KEY `datetime` (`time`)
    ) ENGINE=InnoDB高峰的时候数据有几千万+这样,比如上面是部分字段,需要对game-channel-system、game-channel-screen、game-channel-network做去重,其中game和channel类似于“所有游戏-魔兽世界-1服”的结构,需要分解出“1服”、“魔兽世界”、“所有游戏”,在这三个level内分别去重。
      

  3.   

    字段:id  time  uid  game channel system screen network
    1 1421812389 10000 所有游戏-魔兽世界-0服  360-360联盟 WIN7 1024x768 电信
    2 1421812389 10001 所有游戏-魔兽世界-1服  网易-网易联盟 XP 1366x768 联通
    3 1421812389 10000 所有游戏-魔兽世界-0服  360-360联盟 WIN7 1024x768 电信比如统计各个游戏各个渠道的操作系统分布
    按game-channel-system去重,其中game和channel都需要分解出不同level,在不同level中去重,如“所有游戏-魔兽世界-0服”需在所有游戏、魔兽世界、0服这三个level中去重,所以第一条game和channel拆解完就变为3X2=6条
      

  4.   

    可以合并数组array_merge 然后去重array_unique
    不知道速度如何 毕竟没用那么大数组过,可以测试一下
      

  5.   

    我们按你给出的数据做一个测试drop table if exists play;CREATE TABLE `play` (
      `id` int(10) unsigned NOT NULL AUTO_INCREMENT,
      `time` int(10) NOT NULL,
      `uid` int(10) unsigned NOT NULL,
      `game` varchar(255) NOT NULL,
      `channel` varchar(255) NOT NULL,
      `system` varchar(255) NOT NULL,
      `screen` varchar(255) NOT NULL,
      `network` varchar(255) NOT NULL,
      PRIMARY KEY (`id`),
      KEY `datetime` (`time`)
    ) charset=gbk;insert into play values
    (1,1421812389,10000,'所有游戏-魔兽世界-0服','360-360联盟','WIN7','1024x768','电信'),
    (2,1421812389,10001,'所有游戏-魔兽世界-1服','网易-网易联盟','XP','1366x768','联通'),
    (3,1421812389,10000,'所有游戏-魔兽世界-0服','360-360联盟','WIN7','1024x768','电信');drop table if exists play_game;create table play_game ( game varchar(100) ) charset=gbk;insert into play_game values ('所有游戏'),('魔兽世界'),('0服'),('1服');drop table if exists play_channel;create table play_channel ( channel varchar(100) ) charset=gbk;insert into play_channel values ('360'),('360联盟'),('网易'),('网易联盟');select a.id, a.time, a.uid, b.game, c.channel, a.system, a.screen, a.network from play a, play_game b, play_channel c where 
      find_in_set(b.game, replace(a.game, '-', ','))
      and
      find_in_set(c.channel, replace(a.channel, '-', ','))
    可得到这样的结果
    id time    uid  game   channel system screen  network 
    1  1421812389 10000 所有游戏 360   WIN7  1024x768 电信 
    3  1421812389 10000 所有游戏 360   WIN7  1024x768 电信 
    1  1421812389 10000 魔兽世界 360   WIN7  1024x768 电信 
    3  1421812389 10000 魔兽世界 360   WIN7  1024x768 电信 
    1  1421812389 10000 0服    360   WIN7  1024x768 电信 
    3  1421812389 10000 0服    360   WIN7  1024x768 电信 
    1  1421812389 10000 所有游戏 360联盟 WIN7  1024x768 电信 
    3  1421812389 10000 所有游戏 360联盟 WIN7  1024x768 电信 
    1  1421812389 10000 魔兽世界 360联盟 WIN7  1024x768 电信 
    3  1421812389 10000 魔兽世界 360联盟 WIN7  1024x768 电信 
    1  1421812389 10000 0服    360联盟 WIN7  1024x768 电信 
    3  1421812389 10000 0服    360联盟 WIN7  1024x768 电信 
    2  1421812389 10001 所有游戏 网易   XP   1366x768 联通 
    2  1421812389 10001 魔兽世界 网易   XP   1366x768 联通 
    2  1421812389 10001 1服    网易   XP   1366x768 联通 
    2  1421812389 10001 所有游戏 网易联盟 XP   1366x768 联通 
    2  1421812389 10001 魔兽世界 网易联盟 XP   1366x768 联通 
    2  1421812389 10001 1服    网易联盟 XP   1366x768 联通 
    再从这个结果出发,还有什么是不可用 SQL 做到的呢?如果你永久性的将 所有游戏-魔兽世界-0服 改为 所有游戏,魔兽世界,0服 那就不需要在查询时执行 replace 函数了(当然这可能会涉及程序的改动),效率自然会有所提高
    如果你再将最后的查询定义成视图的话,效率就又会提高不少(视图中如果一条记录的源数据没有被改变,则不做查询动作而直接返回缓存的结果)
      

  6.   

    其实"所有游戏-魔兽世界-0服"会分解出“所有游戏”、“所有游戏-魔兽世界”、“所有游戏-魔兽世界-0服”
    单单0服可能会和其他游戏的0服重复,不过思路有了,回头试试,thx
      

  7.   

    最后统计结果以game为key
    按游戏查看数据 都叫0服比较麻烦~
      

  8.   

    再说,如果这样:所有游戏-魔兽世界_1服 或 所有游戏,魔兽世界_1服 也就不会单列出来的
    或者说是不在 play_game 中加入 0服、1服
    同样都不会将 0服、1服 单列出来
      

  9.   

    怎么能把  所有游戏-wow-1服   存在一个字段里呢~
    我是建议添加几个字段,将它拆开保存,然后在mysql上排重