请教一个关于PHP大数组去重的问题 优化 解决方案 » 免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货 逻辑比较复杂,在MySQL中去重可能不太容易实现,有些字段是要拆解出来做统计的,比如一个字段是“a-b”,这条数据被拿出来后,要拆解成"所有"、"a"、"a-b"三个级别,在三个级别内相应的去重(类似的字段有多个),同张表内有多种字段组合的需要去重,目前高峰的时候数据量几千万+,还在增长中,用DISTINCT的话效率应该也不高,分次5w条取数据的时候会在5w条内用DISTINCT做个预去重,然后再入到PHP中去重。 CREATE TABLE `play` ( `id` int(10) unsigned NOT NULL AUTO_INCREMENT, `time` time NOT NULL, `uid` int(10) unsigned NOT NULL, `game` varchar(255) NOT NULL', `channel` varchar(255) NOT NULL, `system` varchar(255) NOT NULL, `screen` varchar(255) NOT NULL, `network` varchar(255) NOT NULL, PRIMARY KEY (`id`), KEY `datetime` (`time`)) ENGINE=InnoDB高峰的时候数据有几千万+这样,比如上面是部分字段,需要对game-channel-system、game-channel-screen、game-channel-network做去重,其中game和channel类似于“所有游戏-魔兽世界-1服”的结构,需要分解出“1服”、“魔兽世界”、“所有游戏”,在这三个level内分别去重。 字段:id time uid game channel system screen network1 1421812389 10000 所有游戏-魔兽世界-0服 360-360联盟 WIN7 1024x768 电信2 1421812389 10001 所有游戏-魔兽世界-1服 网易-网易联盟 XP 1366x768 联通3 1421812389 10000 所有游戏-魔兽世界-0服 360-360联盟 WIN7 1024x768 电信比如统计各个游戏各个渠道的操作系统分布按game-channel-system去重,其中game和channel都需要分解出不同level,在不同level中去重,如“所有游戏-魔兽世界-0服”需在所有游戏、魔兽世界、0服这三个level中去重,所以第一条game和channel拆解完就变为3X2=6条 可以合并数组array_merge 然后去重array_unique不知道速度如何 毕竟没用那么大数组过,可以测试一下 我们按你给出的数据做一个测试drop table if exists play;CREATE TABLE `play` ( `id` int(10) unsigned NOT NULL AUTO_INCREMENT, `time` int(10) NOT NULL, `uid` int(10) unsigned NOT NULL, `game` varchar(255) NOT NULL, `channel` varchar(255) NOT NULL, `system` varchar(255) NOT NULL, `screen` varchar(255) NOT NULL, `network` varchar(255) NOT NULL, PRIMARY KEY (`id`), KEY `datetime` (`time`)) charset=gbk;insert into play values(1,1421812389,10000,'所有游戏-魔兽世界-0服','360-360联盟','WIN7','1024x768','电信'),(2,1421812389,10001,'所有游戏-魔兽世界-1服','网易-网易联盟','XP','1366x768','联通'),(3,1421812389,10000,'所有游戏-魔兽世界-0服','360-360联盟','WIN7','1024x768','电信');drop table if exists play_game;create table play_game ( game varchar(100) ) charset=gbk;insert into play_game values ('所有游戏'),('魔兽世界'),('0服'),('1服');drop table if exists play_channel;create table play_channel ( channel varchar(100) ) charset=gbk;insert into play_channel values ('360'),('360联盟'),('网易'),('网易联盟');select a.id, a.time, a.uid, b.game, c.channel, a.system, a.screen, a.network from play a, play_game b, play_channel c where find_in_set(b.game, replace(a.game, '-', ',')) and find_in_set(c.channel, replace(a.channel, '-', ','))可得到这样的结果id time uid game channel system screen network 1 1421812389 10000 所有游戏 360 WIN7 1024x768 电信 3 1421812389 10000 所有游戏 360 WIN7 1024x768 电信 1 1421812389 10000 魔兽世界 360 WIN7 1024x768 电信 3 1421812389 10000 魔兽世界 360 WIN7 1024x768 电信 1 1421812389 10000 0服 360 WIN7 1024x768 电信 3 1421812389 10000 0服 360 WIN7 1024x768 电信 1 1421812389 10000 所有游戏 360联盟 WIN7 1024x768 电信 3 1421812389 10000 所有游戏 360联盟 WIN7 1024x768 电信 1 1421812389 10000 魔兽世界 360联盟 WIN7 1024x768 电信 3 1421812389 10000 魔兽世界 360联盟 WIN7 1024x768 电信 1 1421812389 10000 0服 360联盟 WIN7 1024x768 电信 3 1421812389 10000 0服 360联盟 WIN7 1024x768 电信 2 1421812389 10001 所有游戏 网易 XP 1366x768 联通 2 1421812389 10001 魔兽世界 网易 XP 1366x768 联通 2 1421812389 10001 1服 网易 XP 1366x768 联通 2 1421812389 10001 所有游戏 网易联盟 XP 1366x768 联通 2 1421812389 10001 魔兽世界 网易联盟 XP 1366x768 联通 2 1421812389 10001 1服 网易联盟 XP 1366x768 联通 再从这个结果出发,还有什么是不可用 SQL 做到的呢?如果你永久性的将 所有游戏-魔兽世界-0服 改为 所有游戏,魔兽世界,0服 那就不需要在查询时执行 replace 函数了(当然这可能会涉及程序的改动),效率自然会有所提高如果你再将最后的查询定义成视图的话,效率就又会提高不少(视图中如果一条记录的源数据没有被改变,则不做查询动作而直接返回缓存的结果) 其实"所有游戏-魔兽世界-0服"会分解出“所有游戏”、“所有游戏-魔兽世界”、“所有游戏-魔兽世界-0服”单单0服可能会和其他游戏的0服重复,不过思路有了,回头试试,thx 最后统计结果以game为key按游戏查看数据 都叫0服比较麻烦~ 再说,如果这样:所有游戏-魔兽世界_1服 或 所有游戏,魔兽世界_1服 也就不会单列出来的或者说是不在 play_game 中加入 0服、1服同样都不会将 0服、1服 单列出来 怎么能把 所有游戏-wow-1服 存在一个字段里呢~我是建议添加几个字段,将它拆开保存,然后在mysql上排重 php数组转换,求解 php header() 以及 apache ErrorDocument 404 require进来的页面就没法读session,为什么? PHP 开发利器 PhpStorm 7 发布 thinkphp怎么实现累计 设置register_globals = Off后session的问题,大家帮忙看看 按日期查询:怎么实现? php中如何实现重定向? php无法操作memcache求助 数据上报 php接收文件时的一些问题(考虑高并发) 请教生日,性别,地址如何存储和读取(选择模式!)
逻辑比较复杂,在MySQL中去重可能不太容易实现,有些字段是要拆解出来做统计的,比如一个字段是“a-b”,这条数据被拿出来后,要拆解成"所有"、"a"、"a-b"三个级别,在三个级别内相应的去重(类似的字段有多个),同张表内有多种字段组合的需要去重,目前高峰的时候数据量几千万+,还在增长中,用DISTINCT的话效率应该也不高,分次5w条取数据的时候会在5w条内用DISTINCT做个预去重,然后再入到PHP中去重。
`id` int(10) unsigned NOT NULL AUTO_INCREMENT,
`time` time NOT NULL,
`uid` int(10) unsigned NOT NULL,
`game` varchar(255) NOT NULL',
`channel` varchar(255) NOT NULL,
`system` varchar(255) NOT NULL,
`screen` varchar(255) NOT NULL,
`network` varchar(255) NOT NULL,
PRIMARY KEY (`id`),
KEY `datetime` (`time`)
) ENGINE=InnoDB高峰的时候数据有几千万+这样,比如上面是部分字段,需要对game-channel-system、game-channel-screen、game-channel-network做去重,其中game和channel类似于“所有游戏-魔兽世界-1服”的结构,需要分解出“1服”、“魔兽世界”、“所有游戏”,在这三个level内分别去重。
1 1421812389 10000 所有游戏-魔兽世界-0服 360-360联盟 WIN7 1024x768 电信
2 1421812389 10001 所有游戏-魔兽世界-1服 网易-网易联盟 XP 1366x768 联通
3 1421812389 10000 所有游戏-魔兽世界-0服 360-360联盟 WIN7 1024x768 电信比如统计各个游戏各个渠道的操作系统分布
按game-channel-system去重,其中game和channel都需要分解出不同level,在不同level中去重,如“所有游戏-魔兽世界-0服”需在所有游戏、魔兽世界、0服这三个level中去重,所以第一条game和channel拆解完就变为3X2=6条
不知道速度如何 毕竟没用那么大数组过,可以测试一下
`id` int(10) unsigned NOT NULL AUTO_INCREMENT,
`time` int(10) NOT NULL,
`uid` int(10) unsigned NOT NULL,
`game` varchar(255) NOT NULL,
`channel` varchar(255) NOT NULL,
`system` varchar(255) NOT NULL,
`screen` varchar(255) NOT NULL,
`network` varchar(255) NOT NULL,
PRIMARY KEY (`id`),
KEY `datetime` (`time`)
) charset=gbk;insert into play values
(1,1421812389,10000,'所有游戏-魔兽世界-0服','360-360联盟','WIN7','1024x768','电信'),
(2,1421812389,10001,'所有游戏-魔兽世界-1服','网易-网易联盟','XP','1366x768','联通'),
(3,1421812389,10000,'所有游戏-魔兽世界-0服','360-360联盟','WIN7','1024x768','电信');drop table if exists play_game;create table play_game ( game varchar(100) ) charset=gbk;insert into play_game values ('所有游戏'),('魔兽世界'),('0服'),('1服');drop table if exists play_channel;create table play_channel ( channel varchar(100) ) charset=gbk;insert into play_channel values ('360'),('360联盟'),('网易'),('网易联盟');select a.id, a.time, a.uid, b.game, c.channel, a.system, a.screen, a.network from play a, play_game b, play_channel c where
find_in_set(b.game, replace(a.game, '-', ','))
and
find_in_set(c.channel, replace(a.channel, '-', ','))
可得到这样的结果
id time uid game channel system screen network
1 1421812389 10000 所有游戏 360 WIN7 1024x768 电信
3 1421812389 10000 所有游戏 360 WIN7 1024x768 电信
1 1421812389 10000 魔兽世界 360 WIN7 1024x768 电信
3 1421812389 10000 魔兽世界 360 WIN7 1024x768 电信
1 1421812389 10000 0服 360 WIN7 1024x768 电信
3 1421812389 10000 0服 360 WIN7 1024x768 电信
1 1421812389 10000 所有游戏 360联盟 WIN7 1024x768 电信
3 1421812389 10000 所有游戏 360联盟 WIN7 1024x768 电信
1 1421812389 10000 魔兽世界 360联盟 WIN7 1024x768 电信
3 1421812389 10000 魔兽世界 360联盟 WIN7 1024x768 电信
1 1421812389 10000 0服 360联盟 WIN7 1024x768 电信
3 1421812389 10000 0服 360联盟 WIN7 1024x768 电信
2 1421812389 10001 所有游戏 网易 XP 1366x768 联通
2 1421812389 10001 魔兽世界 网易 XP 1366x768 联通
2 1421812389 10001 1服 网易 XP 1366x768 联通
2 1421812389 10001 所有游戏 网易联盟 XP 1366x768 联通
2 1421812389 10001 魔兽世界 网易联盟 XP 1366x768 联通
2 1421812389 10001 1服 网易联盟 XP 1366x768 联通
再从这个结果出发,还有什么是不可用 SQL 做到的呢?如果你永久性的将 所有游戏-魔兽世界-0服 改为 所有游戏,魔兽世界,0服 那就不需要在查询时执行 replace 函数了(当然这可能会涉及程序的改动),效率自然会有所提高
如果你再将最后的查询定义成视图的话,效率就又会提高不少(视图中如果一条记录的源数据没有被改变,则不做查询动作而直接返回缓存的结果)
单单0服可能会和其他游戏的0服重复,不过思路有了,回头试试,thx
按游戏查看数据 都叫0服比较麻烦~
或者说是不在 play_game 中加入 0服、1服
同样都不会将 0服、1服 单列出来
我是建议添加几个字段,将它拆开保存,然后在mysql上排重