请教一个关于PHP大数组去重的问题

gilper 2015-01-20 04:28:57
请教一个问题,关于PHP大数组操作,一张表有几百万的数据要拿到PHP数组中做去重操作:
例如:id 性别 身份证三个字段,需要统计男女各有多少人(有其它特定逻辑,不能在MySQL中去重)
实现方法:id是自增的,每次按id取5w条数据,拿到一个数组中做去重操作
$count = array(
'男' => array(
'身份证1' => 1,
'身份证2' => 1,
....
),
'女' => ...
);
最后看男女下共有多少个身份证即为去重后的数据
问题:随着数组越来越大,去重速度也越来越慢,不知道有没有其它解决方案或者优化方法,来请教一下,thx!
...全文
277 点赞 收藏 17
写回复
17 条回复
切换为时间正序
当前发帖距今超过3年,不再开放新的回复
发表回复
xuzuning 2015-01-22
再说,如果这样:所有游戏-魔兽世界_1服 或 所有游戏,魔兽世界_1服 也就不会单列出来的 或者说是不在 play_game 中加入 0服、1服 同样都不会将 0服、1服 单列出来
回复
xuzuning 2015-01-22
0服 只是表示游戏的来源,与游戏本身无关 从而也可看出你的数据组织是有问题的 你把 魔兽世界-0服 和 魔兽世界-1服 当做 2 个游戏处理,本身就是不妥当的
回复
gilper 2015-01-22
引用 12 楼 xuzuning 的回复:
不可能混淆的,相同的 id 才是一组
最后统计结果以game为key 按游戏查看数据 都叫0服比较麻烦~
回复
gilper 2015-01-22
最初设计是无限级 数据查看的时候可能要看到某个服的统计情况
回复
智商众筹 2015-01-22
怎么能把 所有游戏-wow-1服 存在一个字段里呢~ 我是建议添加几个字段,将它拆开保存,然后在mysql上排重
回复
qq_24444439 2015-01-21
可以合并数组array_merge 然后去重array_unique 不知道速度如何 毕竟没用那么大数组过,可以测试一下
回复
gilper 2015-01-21
字段:id time uid game channel system screen network 1 1421812389 10000 所有游戏-魔兽世界-0服  360-360联盟 WIN7 1024x768 电信 2 1421812389 10001 所有游戏-魔兽世界-1服  网易-网易联盟 XP 1366x768 联通 3 1421812389 10000 所有游戏-魔兽世界-0服  360-360联盟 WIN7 1024x768 电信 比如统计各个游戏各个渠道的操作系统分布 按game-channel-system去重,其中game和channel都需要分解出不同level,在不同level中去重,如“所有游戏-魔兽世界-0服”需在所有游戏、魔兽世界、0服这三个level中去重,所以第一条game和channel拆解完就变为3X2=6条
回复
xuzuning 2015-01-21
你贴个表结构有什么用? 你该贴些示例数据,并说明不能在数据库里处理的理由 一个数组元素至少要占用 80 个字节内存,所以是不划算的
回复
gilper 2015-01-21
CREATE TABLE `play` ( `id` int(10) unsigned NOT NULL AUTO_INCREMENT, `time` time NOT NULL, `uid` int(10) unsigned NOT NULL, `game` varchar(255) NOT NULL', `channel` varchar(255) NOT NULL, `system` varchar(255) NOT NULL, `screen` varchar(255) NOT NULL, `network` varchar(255) NOT NULL, PRIMARY KEY (`id`), KEY `datetime` (`time`) ) ENGINE=InnoDB 高峰的时候数据有几千万+这样,比如上面是部分字段,需要对game-channel-system、game-channel-screen、game-channel-network做去重,其中game和channel类似于“所有游戏-魔兽世界-1服”的结构,需要分解出“1服”、“魔兽世界”、“所有游戏”,在这三个level内分别去重。
回复
xuzuning 2015-01-21
不可能混淆的,相同的 id 才是一组
回复
gilper 2015-01-21
其实"所有游戏-魔兽世界-0服"会分解出“所有游戏”、“所有游戏-魔兽世界”、“所有游戏-魔兽世界-0服” 单单0服可能会和其他游戏的0服重复,不过思路有了,回头试试,thx
回复
xuzuning 2015-01-21
我们按你给出的数据做一个测试
drop table if exists play;

CREATE TABLE `play` (
  `id` int(10) unsigned NOT NULL AUTO_INCREMENT,
  `time` int(10) NOT NULL,
  `uid` int(10) unsigned NOT NULL,
  `game` varchar(255) NOT NULL,
  `channel` varchar(255) NOT NULL,
  `system` varchar(255) NOT NULL,
  `screen` varchar(255) NOT NULL,
  `network` varchar(255) NOT NULL,
  PRIMARY KEY (`id`),
  KEY `datetime` (`time`)
) charset=gbk;

insert into play values
(1,1421812389,10000,'所有游戏-魔兽世界-0服','360-360联盟','WIN7','1024x768','电信'),
(2,1421812389,10001,'所有游戏-魔兽世界-1服','网易-网易联盟','XP','1366x768','联通'),
(3,1421812389,10000,'所有游戏-魔兽世界-0服','360-360联盟','WIN7','1024x768','电信');

drop table if exists play_game;

create table play_game ( game varchar(100) ) charset=gbk;

insert into play_game values ('所有游戏'),('魔兽世界'),('0服'),('1服');

drop table if exists play_channel;

create table play_channel ( channel varchar(100) ) charset=gbk;

insert into play_channel values ('360'),('360联盟'),('网易'),('网易联盟');

select a.id, a.time, a.uid, b.game, c.channel, a.system, a.screen, a.network from play a, play_game b, play_channel c where 
  find_in_set(b.game, replace(a.game, '-', ','))
  and
  find_in_set(c.channel, replace(a.channel, '-', ','))
可得到这样的结果

id time    uid  game   channel system screen  network 
1  1421812389 10000 所有游戏 360   WIN7  1024x768 电信 
3  1421812389 10000 所有游戏 360   WIN7  1024x768 电信 
1  1421812389 10000 魔兽世界 360   WIN7  1024x768 电信 
3  1421812389 10000 魔兽世界 360   WIN7  1024x768 电信 
1  1421812389 10000 0服    360   WIN7  1024x768 电信 
3  1421812389 10000 0服    360   WIN7  1024x768 电信 
1  1421812389 10000 所有游戏 360联盟 WIN7  1024x768 电信 
3  1421812389 10000 所有游戏 360联盟 WIN7  1024x768 电信 
1  1421812389 10000 魔兽世界 360联盟 WIN7  1024x768 电信 
3  1421812389 10000 魔兽世界 360联盟 WIN7  1024x768 电信 
1  1421812389 10000 0服    360联盟 WIN7  1024x768 电信 
3  1421812389 10000 0服    360联盟 WIN7  1024x768 电信 
2  1421812389 10001 所有游戏 网易   XP   1366x768 联通 
2  1421812389 10001 魔兽世界 网易   XP   1366x768 联通 
2  1421812389 10001 1服    网易   XP   1366x768 联通 
2  1421812389 10001 所有游戏 网易联盟 XP   1366x768 联通 
2  1421812389 10001 魔兽世界 网易联盟 XP   1366x768 联通 
2  1421812389 10001 1服    网易联盟 XP   1366x768 联通 
再从这个结果出发,还有什么是不可用 SQL 做到的呢? 如果你永久性的将 所有游戏-魔兽世界-0服 改为 所有游戏,魔兽世界,0服 那就不需要在查询时执行 replace 函数了(当然这可能会涉及程序的改动),效率自然会有所提高 如果你再将最后的查询定义成视图的话,效率就又会提高不少(视图中如果一条记录的源数据没有被改变,则不做查询动作而直接返回缓存的结果)
回复
gilper 2015-01-21
引用 8 楼 qq_24444439 的回复:
可以合并数组array_merge 然后去重array_unique 不知道速度如何 毕竟没用那么大数组过,可以测试一下
肯定不行~
回复
傲雪星枫 2015-01-20
几百万不算多。
回复
傲雪星枫 2015-01-20
把表结构写出来看看。
回复
gilper 2015-01-20
引用 1 楼 xuzuning 的回复:
无论你有什么其它特定逻辑,都应在数据库里处理 只需对性别和身份证分组就可以了 或者对身份证字段做唯一索引
逻辑比较复杂,在MySQL中去重可能不太容易实现,有些字段是要拆解出来做统计的,比如一个字段是“a-b”,这条数据被拿出来后,要拆解成"所有"、"a"、"a-b"三个级别,在三个级别内相应的去重(类似的字段有多个),同张表内有多种字段组合的需要去重,目前高峰的时候数据量几千万+,还在增长中,用DISTINCT的话效率应该也不高,分次5w条取数据的时候会在5w条内用DISTINCT做个预去重,然后再入到PHP中去重。
回复
xuzuning 2015-01-20
无论你有什么其它特定逻辑,都应在数据库里处理 只需对性别和身份证分组就可以了 或者对身份证字段做唯一索引
回复
相关推荐
发帖
基础编程
创建于2007-09-28

2.1w+

社区成员

从PHP安装配置,PHP入门,PHP基础到PHP应用
申请成为版主
帖子事件
创建了帖子
2015-01-20 04:28
社区公告
暂无公告