海量数据的“交并集”操作

LeonTown 2012-05-03 10:55:16

加精

应用场景大致是这样：
有上亿条数据，每条数据属于若干个类别（大约属于3到10个类别），
总共约有近千个不同的类别，每个类别含有的数据量从几千到上亿不等。

现在需要迅速的查询出某几个类别，经过交、并操作后的数据量。

现在的处理方式是：
对原始的上亿条数据，随机抽样出千分之一的数据量；
对这抽样的数据，分别赋上从1开始的序号；
然后，对这抽样的数据中的每个类别分别建立一个bitmap，
bitmap的每个下标，对应着某一条抽样数据，
若置一，则表示该类别含有该下标所对应的数据。

当有交并集查询到来时，取出相应类别的bitmap，进行交并操作，
并得到结果bitmap的置一数量，然后再除以抽样率，得到近似的原始数据的交并集的数据量。

现在，希望能够尽可能精确的得到原始数据的交并集数据量，
请问大家有没有什么更好的方案啊？
比如说，是否可以建立多级的bitmap，或者分段的bitmap等（自己瞎捉摸着）。

望大家不吝赐教，
来者有分啊！

...全文

3641 76 打赏收藏转发到动态举报

写回复

用AI写文章

76 条回复

切换为时间正序

请发表友善的回复…

发表回复

geniusfeng 2012-06-14

打赏
举报

我现在也遇到类似的问题，在window下用vs.net开发，需要处理上亿的数据量，新来的数据，也与上亿的历史数据比较，要求实时处理。

csckx 2012-06-13

打赏
举报

新手不是很懂...

nextuser 2012-06-03

打赏
举报

内存开销不大阿,整个计算交并用bitmap运算应该是高效的.你是在嵌入式系统中做这个么?如果pc上就不考虑内存开销了.
问题是你追求的是不完整准确性? 计算时延多久能接受? 内存不贵啊

Y2D4M4X8 2012-06-03

打赏
举报

似乎属于概率论与数理统计的范畴，要请教数学专业的同学了

Y2D4M4X8 2012-06-03

打赏
举报

似乎属于概率论与数理统计的数学范畴，要请教数学专业的同学了

Y2D4M4X8 2012-06-01

打赏
举报

涉及海量数据的处理，都挺麻烦的，关注ing

LeonTown 2012-06-01

打赏
举报

在抽样方面，
最近听说有个Random Projection（随机映射），
不知大家有了解吗？

txzsp 2012-05-17

打赏
举报

使用数据库解决

辉仔 2012-05-15

打赏
举报

hash + bitmap 如何

evy_yang 2012-05-15

打赏
举报

学习了，谢谢分享

LeonTown 2012-05-14

打赏
举报

神，能再稍微详细说一下吗？

[Quote=引用 44 楼的回复:]

1,分段
2,哈希
复杂度做到加法O(A+B)
[/Quote]

wangliroot 2012-05-14

打赏
举报

[Quote=引用 23 楼的回复:]

C/C++ code
//输出PROG中有但LIST中没有的文本行，即集合PROG-LIST
#include <stdio.h>
#include <string.h>
#include <stdlib.h>
#include <search.h>
#define MAXLINES 1000000
#define MAXCHARS 256
char buf[MAXLINES][MAXCHAR……
[/Quote]表示观望

sandychenjie 2012-05-14