海量数据的“交并集”操作

LeonTown 2012-05-03 10:55:16
加精
应用场景大致是这样:
有上亿条数据,每条数据属于若干个类别(大约属于3到10个类别),
总共约有近千个不同的类别,每个类别含有的数据量从几千到上亿不等。

现在需要迅速的查询出某几个类别,经过交、并操作后的数据量。


现在的处理方式是:
对原始的上亿条数据,随机抽样出千分之一的数据量;
对这抽样的数据,分别赋上从1开始的序号;
然后,对这抽样的数据中的每个类别分别建立一个bitmap,
bitmap的每个下标,对应着某一条抽样数据,
若置一,则表示该类别含有该下标所对应的数据。

当有交并集查询到来时,取出相应类别的bitmap,进行交并操作,
并得到结果bitmap的置一数量,然后再除以抽样率,得到近似的原始数据的交并集的数据量。


现在,希望能够尽可能精确的得到原始数据的交并集数据量,
请问大家有没有什么更好的方案啊?
比如说,是否可以建立多级的bitmap,或者分段的bitmap等(自己瞎捉摸着)。

望大家不吝赐教,
来者有分啊!
...全文
3641 76 打赏 收藏 转发到动态 举报
写回复
用AI写文章
76 条回复
切换为时间正序
请发表友善的回复…
发表回复
geniusfeng 2012-06-14
  • 打赏
  • 举报
回复
我现在也遇到类似的问题,在window下用vs.net开发,需要处理上亿的数据量,新来的数据,也与上亿的历史数据比较,要求实时处理。
csckx 2012-06-13
  • 打赏
  • 举报
回复
新手 不是很懂...
nextuser 2012-06-03
  • 打赏
  • 举报
回复
内存开销不大阿,整个计算交并用bitmap运算应该是高效的.你是在嵌入式系统中做这个么?如果pc上就不考虑内存开销了.
问题是你追求的是不完整准确性? 计算时延多久能接受? 内存不贵啊
Y2D4M4X8 2012-06-03
  • 打赏
  • 举报
回复
似乎属于概率论与数理统计的范畴,要请教数学专业的同学了
Y2D4M4X8 2012-06-03
  • 打赏
  • 举报
回复
似乎属于概率论与数理统计的数学范畴,要请教数学专业的同学了
Y2D4M4X8 2012-06-01
  • 打赏
  • 举报
回复
涉及海量数据的处理,都挺麻烦的,关注ing
LeonTown 2012-06-01
  • 打赏
  • 举报
回复
在抽样方面,
最近听说有个Random Projection(随机映射),
不知大家有了解吗?
txzsp 2012-05-17
  • 打赏
  • 举报
回复
使用数据库解决
辉仔 2012-05-15
  • 打赏
  • 举报
回复
hash + bitmap 如何
evy_yang 2012-05-15
  • 打赏
  • 举报
回复
学习了,谢谢分享
LeonTown 2012-05-14
  • 打赏
  • 举报
回复
神,能再稍微详细说一下吗?

[Quote=引用 44 楼 的回复:]

1,分段
2,哈希
复杂度做到加法O(A+B)
[/Quote]
wangliroot 2012-05-14
  • 打赏
  • 举报
回复
[Quote=引用 23 楼 的回复:]

C/C++ code
//输出PROG中有但LIST中没有的文本行,即集合PROG-LIST
#include <stdio.h>
#include <string.h>
#include <stdlib.h>
#include <search.h>
#define MAXLINES 1000000
#define MAXCHARS 256
char buf[MAXLINES][MAXCHAR……
[/Quote]表示观望
sandychenjie 2012-05-14
  • 打赏
  • 举报
回复
看到海量数据就晕
LeonTown 2012-05-14
  • 打赏
  • 举报
回复
什么是“点积拓扑”?
没google到。。。

[Quote=引用 57 楼 的回复:]

建议楼主不妨参考一下点积拓扑的处理方式~
[/Quote]
cnmhx 2012-05-14
  • 打赏
  • 举报
回复
建议楼主不妨参考一下点积拓扑的处理方式~
  • 打赏
  • 举报
回复
我连楼主的意思都没有明白
wangxi0010 2012-05-12
  • 打赏
  • 举报
回复
看不懂
abdusalam398 2012-05-11
  • 打赏
  • 举报
回复
知道啦 谢谢
sglogin 2012-05-11
  • 打赏
  • 举报
回复
做足排序、筛选后再说别的先
「已注销」 2012-05-10
  • 打赏
  • 举报
回复
支持39楼。
加载更多回复(35)

33,010

社区成员

发帖
与我相关
我的任务
社区描述
数据结构与算法相关内容讨论专区
社区管理员
  • 数据结构与算法社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧