[讨论]上TB级的三元组数据存储与查找

hxyman 2009-03-04 02:16:59
三元组(包括地址是四元了)的形式如下:
0001 XADBS
0002 BSDXSSSDFS
0003 CSDFS
...
0010 DFDS
0011 EDFDDD
0012 FXFSSS
0013 GGSXXXX
...
1000 0001 0002 0010
1001 0001 0003 0011
1002 1000 1001 0013
1003 0002 0003 0012
...
前面一段是一元的。就是前面是地址,后面是值(不定长)。
到后面全部是三元的。即:地址1 地址2 地址3

一元的个数是有限的(约10W左右)
三元的个数几乎是无限的(可能会上TB级)
因为数据量很大,这些三元组可能会分布存放,通过网络连接,但所有的地址都是唯一的。

需求是,给定一堆 一元的值(可能是10~20个左右),能快速(4秒内)找出所有的相关三元组。相关的意思是,该三元组包含了给定的一元值的地址。注意的是这里面会有嵌套关系,就是找出的三元组地址又被其它三元组用到了,其它的也要找出来。

这个需求以现有的计算速度和存储量有没有可能实现。欢迎大家讨论。
...全文
136 3 打赏 收藏 转发到动态 举报
写回复
用AI写文章
3 条回复
切换为时间正序
请发表友善的回复…
发表回复
菜牛 2009-03-04
  • 打赏
  • 举报
回复
[Quote=引用 2 楼 hxyman 的回复:]
如果不考虑网络,单机,1G左右的数据量,大约估计要多少时间?我现在还没做过实验。
[/Quote]如果数据有限且进行排列或用Hash表等进行索引,应该可以控制在秒级。
hxyman 2009-03-04
  • 打赏
  • 举报
回复
终于有人回复了,HOHO。
谢谢 Mackz 老大。

如果不考虑网络,单机,1G左右的数据量,大约估计要多少时间?我现在还没做过实验。
菜牛 2009-03-04
  • 打赏
  • 举报
回复
基本不可能,考虑到网络更不可能,考虑到“无限”就完全不可能。

16,471

社区成员

发帖
与我相关
我的任务
社区描述
VC/MFC相关问题讨论
社区管理员
  • 基础类社区
  • Web++
  • encoderlee
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

        VC/MFC社区版块或许是CSDN最“古老”的版块了,记忆之中,与CSDN的年龄几乎差不多。随着时间的推移,MFC技术渐渐的偏离了开发主流,若干年之后的今天,当我们面对着微软的这个经典之笔,内心充满着敬意,那些曾经的记忆,可以说代表着二十年前曾经的辉煌……
        向经典致敬,或许是老一代程序员内心里面难以释怀的感受。互联网大行其道的今天,我们期待着MFC技术能够恢复其曾经的辉煌,或许这个期待会永远成为一种“梦想”,或许一切皆有可能……
        我们希望这个版块可以很好的适配Web时代,期待更好的互联网技术能够使得MFC技术框架得以重现活力,……

试试用AI创作助手写篇文章吧