有没有比较懂得数据挖掘技术的牛人,求解几个问题

dearzhou520 2012-08-06 10:57:55
做了个商业智能(BI)软件,可是面对大数据量毫无处理能力,目前正在想办法解决这个问题。
说下问题:数据层把要用到的表从数据库里都获取过来,比如说要用到《员工》这张表,那么执行select * from 《员工》,然后呢,这个关系表映射到代码里一个二维的表。自己实现了一个分组算法。当涉及到的表比较多时,这个分组算法就支撑不了了。
个人有个想法:分组算法和一些聚合操作(比如count、sum等等),是数据库能自己实现的,那么数据层就应该生成对应的SQL语句,让数据库去执行分组操作、聚合操作等等。而数据库执行这些操作是经过优化的,一般不需要当心海量数据处理不了的问题。我想知道,其他一些有名的BI工具是不是这么做的。比如说MSTR公司的BI,据说1TB的数据1s中就能出来结果。

还有个点:我看的教科书上,一般的数据预处理,都是要通过BUC等算法建立冰山立方体,然后通过物化后的立方体执行查询、上钻、下钻等操作的,这样子就非常快了。有懂立方体物化的大虾可以交流交流
...全文
12351 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

8,028

社区成员

发帖
与我相关
我的任务
社区描述
高性能数据库开发
社区管理员
  • 高性能数据库开发社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧