社区
数据仓库
帖子详情
想ai抽
2025-10-13 21:05:19
深入starrocks-怎样实现多列联合统计信息
StarRocks v3.5.0引入多列联合统计信息,通过联合基数估计优化多维查询性能。核心功能包括精准NDV计算、优化聚合下推和复杂查询支持,采用全量/抽样采集机制存储在元数据库。应用场景主要覆盖多列JOIN和聚合优化,实测可降低估算误差30%-50%,提升查询速度15%-25%。当前建议优先选择高频查询列组合(不超过3列),配合直方图使用,并配置自动采集任务。未来将扩展相关性分析、联合直方图等功能,进一步增强OLAP场景的优化能力。
%E3%80%90%E6%B7%B1%E5%85%A5starrocks-%E6%80%8E%E6%A0%B7%E5%AE%9E%E7%8E%B0%E5%A4%9A%E5%88%97%E8%81%94%E5%90%88%E7%BB%9F%E8%AE%A1%E4%BF%A1%E6%81%AF%20-%20%20CSDN%20App%E3%80%91https://blog.csdn.net/xiangaichou/article/details/153199645?sharetype=blogdetail&shareId=153199645&sharerefer=APP&sharesource=xiangaichou&sharefrom=link
21
回复
打赏
收藏
深入starrocks-怎样实现多列联合统计信息
大家好,关于实时数据湖starrocks的多列联合统计使用,欢迎讨论。 有没有用过的朋友指导一下
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
Flink+S
tar
Roc
ks
实时
数据分析新范式
01极速数据分析统一 OLAP 分析的趋势,以及 S
tar
Roc
ks
极速查询分析的核心能力。计算机科学里所有难题,都能通过加中间层的方式来解决,但是不能加的东西太多。回想 Hadoop 生态演变的过程,先有了分布式存储,解决了海量数据如何用廉价的设备,来存储的问题。又有 MapReduce 帮助我们慢悠悠的解决了,分布式处理的问题。为了让只会写 SQL 的分析师,能够专注于业务,不用担心 Jav...
一文搞懂数据仓库、数据平台、数据中台、
数据湖
的概念和区别
我们经常听到别人谈论数据仓库、数据平台、数据中台、
数据湖
的相关概念,它们都与数据有关系,但它们之间又有什么区别,下面将围绕数据仓库、数据平台、
数据湖
和数据中台的概念、架构、
使用
场景进行介绍。一、数据仓库1. 数据仓库概念数据仓库由比尔·恩门(Bill Inmon,数据仓库之父)于1990年提出,主要功能是将企业系统联机事务处理(OLTP)长期壁垒的大量数据,通过数据仓库理论支持所持有的数据存储结构...
一文读懂数据仓库、数据平台、数据中台、
数据湖
的概念和区别
我们经常听到别人谈论数据仓库、数据平台、数据中台、
数据湖
的相关概念,它们都与数据有关系,但它们之间又有什么区别,下面我们将围绕数据仓库、数据平台、
数据湖
和数据中台的概念、架构、
使用
场景进行介绍。一、数据仓库数据仓库由比尔·恩门(Bill Inmon,数据仓库之父)于1990年提出,主要功能是将企业系统联机事务处理(OLTP)长期壁垒的大量数据,通过数据仓库理论支持所持有的数据存储结构,做有系统的分析整理。随着企业的发展,业务系统的数据不断激增,这些存储在企业业务数据库中(也就是关系型数据库Oracle,Mi
万字详解:数据架构、数据存储、数仓设计、指标定义,一篇文讲透数据那些事儿
4个指标,同时也需要进一步 规范了洛子任务命名方式,通过所属分层 + 任务说明 + 主题 + 模块 + 最大引用层 + 任务调用脚本, 通过划分主题域 及 分层建设整个数据任务体系达到了划分主题、分层建设,实现了矩阵式数据划分,数据模型可复用的效果,最后达到可全面评估衡量数仓建设质量。例如,"日活跃用户数(DAU)"是一个常见指标,其定义为"在指定日内至少启动一次应用的去重用户数",计算单位为"人",
统计
周期为"日",可能包括的维度有"渠道来源"、"地域"和"操作系统"等。一级指标,用于深入分析问题根源。
数仓架构师必知必会
1.1.1 业务的战略目标或愿景是什么1.1.2 业务线或产品线有哪些1.1.3 梳理各业务场景、业务架构1.1.4 业务现状如何,有哪些业务痛点例如运营方想通过用户标签或产品标签快速圈选目标人群、目标商品,但痛点是取数的链路长、取数效率低。可以从几方面解决:(1)采用数据仓库解决方案——提前与业务方沟通,把所需数据提前准备好,存放在数仓的ADS层(由DIM和DWS加工得到),供业务方自助取数(2)采用湖仓一体解决方案——仓外挂湖,也就是把数据仓库中的表数据与hive、hudi或iceberg中的数据做链接
数据仓库
7,394
社区成员
6,741
社区内容
发帖
与我相关
我的任务
数据仓库
其他数据库开发 数据仓库
复制链接
扫一扫
分享
社区描述
其他数据库开发 数据仓库
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章