hive bucket for parallelism？

博客专家认证

2012-08-02 09:30:10

http://www.slideshare.net/ragho/hive-user-meeting-august-2009-facebook
第8页提到：
buckets： split data base on hash of a column -- mainly for parallelism

此处不解，hive基于hadoop，hadoop本身就会将文件分块，为什么说bucket按列分块主要是为了提高并行度呢？

求教大牛！！

...全文

68 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

业务目的全量离线运算统计，结果写入oracle 问题执行时task数量过多 hive动态分区小文件过多测试环境5运算节点，内存分别为12G，不断发生内存溢出问题逐步调优 1、执行时task数量过多，总数达到了108000个，OMG，每个任务都是内存溢出，因为是用sparksql读hive表，所以spark的spark.default.parallelism强制指定task数并没有用，只...

之前发过如何使用idea连接hive，连接上hive之后肯定是要去使用hive执行一些操作了，这里整理了一些HQL操作。值得注意的是，在我执行hive的时候，有时候会报错[08S01][2] Error while processing statement: FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask。我看了网上的一些说法，说是mr把资源耗尽，具体啥bug我也不想深究，毕竟.

本文为 Flink 1.15 官网中读写 hive 内容的翻译整理。

回顾在上篇文章中，笔者使用的 CDH 版本为 5.16.2，其中 Hive 版本为 1.1.0（CDH 5.x 系列 Hive 版本都不高于 1.1.0，是不是不可理解），Flink 源代码本身对 Hive 1.1.0 版本兼容性不好，存在不少问题。为了兼容目前版本，笔者基于 CDH 5.16.2 环境，对 Flink 代码进行了修改，重新打包并部署。其实经过很多开源项目的实战，比如 Apache Atlas，Apache Spark 等，Hive 1.2.x 和 Hive 1.1.x 在大部分情况下，替换

备注: Hive 版本 2.1.1 文章目录一.Hive explain命令概述二.Hive explain 案例参考: 一.Hive explain命令概述 Hive的explain命令用来看Hive sql的执行计划，通过分析执行计划来达到优化Hive sql的目的。语法: EXPLAIN [EXTENDED|CBO|AST|DEPENDENCY|AUTHORIZATION|LOCKS|VECTORIZATION|ANALYZE] query Hive查询被转换成一个阶段序列(它更像是一个有向非循环

Hadoop生态社区

20,808

社区成员

4,690

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章