十一来了要做分享，有没有什么推荐的（分不够可以加）

-一个大坑 2017-09-18 10:23:02

上次分享数据还原（timestamp），内容太少了，几分钟就讲完了，贼尴尬
比如无sql数据库或者其它前沿点的

...全文

564 8 打赏收藏转发到动态举报

写回复

用AI写文章

8 条回复

切换为时间正序

请发表友善的回复…

发表回复

-一个大坑 2017-09-18

打赏
举报

引用 5 楼 qq646748739 的回复:

全局排序: order by select * from table_name order by col_name desc; HADOOP上进行order by全排序，会导致所有的数据集中在一台reducer节点上，然后进行排序，这样很可能会超过单个节点的磁盘和内存存储能力导致任务失败。局部排序: distribute by + sort by 被distribute by设定的字段为KEY，数据会被HASH分发到不同的reducer机器上，然后sort by会对同一个reducer机器上的每组数据进行局部排序。 cluster by的功能就是distribute by和sort by相结合 select * from table_name distribute by col_name sort by col_name <=> select * from table_name cluster by col_name hive中order by、distribute by、sort by和cluster by的区别和联系 http://blog.csdn.net/qq_20641565/article/details/52780515

优化是个很不错的方向，我先看看，谢谢

-一个大坑 2017-09-18

打赏
举报

引用 2 楼 wmxcn2000 的回复:

同给同事们分享吗？分区表是个不错的课题；

是的，一般都是分享自己管的系统流程，但是我不想分享那个，我想分享技术方面的。分区表能不能贴几个例子看看

-一个大坑 2017-09-18

打赏
举报

引用 3 楼 minsic78 的回复:

现在不是流行AI吗

数据库也有ai概念吗

碧水幽幽泉 2017-09-18

打赏
举报

全局排序: order by
select * from table_name order by col_name desc;
HADOOP上进行order by全排序，会导致所有的数据集中在一台reducer节点上，然后进行排序，这样很可能会超过单个节点的磁盘和内存存储能力导致任务失败。
局部排序: distribute by + sort by
被distribute by设定的字段为KEY，数据会被HASH分发到不同的reducer机器上，然后sort by会对同一个reducer机器上的每组数据进行局部排序。
cluster by的功能就是distribute by和sort by相结合
select * from table_name distribute by col_name sort by col_name <=> select * from table_name cluster by col_name

hive中order by、distribute by、sort by和cluster by的区别和联系
http://blog.csdn.net/qq_20641565/article/details/52780515

碧水幽幽泉 2017-09-18