关于Redshift的优化问题

开心的生鱼片 2018-08-12 09:15:52
我们公司的业务属于Redshift的重度使用者,有4个集群节点来支持10个数据库表。其中有一张大表命名为“click_track”用来记录用户在移动app上的点击操作。这个表会在每个月的第一天做一次删减,以只保留3个月内的数据。由于业务增长迅速,现在这张表会在月中的时候数据量暴涨,达到30亿数据量,并且磁盘空间达到95%的占用率。

基于以上情况,我的问题有两个:
1. 磁盘使用率非常不平均,在其中的两个节点上,使用率为92%,但在另外两个节点上,使用率是45%, 请问如何能够平衡这4个节点的磁盘使用率?

2. 我们每周都在为这张大表做Vacuum维护以释放磁盘空间,但是随着表的size增加,变得很慢。有时候需要12个小时来完成一个动作,并且影响再次期间的更多的写入性能,请问如何可以优化呢?
...全文
6342 1 打赏 收藏 转发到动态 举报
写回复
用AI写文章
1 条回复
切换为时间正序
请发表友善的回复…
发表回复
BriData 2019-03-12
  • 打赏
  • 举报
回复
磁盘分布不均匀通常都是 Distribution Style 设计不完善造成的,很遗憾一旦表设计完成后再更改 Distribution 几乎是不可能的。如果数据量十分大的化,只能优化后再 reset 了。

409

社区成员

发帖
与我相关
我的任务
社区描述
AWS
社区管理员
  • AWS
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧