问下 spark shuffle的时候中间文件是固定写根目录下的tmp文件夹么

-肉松面包- 2017-09-16 04:09:08
有没有办法修改目录 或者放到hdfs
感觉这样太不合理 spark-sql执行数据量点就报错了
...全文
463 3 打赏 收藏 转发到动态 举报
写回复
用AI写文章
3 条回复
切换为时间正序
请发表友善的回复…
发表回复
碧水幽幽泉 2017-09-18
  • 打赏
  • 举报
回复
豆瓣社区:《如何高效学习》:应用与心得

郭琳静_Grace 郭琳静_Grace 2014-09-05 14:07:15
以下文字的关键字是书本提供,后面文字是我边看边应用写的笔记和心得。

第一章主要内容提炼:
- 兴趣:如何自主掌握兴趣?答案是整体学习法。
- 联想:把新知识与已有的经验或者感兴趣的内容搭建联系,帮助理解消化构建知识结构。好的方法有比喻法,内化法以及图像法。
- 应用:这是学习最终目的,同时也是帮助掌握学习内容的最佳途径,时刻提醒自己如何应用这些知识。随着阅读量的增加以及积累,我越来越深的感触是知识从来不是单独存在的,他们是相通的。这个知识点会触发联想到另外一个知识点,越来越多的知识点好像被打开了通道有了联系。例如学习了时间管理,最后发现和理财的原理是一样的。如何以有限的资源优化自身的条件并达到最理想的状态。另外一个例子:跳舞可以让肢体语言更加舒展,运动可以让肢体语言更有力度。肢体语言的舒展和有力度又能帮助演讲时候肢体语言的感染力。

第二章主要内容提炼:整体学习法的操作方法
A)获取知识:
1)快速阅读 - 有以下几个方法可以提供:
- 食指阅读法:用食指滑动内容,滑动速度与阅读速度匹配并且可以调节
- 练习阅读法:限时限量完成阅读量。记录自己的阅读量以及理解能力
- 积极阅读法:梳理知识点,与应用相结合,想想看如何拓展到其他的领域。
- 应用实例:现在是午餐过后的休息时间,我正在学习《如何高效学习》。我给自己设定了一个学习时间段(20分钟),在这段时间里面我学习了如何提高阅读速度,并在此写了笔记。我大概用了8分钟看了5页的内容,并压缩成以上这段文字,还顺便搜了一下书里面提到的其他学习方法书籍并留了档。所以接下去的参考书学习都可以用这种方法阅读和整理知识点。
2)笔记流(练习2个星期)-如何记笔记
- 让观点(重点)流动起来:观点的提炼(关键字,重点的把握) -> 观点之间的联系

B)联系观点 -如何更好的理解观点
1)比喻:
- 首先联系自己熟悉的经验,把知识点与之相联系
- 想想更多的经验,优化比喻,让知识点之间的联系更加牢固(这也是锻炼创造力的很好方法。)
- 检验自己的比喻是否合适:10岁标准法。也就是说把这个知识点说给10岁的小孩听,他能否听懂。听懂了就算成功了,听不懂的话就说明这个比喻还不够好。
- 比喻法的应用同样也非常适合职场,经常会碰到这样一种情况:技术人员如何向非技术人员(HR或者客户)解释专业术语。
2)内在化(练习2个星期)
- 在脑海里建立画面,把感觉(听觉,嗅觉,痛觉,味道)和情感加进去。
- 从此可见:”学神“与”学渣“之间的差距了。我想”学神“的想象力都是极好的,因为一直在段炼想象力,创造力以及具化能力。
3)图表法(练习2个星期)
- 把脑海中的图片可视化
- 3种方法:流程图,概念图,图像。流程图适合处理步骤和时间问题;概念图非常适合处理框架问题;图像适合观点表示等辅助功能。

C)随意信息的处理:
1)联想法(练习1个月)
- 操作方法:信息分类->信息符号化->非常夸张地想象符号之间的联系(回忆触发点)
2)挂钩法(练习2个星期)
- 给数字创造形象
- 适合处理数字信息,但是不要超过12个
- 想想哥伦布发现美洲大陆的年份:1492年
3)信息压缩技术(练习2个星期)
- 记忆压缩法:字母压缩法。利用字母缩写记忆,eg: USA, RED,NASA等
- 图像法:把相关的内容画成图便于自己记忆。
- 笔记法:用尽可能少的字,信息压缩书本内容。

D)知识扩展:
1)实际应用:尽可能多的让自己的知识应用起来。至少给每个学科至少想到5-10个的应用点。我在想能想到运用的点越多,那么潜移默化建立的联系也会越多。
2)模型纠错:通过不断的练习以及纠错,改进自己的学习模型。平时多练习,不要临时抱佛脚。
3)以项目为基础的学习
- 设定1-3个月的时间:Oct-2014~Dec-2014
- 非常明确想要达成的项目成果,项目的成果得要越具体越好。(做好PPT:这个就不好,多好叫好。)
- 目标得要有意义。
- 纪录自己的每天的成果,有利于项目的进展以及总结。

E)整体性学习-费曼技巧:
- 写下自己需要掌握的知识点
- 想象自己是一名老师,给完全不会的小孩讲述这个知识点。
- 讲不下去的点就停下来,去问去研究
- 是自己的讲述简单,利用比喻法

第三部分:超越整体学习
A)能量管理
- 每天至少运动40mins
- 少吃多餐,吃粗纤维和粗加工的食物
- 多喝水。失水会导致最快的能量消耗
- 充足的睡眠,7-8个小时
- 定时专注训练高效完成项目,可与番茄工作法相结合
- 早起学习,晚上不学习,周末休息一天
- 推荐书籍:《精力管理》/《全力以赴》-《The Power of Full Engagement》

B)不要“学习”(Don’t study)
- 真正的“学习”是要有明确的目标和效果的
- 如何取得好成绩:阅读材料;做笔记完成作业;整体性学习攻克难点;考前争对学习材料作一 次笔记流。
- 推荐书籍:《如何在大学里脱颖而出》

C)绝不拖延时间
- 周/日计划:根据月度计划,分割任务到周,再细分到日。
- 每天晚上,检查周计划,列出每日目标清单。

D)批处理
- 此方法适合处理的工作量不大的项目,小于3小时内的工作量
- 本质是:在特定的时间段(eg:90mins)高度集中注意力处理特定的1件事情。
- 推荐阅读:《批处理:节省时间、减轻压力的20个小技巧》

E)有组织
- 精髓是:把平时物件的摆设弄得更加整齐有组织;随身携带笔记本记录和追踪自己的进程;形成做每日清单的习惯。
- 推荐阅读:《Zen To Done》(没找到这个书,google一下这位作者,来头不小哇~)
- Leo Babauta:
- 禅宗的习惯
- Zen To Done(简易做)
- 《少做一点不会死》

第四部分:其他
- 自我教育:把整体学习法运用到生活中。以项目学习法作为基本。

- 建立良好的学习习惯:每日阅读,每日练习,每日目标的完成。不积跬步无以至千里。

- 如何建立良好习惯:
坚持做 一件事情30天
打卡记录并分享自己每天做的成就
找到最适合自己做这件事情的时间段。(我已经养成每个星期看一本书的习惯,每天早晨和晚上是我给自己设定的阅读时间段。)
推荐书籍:《Habitual Mastery》,《How to Change a Habit》

- 克服挫折障碍:
记录有问题的地方。边记录的时候,这种自我询问的方式有的时候思路就被打开了。
求助网络,知乎,百科,Wikipedia,论坛等
工具书,这类书是关于“如何做”,方法等
换个角度试试看。学习其他方面的东西,然后回头看这个困难可能就有其他的思路。
分享自己的学习过程,这点是我觉得非常好的客服困难的方法

- 设定学习目标
把想要完成的目标一一写下来
量化目标,变成每周每日可以完成的小任务。
目标具有一定的难度,完成后要记得奖励自己
定期检查自己的目标完成情况。

- 自我教育的资源
MOOC,Cousera ,MIT OpenCourseWare——网上免费课程。
EHow.com——关于“怎样做”的各种文章。
FreeEd.net——“网上免费教育”。
Portal to Free Online Courses——很多名牌大学在线课程的入口。

第五部分:总结
- 如何开始整体性学习:
分析自己的强项和弱项,弱项的就可以着重练习
根据智力挑战来巩固每个阶段的整体性学习技能;比喻法,内化法和图像法优先
记录自己学习的过程。好记性不如烂笔头。

- 推荐的学习资源
o 高效率的网站:
ScottHYoung.com 我个人的网站,专门讨论高效率、学习方法和习惯养成。
ZenHabits.net 简单就是高效率。
Lifehack.org 最大的高效率网站之一。
PickTheBrain.com 高效率和动机。
StudyHacks 高效率的学生。
StevePavlina.com 个人发展网站。
o 高效率书籍:
Getting Things Done 《尽管去做》
The Power of Full Engagement (能量管理)
Zen To Done (讲述如何做事,强调的是慢慢养成良好的习惯)
How to Be a Straight-A Student & How to Win at College (两本经典之作,帮助你变得高效率,应付各种学习上的挑战,必读之作)
碧水幽幽泉 2017-09-18
  • 打赏
  • 举报
回复
良好心态 + 正确习惯 + 完备知识网络

良好的心态
为了明天成功,愿意付出代价。
这世界上没有什么想要得到的,是不需要付出代价的。
学习本质上是延迟满足。想要明天的成绩,今天就要花足够的时间,付出足够的努力。

正确的习惯
只有方法,没有养成习惯,是没有作用的。人的克制力都是有限的。片面强调努力只会起反作用。
首先,合理调配好学习与休息,做好预习和复习工作。然后,根据适应情况,逐渐增加学习量和学习强度。
能够主动完成学习任务,才算养成好的学习习惯了。

完备的知识网络
每个知识点的学习,都是在知识网络中与周边知识节点的一次连接,形成有效的学习。
通过知识网络不断的自增长,知识网络越来越有条理,越来越有生命力,最终达到触类旁通、融会贯通的程度。
碧水幽幽泉 2017-09-18
  • 打赏
  • 举报
回复
Hive典型表内除重的写法:
insert overwrite table table_name
select t.p_key,t.sort_word
from (select p_key,
sort_word ,
row_number() over(distribute by p_key sort by sort_word) as rn
from store
)t
where t.rn=1;
p_key为除重依据,sort_word 为排序依据,一般为时间, rn为排名。
注意hql方言中,表的嵌套要家别名,字段前加上表别名。
采用hive提供的distribute by 和 sort by, 这样可以充分利用hadoop资源,p_key相同的数据会被送到同一个reducer去处理

20,808

社区成员

发帖
与我相关
我的任务
社区描述
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
社区管理员
  • 分布式计算/Hadoop社区
  • 涤生大数据
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧