请问一个关于Spark的问题

qq_38169874 2017-04-25 03:48:55
话说哥们我昨天面试了上海一家知名公司,面的是大数据开发工程师这一岗位。由于我之前一直做spark多一些,就着重说了spark。期间面试小哥问我spark里面要用到哪些技术,我到现在都没有弄明白他什么意思,我好歹也做了快两年的spark项目了,对此竟然无言以对,我实在是不知道能用到什么技术,还能说用到了jion操作,广播变量,还是说二次排序,Accumulator。难道还要说sparkStreaming里的updateStateByKeyAndWindow?
这些能算是什么技术吗?都是最常规的东西啊????
求求哪位大神能给我解答,我都纠结一天了!!!!!!!!!!!!!!!!
...全文
574 3 打赏 收藏 转发到动态 举报
写回复
用AI写文章
3 条回复
切换为时间正序
请发表友善的回复…
发表回复
shiter 2017-05-31
  • 打赏
  • 举报
回复
这里面名词真多,随便拉出来一个扯半天
qq_38169874 2017-04-25
  • 打赏
  • 举报
回复
哈哈,哥们这个我也想过,当时我还想他是不是专职做Java的,按Java面试方法面试呢。 我当时也是被那位小哥的不专业给震惊了,都不想回答了。想想这样的公司再大,能学到什么呀?就跟他说:‘这可怎么说啊’ 只是过后,有点耿耿于怀,是不是自己两年的Spark项目白做了……
LinkSe7en 2017-04-25
  • 打赏
  • 举报
回复
要我回答,就说,是指开发Spark的技术,还是Spark开发的技术(先绕晕他)。如果是前者,那最核心的就是DAG作业模型,内存计算的核心tachyon、效率优化的WSCG整段代码生成等等。后者就是SQL、类Java8流式集合运算、流处理、窗口处理、图计算、机器学习,配合使用的的有Hadoop的HDFS和Yarn、HBase、Hive、Kafka、Redis等等。慢慢扯

20,808

社区成员

发帖
与我相关
我的任务
社区描述
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
社区管理员
  • 分布式计算/Hadoop社区
  • 涤生大数据
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧