请问一个关于Spark的问题

qq_38169874 2017-04-25 03:48:55

话说哥们我昨天面试了上海一家知名公司，面的是大数据开发工程师这一岗位。由于我之前一直做spark多一些，就着重说了spark。期间面试小哥问我spark里面要用到哪些技术，我到现在都没有弄明白他什么意思，我好歹也做了快两年的spark项目了，对此竟然无言以对，我实在是不知道能用到什么技术，还能说用到了jion操作，广播变量，还是说二次排序，Accumulator。难道还要说sparkStreaming里的updateStateByKeyAndWindow？
这些能算是什么技术吗？都是最常规的东西啊？？？？
求求哪位大神能给我解答，我都纠结一天了！！！！！！！！！！！！！！！！

...全文

574 3 打赏收藏转发到动态举报

写回复

用AI写文章

3 条回复

切换为时间正序

请发表友善的回复…

发表回复

shiter 2017-05-31

打赏
举报

这里面名词真多，随便拉出来一个扯半天

qq_38169874 2017-04-25

打赏
举报

哈哈，哥们这个我也想过，当时我还想他是不是专职做Java的，按Java面试方法面试呢。我当时也是被那位小哥的不专业给震惊了，都不想回答了。想想这样的公司再大，能学到什么呀？就跟他说：‘这可怎么说啊’ 只是过后，有点耿耿于怀，是不是自己两年的Spark项目白做了……

LinkSe7en 2017-04-25

打赏
举报

要我回答，就说，是指开发Spark的技术，还是Spark开发的技术（先绕晕他）。如果是前者，那最核心的就是DAG作业模型，内存计算的核心tachyon、效率优化的WSCG整段代码生成等等。后者就是SQL、类Java8流式集合运算、流处理、窗口处理、图计算、机器学习，配合使用的的有Hadoop的HDFS和Yarn、HBase、Hive、Kafka、Redis等等。慢慢扯

【spark论文翻译】An Architecture for Fast and General Data Processing on Large Cluster 大型集群上的快速和通用数据处理架构。CSDN CODE翻译社区出品。之前上传的版本图表有问题，这版已经修复。请更新谢谢。