spark分析效率比较

extend 2017-09-27 01:25:41

一个800MB的catalina日志，用spark分析和本地分析，性能差距有点大啊
[root@centos1 tmp]# time cat catalina.out |grep "error" -c
92

real 0m11.931s
user 0m0.443s
sys 0m1.590s

同样，用spark做同样的事，居然用了23s，是因为计算量太小，体现不出spark的能力吗？

...全文

541 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

extend 2017-11-15

打赏
举报

回复

自己顶下，=高手

Spark发展到今年，也已经有了十个年头了，在这十年的时间里，Spark在数据分析方面的优势得以显现，成为越来越多的企业的选择。Spark做数据分析，得益于Spark计算框架的优势，也获得了很好的竞争优势。今天我们就来聊聊Spark大数据分析的优势。在Spark出现之前，大数据领域占绝对优势的计算框架，非Hadoop莫属，但是在一段时间的发展之后，我们发现，面对实时流数据的处理需求，Hadoop明显不能满足了。而实时流数据的处理，在大数据发展之下，存在巨大需求的。而Spark正是在这样的背景.

目录1. 通常来说，Spark与MapReduce相比，Spark运行效率更高。请说明效率更高来源于Spark内置的哪些机制？2. hadoop和spark使用场景？3. spark如何保证宕机迅速恢复?4. hadoop和spark的相同点和不同点？5. RDD持久化原理？checkpoint检查点机制？7. checkpoint和持久化机制的区别？RDD机制理解吗？9. Spark streaming以及基本工作原理？10. DStream以及基本工作原理？11. spark有哪些组件？12. spar

【Spark2运算效率】第一节影响生产集群运算效率的原因之概述前言问题概述调整办法结语跳转前言面对复杂的业务问题，以及日益增多的需求，我们开发的脚本也越来越多，集群承载的计算量也越来越大，为了方便管理，很多企业引进或者自研出了适配的调度系统。本节的调优办法要根据自身公司调度系统的特点，进行分析后再做出相应的调试（调优一方面追求单个作业的高效性，也要使得整体作业批次的执行时长被压缩，本节是从...

第一节影响分布式集群运算效率的原因1.1、引言1.2、影响分布式集群运算效率的原因1.2.1、集群设置；1.2.2、缺乏资源；1.2.3、数据倾斜；1.2.4、小文件过多；1.3、结语 1.1、引言 Spark，一种基于内存的分布式运算框架，其内部进行任务划分，实现了高效的DAG执行引擎，可以通过基于内存来高效地处理数据流。就一般而言，Spark用于实现ETL调度job执行流程如图所示： 1....

大数据技术正飞速地发展着，催生出一代又一代快速便捷的大数据处理引擎，无论是Hadoop、Storm，还是后来的Spark、Flink。然而，毕竟没有哪一个框架可以完全支持所有的应用场景，也就说明不可能有任何一个框架可以完全取代另一个。今天，大圣众包威客平台（www.dashengzb.cn）将从几个项出发着重对比Spark与Flink这两个大数据处理引擎，探讨其两者的区别。　　一、Spark与Fl...

1,261

社区成员

1,169

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章