使用R语言求核密度,要求编写成map,reduce在hadoop上计算

qq_16467569 2017-04-29 09:16:37
8列数据,其中第3,4,5列数据是x,y,z对应的值就像这样使用r语言来计算其核密度图的时候直接ggplot,geom_point(),stat_density2d,这三个函数就可以了,但是对于大量的数据计算非常慢,因此计划使用Hadoop用几台机器一起计算,其mapreduce怎么编写?
...全文
392 1 打赏 收藏 转发到动态 举报
写回复
用AI写文章
1 条回复
切换为时间正序
请发表友善的回复…
发表回复
青松2 2017-05-03
  • 打赏
  • 举报
回复
用spark
大数据与Hadoop 作者:朱立 来源:《中国科技纵横》2016年第02期 【摘 要】大数据技术正在向各行各业渗透。Hadoop作为数据分布式处理系统的典型代表,已 经成为该领域事实的标准。但Hadoop并不等于大数据,它只是一个成功的处理离线数据 的分布式系统,大数据领域还存在众多其他类型的处理系统。所以,Hadoop代替不了大 数据的全部,但Hadoop是大数据时代的优秀代表。 【关键词】大数据 Hadoop 分布式处理系统 随着信息化技术的日渐普及、宽带网络的快速兴起,以及云计算、移动互联和 物联网等新一代信息技术的广泛应用,全球数据的增长速度进一步加快。与此同时,一 批数据收集、存储、处理技术和应用快速发展并逐渐汇聚。软件运用的技术越来越尖端 ,结合不断提高的计算能力,从数据中提取有价值信息的能力显著提高。大体量的数据 不再是无序而又没有价值的,大数据诞生了。 1认识大数据 所谓大数据,就是从各种类型的数据中,快速获得有价值信息的能力。大数据 是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和 多样化的信息资产。它是对那些超出正常处理范围和大小、迫使用户采用非传统处理方 法的数据集所下的定义。 区别于过去的海量数据,大数据的特点可以概况为4个V:Volume、Variety、V alue和Velocity,即大量、多样、价值密度低、快速。 第一,数据体量大。大数据一般指在10TB(1TB=1024GB)规模以上的数据量, 目前正在跃升到PB(1PB=1024TB)级别。不仅存储量大,计算量也大。 第二,数据类型多。除了数值数据,还有文字、声音、视频等,包括网络日志 、视频、图片、地理位置信息等多种类型的格式。由于数据来自多种数据源,数据种类 和格式日渐丰富,已冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化 数据。 第三,价值密度低。以视频为例,不间断监控视频中,有价值的数据可能仅有 一两秒。找到有价值的信息有如沙里淘金,其价值却又弥足珍贵。 第四,处理速度快。在数据量非常庞大的情况下,也能做到数据的实时处理。 这一点和传统的数据挖掘技术有着本质的不同。 大数据技术是指从各种类型的大体量数据中快速获得有价值信息的技术。这是 大数据的核心问题。目前所说的大数据不仅指数据本身的规模,也包括采集数据的工具 、平台和数据分析系统。大数据研发的目的是发展大数据技术并将其应用到相关领域, 通过解决大体量数据处理问题促进其突破性发展。因此,大数据时代带来的挑战不仅体 现在如何处理大体量数据并从中获取有价值的信息,也体现在如何加强大数据技术研发 。大数据所涉及的关键技术大致包括6个方面:数据采集与数据管理、分布式存储和并行 计算、大数据应用开发、数据分析与挖掘、大数据前端应用、数据服务和展现。 2大数据与Hadoop 伴随大数据技术的普及,Hadoop因其开源的特点和卓越的性能成为一时的新宠 ,甚至有人认为大数据就是Hadoop,其实这是一个误区。Hadoop只是处理离线数据的分 布式存储和处理系统。除了Hadoop,还有用于处理流数据的Storm、处理关系型数据的O racle、处理实时机器数据的Splunk……目前主流的大数据系统很多,Hadoop只是其中的代 表。 2.1 Hadoop的核心模块 Hadoop Common:Hadoop的公用应用模块,是整个Hadoop项目的核心,为Hadoop各子项目提供各 种工具,如配置文件和日志操作等,其他Hadoop子项目都是在此基础上发展起来的。 Hadoop Distributed File System(HDFS):Hadoop分布式文件系统,提供高吞吐量应用程序数据访问,并具有高 容错性。对外部客户机而言,HDFS就像一个传统的分级文件系统,可以进行增删改查或 重命名等常规文件操作。但实际上HDFS中的文件被分成块,然后复制到多个计算机中, 这与传统的RAID架构大不相同。HDFS特别适合需要一次写入、多次读取的超大规模数据 集的应用程序。 Hadoop YARN:一个作业调度和群集资源管理框架。 Hadoop MapReduce:基于YARN的大型数据分布式并行编程模式和程序执行框架,是Google的Map Reduce的开源实现。它帮助用户编写处理大型数据集的并行运行程序。MapReduce隐藏了 分布式并行编程的底层细节,开发人员只需编写业务逻辑代码,而无需考虑程序并行执 行的细节,从而大大提高了开发效率。 Apache的其他与Hadoop相关的项目还有很多。 2.2 Hadoop的特点 作为分布式计算领域的典型代表,Hadoop比其他分布式框架有更多的优点。 可扩展性:Hadoop可以在不停止集群服务的情况下,在可用的计算机集簇间分 配
⼤数据的基础知识 1、⼤数据的基础知识 ⼤数据的概念 ⼤数据(big data),IT⾏业术语,是指⽆法在⼀定时间范围内⽤常规软件⼯具进⾏捕捉、管理和处理的数据集合,是需要新处理模式才能 具有更强的决策⼒、洞察发现⼒和流程优化能⼒的海量、⾼增长率和多样化的信息资产。 在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《⼤数据时代》中⼤数据指不⽤随机分析法(抽样调查)这样捷径,⽽采⽤所有数据进 ⾏分析处理。⼤数据的5V特点(IBM提出):Volume(⼤量)、Velocity(⾼速)、Variety(多样)、Value(低价值密度)、 Veracity(真实性)。 ⼤数据主要解决了什么问题? 序号 序号 解决的问题 解决的问题 产⽣的产品 产⽣的产品 1 海量数据的存储 HDFS (Hadoop Distributed System hadoop分布式⽂件系统) 2 海量数据的分析计算 MapReduce 3 统⼀资源管理调度 YARN ⼤数据的特点 序号 序号 特点 特点 描述 描述 1 Volume(⼤量) 数据量越来越⼤ 2 Velocity(⾼速) 数据量增长越来越快 3 Variety(多样) 数据的结构多种多样 4 Value(多样) 价值密度的⾼低与数据总量⼤⼩成反⽐ ⼤数据应⽤场景 1、物流仓储 2、零售 3、旅游 4、推荐 5、保险 6、⾦融 7、房地产 8、⼈⼯智能 ⼤数据部门组织结构 2、hadoop hadoop是什么? Hadoop是⼀个由Apache基⾦会所开发的分布式系统基础架构。⽤户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利⽤ 集群的威⼒进⾏⾼速运算和存储。Hadoop实现了⼀个分布式⽂件系统(Hadoop Distributed File System),简称HDFS。HDFS有⾼容 错性的特点,并且设计⽤来部署在低廉的(low-cost)硬件上;⽽且它提供⾼吞吐量(high throughput)来访问应⽤程序的数据,适合那 些有着超⼤数据集(large data set)的应⽤程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)⽂ 件系统中的数据。Hadoop的框架最核⼼的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,⽽MapReduce则为海量的 数据提供了计算hadoop组成 hadoop1.x和2.x的区别 HDFS YARN MapReduce Map阶段并⾏处理数据 Reduce阶段对Map处理数据的结构进⾏汇总 ⼤数据体系 名词解释 序 序 号 号 名称 名称 描述 描述 1 Sqoop Sqoop是⼀款开源的⼯具,主要⽤于在Hadoop、Hive与传统的数据库(MySql)间进⾏数据的传递,可以将⼀个关系型数据库(例如 : MySQL,Oracle 等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。 2 Flume Flume是Cloudera提供的⼀个⾼可⽤的,⾼可靠的,分布式的海量⽇志采集、聚合和传输的系统,Flume⽀持在⽇志系统中定制各类数 据发送⽅,⽤于收集数据;同时,Flume提供对数据进⾏简单处理,并写到各种数据接受⽅(可定制)的能⼒。 3 Kafka Kafka是⼀种⾼吞吐量的分布式发布订阅消息系统,有如下特性:1.通过磁盘数据结构提供消息的持久化,这种结构对于即使数以TB的 消息存储也能够保持长时间的稳定性能。2.⾼吞吐量:即使是⾮常普通的硬件Kafka也可以⽀持每秒数百万的消息。3.⽀持通过Kafka服 务器和消费机集群来分区消息。4.⽀持Hadoop并⾏数据加载。 4 Storm Storm⽤于"连续计算",对数据流做连续查询,在计算时就将结果以流的形式输出给⽤户。 5 Spark Spark是当前最流⾏的开源⼤数据内存计算框架。可以基于Hadoop上存储的⼤数据进⾏计算。 6 Oozie Oozie是⼀个管理Hadoop作业(job)的⼯作流程调度管理系统。 7 Hbase HBase是⼀个分布式的、⾯向列的开源数据库。HBase不同于⼀般的关系数据库,它是⼀个适合于⾮结构化数据存储的数据库。 8 Hive Hive是基于Hadoop的⼀个数据仓库⼯具,可以将结构化的数据⽂件映射为⼀张数据库表,并提供简单的SQL查询功能,可以将SQL语 句转换为MapReduce任务进⾏运⾏。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的 MapReduce应⽤,⼗分适合数据仓库的统计分析。 9 R语⾔ R是⽤于统计分析、绘图的语⾔和操作环境。R是属于GNU系统的⼀个⾃由、免费、源代码开放的

20,808

社区成员

发帖
与我相关
我的任务
社区描述
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
社区管理员
  • 分布式计算/Hadoop社区
  • 涤生大数据
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧