大数据能否解决我大量数据快速查询的问题

yikewl 2018-08-01 10:05:37
开始没设计好,我订单分为4个千万级数据表关联(oracle),当一个客户进来后,我要列出他所有的订单,这样4个大表关联,贼贼慢,我就在想前些年不是一直在喊大数据吗,大数据怎么来解决这个问题呢。

实时性很高,速度也要求很快
...全文
1462 17 打赏 收藏 转发到动态 举报
写回复
用AI写文章
17 条回复
切换为时间正序
请发表友善的回复…
发表回复
BigBangBug 2019-01-17
  • 打赏
  • 举报
回复
需求要先搞清楚,通常列出“所有”订单并不是完全所有,因为一个屏幕也装不下啊,都是分页的。像普通电商公司一般采用mysql分下库,单个库中的每个表一般最多3kw~5kw,对查询都是毫秒级出结果的。4个表join这个优化一下关系型数据库完全没问题,你这点数据量其实是很少的,分下库就每个表只有几百万,没必要用spark、hadoop这些重武器,而且可以告诉你的这种应用一点也快不起来,成本还很高。
deepthinkers 2018-12-18
  • 打赏
  • 举报
回复
我虽然是个刚入门的,我也给点思路,我建议你使用solr加 hbase 加spark。把关联数据利用spark计算结果存入hbase,用solr做全字段索引,再访问solr去查。和1楼思路差不多。速度是比较快的,至于四表关联的优化有很多,spark这边可以做。对于增量更新的问题,可以放在solr里面做,如果有删除标志位和时间戳,可以自动实现增量更新的。一点点拙见

lsignsjisfsf 2018-11-21
  • 打赏
  • 举报
回复
1.从业务角度考虑,实时调取历史订单,是不是可以区分 动态变化的订单 + 历史不变的订单。 2. 如果可以区分开,对于动态变化的订单 可以采用oracle 查询。对于 历史不变的订单 可以建立宽表,spark streaming 实时计算获得结果,存储到hbase,供前端查询。
yikewl 2018-11-16
  • 打赏
  • 举报
回复
引用 12 楼 sp1234 的回复:
大数据是两个方面的意思:1是非常“大”的离散数据,比如说几百亿记录分布在几千台机器上,如何把几千个表当作一个表来写查询语句。2是一堆数学统计软件包,用来做最基本的所谓神经病网络分类算法,用了大数据这个时髦词儿。对于1来说,从来也没有说它比单机处理的速度更快。人家是根本不可能单机,所以才分为几千台机器上进行存储的。

于是就回到了你的后边提出的问题。你在数据库中搞什么“触发器”来将数据写到缓存,这是本末倒置了。缓存数据应该是第一位的、不落地的。数据即使还没有保存到数据库中备份之前,就应该落在缓存里了。而且数据库操作可以是异步的,不需要阻塞真正的业务操作,特别是不应该去让许多线程收到什么数据库事务锁的垃圾限制,因此把缓存操作当作数据库表的触发器的结果是完全是本末倒置了。


仔细看了您的回复,感觉很有道理,但是又想不出一个方案,请指导一下,帮我指个小一点的方向,谢谢
  • 打赏
  • 举报
回复
满脑子只有关系数据库增上改查的时候,才会什么技术都往数据库表、触发器上去联系。
  • 打赏
  • 举报
回复
大数据是两个方面的意思:1是非常“大”的离散数据,比如说几百亿记录分布在几千台机器上,如何把几千个表当作一个表来写查询语句。2是一堆数学统计软件包,用来做最基本的所谓神经病网络分类算法,用了大数据这个时髦词儿。对于1来说,从来也没有说它比单机处理的速度更快。人家是根本不可能单机,所以才分为几千台机器上进行存储的。 于是就回到了你的后边提出的问题。你在数据库中搞什么“触发器”来将数据写到缓存,这是本末倒置了。缓存数据应该是第一位的、不落地的。数据即使还没有保存到数据库中备份之前,就应该落在缓存里了。而且数据库操作可以是异步的,不需要阻塞真正的业务操作,特别是不应该去让许多线程收到什么数据库事务锁的垃圾限制,因此把缓存操作当作数据库表的触发器的结果是完全是本末倒置了。
小大飞 2018-11-08
  • 打赏
  • 举报
回复
建个宽表,包含四个表的所有字段,不要主键。写个定时任务,把表中新增的数据,不断的刷到宽表中。然后查询时直接查宽表。 查宽表还慢,把宽表放到Mongo中,直接通过Mongo查询?
LinkSe7en 2018-10-30
  • 打赏
  • 举报
回复
引用 8 楼 yikewl 的回复:
讲下我目前解决思路,感觉好low. 逻辑库中创建一个表,包含经常要查询的字段。通过触发器记录这4个表的新增和修改,每秒刷到这个大表中,通过这种方式来避免多表联合查询。但是带来了性能损失,看起来好low.就想了解下,如何利用大数据知识去解决这类问题。
没有完美的解决方案,所有听起来高大上的东西,原理都很low。 只有符合现阶段需求和拓展预期的最佳实践。 建议从分布式的几大原则入手学习。例如CAP理论,分布式一致性算法(Raft等),BASE理论。 多学习现有的分布式数据库(NoSQL的HBase,Mongo,OLTP的RDB集群,HTAP的如TiDB),以及数据的分治算法,MapReduce思想,一致性哈希等等。
小大飞 2018-10-29
  • 打赏
  • 举报
回复
能把数据放到内存中查吗?
yikewl 2018-10-26
  • 打赏
  • 举报
回复
讲下我目前解决思路,感觉好low.

逻辑库中创建一个表,包含经常要查询的字段。通过触发器记录这4个表的新增和修改,每秒刷到这个大表中,通过这种方式来避免多表联合查询。但是带来了性能损失,看起来好low.就想了解下,如何利用大数据知识去解决这类问题。
yikewl 2018-10-26
  • 打赏
  • 举报
回复
引用 5 楼 cocoa2003 的回复:
建议考虑建立宽表,在kudu中,通过sparkJobServer发布rest接口,做实时查询。前提要求机器配置也比较高,最少8台256G内存的机器集群
我的实时订单能进去么
yikewl 2018-10-26
  • 打赏
  • 举报
回复
我继续补充下我的问题,开始没讲清楚,不好意思。

首先这个表是订单表,意味着插入很频繁。其次历史数据意义重大,我上面的需求是需要把符合条件的3年的数据查出来。

就想问大数据方面能否做到这么实时,有我直接从oracle查出来实时么。
cocoa2003 2018-08-27
  • 打赏
  • 举报
回复
建议考虑建立宽表,在kudu中,通过sparkJobServer发布rest接口,做实时查询。前提要求机器配置也比较高,最少8台256G内存的机器集群
野男孩 2018-08-27
  • 打赏
  • 举报
回复
4个千万级表做级联能满足你实时计算,实时查询?

楼上的答案是一般的大数据解决方案,hbase宽表存数据,es做索引。
查询如果比较单一的话,可以直接设计好hbase的表的rowkey,查询起来比ES快。
shiter 熟练 2018-08-06
  • 打赏
  • 举报
回复
大数据可能应该这么做,把四个关联好的做成一个宽表 放到hbase 或者什么的地方,索引放在es里面,这样应该也可以秒级响应
LinkSe7en 2018-08-02
  • 打赏
  • 举报
回复
你这问得太笼统了。大数据意味着分布式,即分布式存储和计算。4个kw级表join,还要快速响应,那首先问题是准备好多少台什么配置的节点。。。然后才是数据如何分布式治理和采用什么计算框架的问题了。。。
信息技术与安全 Information Technology And Security 电子技术与软件工程 Electronic Technology & Software Engineering 数据环境下的数据安全 文/吴刚 (国家移民管理局信息科技司 北京市100741 ) 摘 要:本文首先对数据的扌既念、特点进行了讨论,列举了若干数据环境下存在的问题问题产生的影响因素,最后又总结了一 些关于问题解决措施,以期能够更好的保障数据环境下数据的安全性。 关键词:数据;环境;数据;安全;研究 1数据的概念及特点 所谓数据,简单来讲就是指由庞大规模数据信息量共同组成 的一种集合体,数据是对其的统称,并且数据的形成有一定的 前提条件,即数据信息量较大,且无法在合理时间内釆用主流工具 对这些数据进行收集处理 。换句话来说,数据就是一种囊括了 大量形式多样数据的庞数据集合。下面笔者就根据其概念,总结 了数据的几个主要特点: 1. 1数据量大 数据数据信息来源渠道众多,拥有庞大的资料数量,数据 的产生无时无刻不在进行着,无数的数据产生再加上数据级别的不 断提升,让数据数据量每天都呈几何式的增长势态。其中,在 级别PB的级别评价中,又以统计数据最高。 1.2形式多样 数据数据类型繁多,体现出了极强的形式多样性。在信息 技术不断完善的今天,数据中的数据类型在不断增加的同时,也 呈现出了较强的非结构化特点,尤其是音视频数据和图片数据的出 现,大大增加了数据数据类型。有调查统计显示,在当前的大 数据构成中,有八成以上的数据量是由非结构化数据构成的。 1. 3价值密度低 数据运行中产生的信息并不是无用的,无时无刻不在产生的 数据信息中含有大量有价值信息,并且这些信息都在一定程度上直 接或间接的作用在了人们的日常生活和生产上,给人们的生活和生 产活动带来了巨大便利 。但是,过于庞大的数据信息量也会产生 一定弊端,即数据价值密度较低,往往统计回来的数据量十分庞大, 但是具有实际价值和意义的数据信息却少之又少。 2数据环境下存在的问题 通过分析数据的概念及特点,再结合数据运营的实际情况 来看,笔者认为在数据运行过程中较为突出的数据安全问题主要 有以下几点: 2. 1可表示问题 数据环境下,受非结构化数据增长速度快、形成规模巨大且 数据类型繁杂等因素的影响,越来越多的数据需求形式被广数据 用户反映了出来,且这种需求形式的多样性仍然处于不断发展的态 势当中。然而,数据环境下数据的规模虽然一直在不断扩大,但 是实际的数据运行效率却远远跟不上数据规模的扩张速度。这种情 况下,如何快速、高效的表示这些复杂而又庞大的而非机构化数据, 成为了数据环境下主要的数据安全问题之一。 2.2可靠性问题 数据环境是在网络开放性及共享程度都相对较高的信息化时 代产生的,这一新型的、规模巨大的网络环境正逐渐影响着世界范 围内的计算机数据发展,同时也对计算机数据的安全性和可靠性提 岀了更加严格的要求。数据环境下,无论是收集环节还是发布环 节,数据运行的各方面效率都较以往发生了较大改观,在效率提升 的同时也变得更加灵活多样,然而数据的收集和发布环节中难免会 出现一些不确定因素,影响着数据的真实性和可靠性,导致失真数 据掺杂在数据当中,这对于网络环境高度开放的今天而言无疑是 影响巨大的 。这种情况下,如何有效提高数据的可靠性成为了大 数据环境下主要的数据安全问题之一。 2. 3可处理问题 数据的可处理问题,也是当前数据环境下主要的数据安全问 题之一。信息技术不断成熟的今天,网络环境中的数据信息每分每 秒都在进行着收集与发布,这使得数据环境中形成了规模惊人的 数据信息量 。然而,目前用以数据分析和处理的主流工具仍是以 水文计算机为主,面对如此庞大的数据信息规模,水文计算机的处 理能力就捉襟见肘了。因此,数据环境下的数据分析工作中,为 了更好的研究、探索出数据信息的规律性,提高数据的可处理能力, 我们亟须找到更加先进、高效的数据分析手段,不断研发出更加科 学、有效的计算方式。 3数据环境下影响数据安全的因素 3.1自然灾害 大自然的力量是无穷的,并且这种自然力量也会对数据环境 下的数据安全造成一定影响,如台风、龙卷风、火灾、地震、洪涝 灾害以及飓风等自然灾害的出现,均有可能直接或间接的造成一些 数据安全问题。信息技术不断成熟的今天,世界各地的人们无论是 在生活上还是在生产上,都会或多或少的运用到计算机网络,网络 对人们的影响意义重大。人们在生活和生产活动中对于网络计算机 的使用均会产生各式各样的数据信息,而服务器则是负责数据信息 的存储和实时交互工作 。数据环境下,数据的运行过程中一旦 受到自然灾害的影响,如
课程简介:  本项目课程是一门极具综合性和完整性的大型项目课程;课程项目的业务背景源自各类互联网公司对海量用户浏览行为数据和业务数据分析的需求及企业数据管理、数据运营需求。 本课程项目涵盖数据采集与预处理、数据仓库体系建设、用户画像系统建设、数据治理(元数据管理、数据质量管理)、任务调度系统、数据服务层建设、OLAP即席分析系统建设等大量模块,力求原汁原味重现一个完备的企业级大型数据运营系统。  拒绝demo,拒绝宏观抽象,拒绝只讲不练,本课程高度揉和理论与实战,并兼顾各层次的学员,真正从0开始,循序渐进,每一个步骤每一个环节,都会带领学员从需求分析开始,到逻辑设计,最后落实到每一行代码,所有流程都采用企业级解决方案,并手把手带领学员一一实现,拒绝复制粘贴,拒绝demo化的实现。并且会穿插大量的原创图解,来帮助学员理解复杂逻辑,掌握关键流程,熟悉核心架构。   跟随项目课程,历经接近100+小时的时间,从需求分析开始,到数据埋点采集,到预处理程序代码编写,到数仓体系搭建......逐渐展开整个项目的宏大视图,构建起整个项目的摩天大厦。  由于本课程不光讲解项目的实现,还会在实现过程中反复揉和各种技术细节,各种设计思想,各种最佳实践思维,学完本项目并勤于实践的话,学员的收获将远远超越一个项目的具体实现,更能对大型数据系统开发产生深刻体悟,对很多技术的应用将感觉豁然开朗,并带来融会贯通能力的巨大飞跃。当然,最直接的收获是,学完本课程,你将很容易就拿到数据数仓建设或用户画像建设等岗位的OFFER课程模块: 1. 数据采集:涉及到埋点日志flume采集系统,sqoop业务数据抽取系统等; 2. 数据预处理:涉及到各类字典数据构建,复杂结构数据清洗解析,数据集成,数据修正,以及多渠道数据的用户身份标识打通:ID-MAPPING等;3. 数据仓库:涉及到hive数仓基础设施搭建,数仓分层体系设计,数仓分析主题设计,多维分析实现,ETL任务脚本开发,ETL任务调度,数据生命周期管理等;4. 数据治理:涉及数据资产查询管理,数据质量监控管理,atlas元数据管理系统,atlas数据血缘管理等;5. 用户画像系统:涉及画像标签体系设计,标签体系层级关系设计,各类标签计算实现,兴趣类标签的衰减合并,模型标签的机器学习算法应用及特征提取、模型训练等;6. OLAP即席分析平台:涉及OLAP平台的整体架构设计,技术选型,底层存储实现,Presto查询引擎搭建,数据服务接口开发等;7. 数据服务:涉及数据服务的整体设计理念,架构搭建,各类数据访问需求的restapi开发等;课程所涉及的技术: 整个项目课程中,将涉及到一个大型数据系统中所用到的几乎所有主要技术,具体来说,包含但不限于如下技术组件:l Hadoopl Hivel HBasel SparkCore /SparkSQL/ Spark GRAPHX / Spark Mllibl Sqoopl Azkabanl Flumel lasal Kafkal Zookeeperl Solrl Prestop
数据安全管理促进数据安全共享 作者:江欣 来源:《科技资讯》2018年第23期 摘 要:随着互联网+、云计算、移动互联网等新技术兴起,数据获得了前所未有的爆炸式增 长,数据时代已经来临。数据技术创新应用,使我们具备了对海量数据的处理和分 析能力,但与此同时,伴随数据汇聚、数据分析而来的安全问题也给我们带来前所未有 的挑战。组织应以发展和安全并行为目标,提出数据安全管理对策,加强数据安全 分级管理,构建数据安全管理体系,推动数据的安全共享。 关键词:数据 数据安全 分级管理 数据安全管理体系 中图分类号:TP311.13 文献标识码:A 文章编号:1672- 3791(2018)08(b)-0012-02 数据是国家基础性、重要的战略资源,被称为"21世纪的钻石矿"。数据时 代,数据在互联网和社交领域,以及医疗卫生、健康、金融等各行各业爆炸式增长, 对国家决策、经济运行、生活方式以及社会各领域均产生重要的影响,数据成为高价 值的资产。 数据如同一把双刃剑,在带来许多便利的同时,也产生了前所未有的安全隐 患。数据安全是发展数据的前提,在数据应用推广过程中,要坚持安全与发展并 重的方针,在充分发挥数据价值的同时,解决面临的数据安全问题,构建数据安 全管理体系,推动数据的安全共享。 1 数据安全的重要意义 数据对国家、企业、个人具有重要的作用,具有很高的研究价值,但人们在 追逐数据价值的同时,也引发了诸如个人隐私安全、企业信息安全、国家安全的问题。 在个体层面,随着科技的进步带来的互联网、移动互联网的快速发展,人们的 生活被深深地打上了数字化的印记。数据存在于人们生活中的每个角落,各种大量的 个人信息数据产生。随着移动互联网的全面普及,社交网络也成为黑客攻击和网络犯罪 的新途径,云应用的普及大大增加了用户信息泄露的风险,移动支付安全和移动终端漏 洞成为安全新课题。 在企业层面,数据引擎可以帮助和指导企业对业务流程进行有效运营,是企 业实现创新发展的核心驱动力,成为企业最重要的载体,日益取代人才成为企业的核心 竞争力。然而,数据时代的企业安全也面临着内部管理和外部攻击的新型挑战。这些 数据在显现出不可估量商业价值的同时,也存在巨大的安全隐患,影响到企业安全市场 的格局。 在国家层面,在信息时代,国家安全的含义发生了质的变化。即使在和平年代 ,一个国家的各种信息设施、重要机构也可以成为攻击目标。石油、天然气、水、电、 交通、金融、商业和军事等关系到国计民生的重要行业也都依赖网络与信息系统,极易 遭受信息武器的攻击,国家安全受到严峻挑战。 2 数据安全管理的内涵和特征 数据安全管理不能简单地定义为对组织的全部数据进行防护,对庞大的数据 量进行统一标准的安全防护也不现实。数据安全管理可包含如下内容:第一,明确大 数据安全管理需求。分析数据环境下数据的保密性、完整性和可用性等问题以及可 能引发的各个层面的问题,据此明确解决相关问题和影响的数据安全需求。第二,对大 数据资产进行分类分级管理,对不同级别的数据选择不同安全措施。第三,组织应根据 数据活动的特点,以及相应的数据操作,从而确定相关的安全要求。第四,组织从系 统的脆弱点、恶意利用的后果与应急措施等方面评估数据安全风险。 数据要充分流动、共享和交换,在保证安全的情况下发挥最大的价值。因此 ,加强数据安全管理,既要明确数据安全合规的边界,保证数据的合法利用;也要 尽可能地促进数据的发展,让数据这座金矿发挥更大价值。 3 数据安全管理的路径与对策 数据安全管理可以从管理、技术措施两个方面进行实践,构建科学合理、覆 盖全局的数据安全管理体系,促进数据产业的可持续性发展。 3.1 管理措施与建议 主要涵盖组织的数据安全管理架构及岗位设置,管理制度及规程、人员管理 等方面。 3.1.1 建立适应需求的安全管理组织 数据安全管理的首要环节是数据安全组织管理。在机构及岗位设置上,建 立起自上而下的数据安全管理组织架构。不同类别角色赋予不同权限,可包含3个层次 :明确数据安全职能范围,制定数据安全管理策略;制定数据安全管理流程及制 度,负责监督落地实践和日常数据安全运营;实际操作和落地实施。此外,相关业务部 门要做好与数据安全管理部门的沟通与协作,保证数据安全管理策略、制度有效施 行,确保组织体系的正常运行。 3.1.2 制定数据安全管理流程及制度 数据安全管理流程及制度是数据安全管理的制度保障。数据的安全管理 要有规范的流程,参照法律法规、国家/行业标准等合规要求,在数据安全能力成熟度 模型的基础上,科学评估数据使用过程中可能会遭遇的风险,结合目前及未来需要的大 数据安全能力等级,制定数据管理制
数据论文3000字 篇一:数据时代的机遇与挑战论文3000字 数据时代的机遇与挑战 什么是数据时代? "数据"在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已有 时日,却因为近年来互联网和信息行业的发展而引起人们关注。最早提出"数据"时代 到来的是全球知名咨询公司麦肯锡,麦肯锡称:"数据,已经渗透到当今每一个行业和业 务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生 产率增长和消费者盈余浪潮的到来。" 数据时代是怎样产生的? 物联网、云计算、社交网络、社会媒体以及信息获取技术的飞速发展,数据正以前所未 有的速度迅速增长和积累,数据是人类社会最重要的财富数据时 代 的 到 来 数据时代的特点? 1.数据量大(Volume) 第一个特征是数据量大。数据的起始计量单位至少是P(1000个T)、E(100万个T)或 Z(10亿个T)。 2.类型繁多(Variety) 第二个特征是数据类型繁多。包括网络日志、音频、视频、图片、地理位置信息等等, 多类型的数据数据的处理能力提出了更高的要求。 3.价值密度低(Value) 第三个特征是数据价值密度相对较低。如随着物联网的广泛应用,信息感知无处不在, 信息海量,但价值密度较低,如何通过强大的机器算法更迅速地完成数据的价值"提纯" ,是数据时代亟待解决的难题。 4.速度快、时效高(Velocity) 第四个特征是处理速度快,时效性要求高。这是数据区分于传统数据挖掘最显著的特 征。 既有的技术架构和路线,已经无法高效处理如此海量的数据,而对于相关组织来说,如 果投入巨大采集的信息无法通过及时处理反馈有效信息,那将是得不偿失的。可以说, 数据时代对人类的数据驾驭能力提出了新的挑战,也为人们获得更为深刻、全面的洞 察能力提供了前所未有的空间与潜力。 数据时代的机遇 数据技术通过对海量数据快速收集与挖掘、及时研判与共享,成为支持社会治理科 学决策和准确预判的有力手段,为社会转型期的社会治理创新带来了机遇。建立数据 中心,及时搜集、实时处理数据信息,为科学决策提供坚实基础。对社会数据进行历 时性和实时性分析,加强社会风险控制,提高政府预测预警能力和应急响应能力。 在数据概念出来之前,个人制造的数据往往被忽略,企业数据被谈及的更多。企业内 部的数据多数都是结构性数据,并被企业在或多或少地利用着,无论是数据挖掘还是商 业智能化应用都已经初露端倪。随着互联网的快速发展,在企业数据还没有井喷的时候 ,我们就发现个人用户以及社会应用产生的数据已经开始爆发了,比如社交、交互式应 用带来了大量的网络数据。此时传统的硬件设备开始显得捉襟见肘,无法满足这种庞杂 数据带来的应用需求。很多时候,也许我们会认为这些数据里会有价值,但是却不知道 如何挖掘这些数据的内在价值,数据成为了堆砌。因此,对于数据精准分析的需求正在 呼唤做数据分析的厂商们拿出下一步的举动。 比如说,在淘宝庞大的用户群中,淘宝卖家如何精准掌握一个新用户的需求?一家饭馆 如何利用细节满足每一个食客对于美味的需求?越来越多的应用需求推动着数据的发 展。更主要的是,未来可能各种传感器会出现在社会的各个地方,数据会更多,比如交 通、医疗等等,数据的采集已经不是问题,难点已经转换为处理和分析。如此巨量的数 据,处理难度可想而知。数据给中国市场带来什么? 数据应用需求在中国更加明显。中国人口众多,各行各业都呈现出极快的增长速度, 电商、快递、微博、社交等都承载了大量的个人信息;大型超市、卖场、商场、银行等 集聚了大量交易信息,日新月异的城市建设中,连接着更多数据采集传感器和嵌入式设 备的物联网开始成型?? 如何应对机遇与挑战 数据时代,人们能做些什么? 数据产生和存在于各行各业,尽管分析和处理困难,但也可以通过相关性的技术手段 对数据进行统计分析,应用其结果。 例如:在教育领域使用数据来分析学生的个性和爱好,真正做到因材施教,提高教学 质量;在企业管理领域应用数据分析,真正将粗放型管理变为精细型管理,提高效率 ,节省开支,并应对公司在发展进程中带来的管理问题。 在企业生产中应用数据分析,优化各项生产、工作流程提高效率效益。 在商业领域应用数据分析商品销售热点和了解顾客即时需求。今后, 在数据技术领域的竞争将直接关系到国家安全和未来, 国家层面的竞争力将部分体现为一国拥有数据的规模、活性以及解释、运用的能力。 美国已率先将数据应用从商业行为上升到国家意志:2021 年 3 月 29 日,美国奥巴马政府投资 2 亿美元启动"数据研究与开发计划",提出"通过收集、处理庞大而复杂的数据信息,从 中获得知识和洞见,提升能力,加快科学、工程领域的创新步伐,强化美国国土安全

1,261

社区成员

发帖
与我相关
我的任务
社区描述
Spark由Scala写成,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于MapReduce算法实现的分布式计算。
社区管理员
  • Spark
  • shiter
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧