移动互联网与大数据时代的五十个预言

rgs2011 2014-10-13 03:49:15
 第一, 未来的商业

  预言一:数据总线+插拔式业务组织将成为企业常态

  预言二:企业的部落结合打破传统边界

  预言三:跨界与颠覆成为常态,不再有稳定的生意

  预言四:智慧资产的保护藩篱被打破,火速创新成为主流

  预言五:专业化、个人化的工坊将再度复兴

  预言六:对于设计的高度重视将体现在企业的各个方面

  预言七:极致主义将成为企业创新的文化

  预言八:创新英雄将不再被赋予强盗资本家的印象

  预言九:在大数据的作用下,消费者日益变得赤裸,消费者代言机构强势崛起

  预言十:商铺的一般体验已经远远不够,需要像剧场一样形成与线上的高度差异化

  预言十一:CIO将成为首席洞察官,跻身于仅次于CEO的核心层

  预言十二:资本与创业者的矛盾加剧,企业的治理结构发生巨大变化

  第二,教育的探索

  预言十三:对于儿童心理世界的理解与运用将发生革命性变化

  预言十四:创新代际下移,少年极客不断涌现

  预言十五:体验式课堂将是学习完成变为学生主导型学习

  预言十六:面向网络的公共道德教育与价值观教育占据重要地位

  预言十七:学习碎片化已经被普遍接受并得到支持

  预言十八:学术进一步市场化,学术与商业、公众的边界进一步打破

  第三,传媒巨变

  预言十九:新媒体业已经完全占据媒体主流

  预言二十:在海量信息时代,消费者心智受到快速专业解读者高度影响

  预言二十一:自媒体大兴其道,成为社会人的标配

  预言二十二:随着屏一代成为社会主流,加速整个世界的电子化、数字化和工具化

  预言二十三:电影与电视产业将成为资本与互联网业的结合体

  预言二十四:媒体业已经开始很难被定义为独立产业

  预言二十五:时代主流话语碎片化、世俗化,大时代不复存在

  预言二十六:社会以某种宽容机制确保另类信息的表达与传播

  预言二十七:大量的志愿型、公益型媒体出现

  第四,家庭的探索

  预言二十八:出现专业化家庭幸福托管行业

  预言二十九:回归家庭的简朴生活价值观大兴其道

  预言三十:旅游人口的激增带来了车联网成为社会基础设施

  预言三十一:新一代懂互联网的老年人,使老年生活形态发生巨大变化

  预言三十二:电子产品的广泛化造成了严重的家庭沟通不足,由此带来的心理疾病激增

  预言三十三:女性在家庭与社会中的影响力显著上升,开启她世纪

  预言三十四:年轻人的主流价值观发生改变,做自己的理念汇成洪流

  第五,新型社会

  预言三十五:社会型企业大兴其道,成为衔接公益与商业的桥梁

  预言三十六:对于科技创新的抵触感加剧了人们追求心灵觉醒的愿望

  预言三十七:健康主义者开始成为社会人群中数量庞大并具有影响力的人群

  预言三十八:知识化、专业化的新蓝名阶层出现

  预言三十九:人们对于电子化、数字化、社交化工具的高度依赖,造成了系统性风险累积

  预言四十:类似于梭罗的理念大兴其道,价值观进一步分化

  预言四十一:商业交易过程开始变为买卖双双的及积极心理过程

  预言四十二:技术的进步支持人们越来越多样的多样化探索

  第六,文艺的再造

  预言四十三:网络开始成为艺术传播的主流渠道

  预言四十四:大批个体艺术家崛起,个人策展开始规模出现

  预言四十五:深度阅读崛起,带动文学复兴

  预言四十六:东方哲学思想得到越来越多的认同,并被纳入政治、商业、教育的各个范畴

  预言四十七:音乐的创作与传播已经开始充分的互动化

  预言四十八:大批被数字化的艺术遗产,带动了艺术价值的传播

  预言四十九:历史得到大数据的支持,以多种艺术形态为当代人接受

  预言五十:馈赠分享、专业多元、自我赋权、多样探索开始成为当代人主流观念。

  
...全文
285 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复
智能合约虚拟机赋予了区块链运行去中心化应用(Dapp)的能力。它让区块链演化为“操作系统”,孕育出繁荣的Dapp生态。一款优秀的VM不仅仅是要完成确定、高效、安全地执行合约字节码的功能,它应该足够通用,能最大化节省开发者的成本,甚至能形成独立的开发者生态。从架构上来说,VM为智能合约提供计算资源和运行容器,区块链的共识、执行模块与VM是完全解耦的。在区块链2.0项目中,我们看到大部分项目将VM作为区块链项目的一个子模块,一同编译进二进制中;Fabric更进一步,链码被编译成独立的程序,运行于独立的docker容器中,通过grpc与节点交互。如此,可将数据与逻辑彻底分离;在未来,VM可能以硬件的形式安装在“矿机”中,通过更底层的如PCIe接口与区块链进行通信。业界的Nervos CKB使用RISC-V实现VM,为演化成硬件模块做准备。架构设计验证层验证层会对合约字节码及传参进行一些验证,包含ABI验证,环境检查与版本检查三个环节。ABI验证:利用合约ABI对用户发送的合约调用及参数进行校验。环境检查:检查虚拟机执行环境是否符合预期检查Config字段。字节码是否合法。exports是否包含apply与memory,以及类型是否正确;是否包含start(被禁用);是否包含import,import的模块是否合法。解释器模块是否ready。版本检查:检查合约版本,选择对应版本的解释器。注入层注入层主要对合约字节码注入一些必要的代码,以及构建相应的执行上下文。Gas MeteringGas metering是用于统计每一个操作所须花费的Gas。原理非常简单:实现Env_api方法useGas。将wasm字节码恢复成易于解析的格式化文本(如JSON)。将useGas注入到格式化文本中将格式化文本重新恢复成wasm字节码。这里有一个值得考虑的问题:**Gas Metering能否放到编译期去做?**在编译器做Gas metering注入的好处是只须要注入一次,节省了执行时的开销。但这样的弊端也很明显:Gas Table本属于区块链协议的一部分,但却被放到合约编译器中,恶意用户只须要更改编译器的Gas Table即可完成作恶,作恶成本大大降低。若Gas Table需要修改,无法再对已部署的旧合约更新Gas Metering,导致新老合约的Gas收费标准不一致。在每次执行时进行一次Gas Metering注入,虽然牺牲了一些执行效率,但换来了Gas灵活变更的特性,这对于不断调整、迭代的公链项目是至关重要的。一种更好的方案,是将Gas Table以合约形式部署,无须硬分叉便可更改Gas Table的参数。Env API 注入Env_api是区块链提供给合约层用于与区块链进行交互的接口。注入原理如下:合约字节码(wast)中包含形如(import env getAddress (func ...))的代码段。意为从env模块中导入getAddress函数。env模块从哪来呢?由虚拟机利用解释器的API构建原生模块,并实现预先设计的Env_api。这里的Env_api都须要用原生语言实现。利用解释器的moduleResolver在执行代码前注入。经以太坊基金会Go-team的gary推荐,这里隆重介绍下EVMC这个项目。它提供了一套虚拟机和客户端之间的通用交互接口。不同的VM只需要实现这些接口,即可为以太坊客户端提供交互功能。如此将客户端与虚拟机实现相互分离,更能够根据实际情况灵活切换底层虚拟机实现。上下文构建我们还需要给合约执行构建合理的上下文环境,提供必要的内部模块和数据以供合约使用,包括:区块链账本实例,提供区块、交易等信息的调用接口。状态数据库实例,提供状态数据的增删改查的调用接口。当前Transaction与Action的相关数据。当前区块高度和区块时间。执行层执行层是虚拟机的核心模块,负责执行合约字节码并返回结果。它必须具备以下几个特性:确定性:即相同入参和上下文,无论在什么设备上运行,何时运行,运行几次,都必须获得相同结果。高效执行:虚拟机的执行时间不大于共识算法给于交易执行的最大时间。停机与回滚:须要有相应停机机制。在执行失败时须要对本次执行涉及的所有状态变更进行回滚。沙箱环境:即保证合约与合约之间、合约与宿主系统之间的资源隔离。能够防备恶意和故障合约的不良影响。Apply执行合约字节码,实际是调用合约代码中的apply函数。合约上下文,包括用户指定调用的合约方法名和对应入参,通过Env_api在实际apply实现中获取,最终调用相应的合约方法。栗子详见系列第二篇。Memory合约除了应导出apply函数外,还须要导出memory对象。memory对象是wasm编译器在合约编译时自动注入,通常会开辟一页内存(64KB) (memory $0 1)。解释器会初始化一个线性字节数组作为内存供wasm使用,wasm与区块链数据交互是依靠内存共享的形式,通过该字节数组进行传递。(这也是为何在Env_api设计里,很多数值的传参是offset与length的组合)Wasm的内存数组是按照| static memory | dynamic memory |的次序划分,static memory中存放编译期的字符串或数组,dynamic memory用于运行期的数据存储,并且可以动态扩容。为了防止dynamic memory无限制地扩容,需要有合理的收费机制与内存分配上限。AssemblyScript提供了一个额外的位于static memory之前的预留空间,称为reserved memory。这使得我们在运行期可以将一些变长数据(如字符串,数组等)以Global的形式导入wasm。这样wasm无须调用Env_api即可直接使用上下文的变量,如发送方、接收方、合约地址、当前调用的合约方法名等。状态存储对VM最本质的需求是对状态存储的需求,这种存储是达成共识的、不可逆的,从而实现了去中心化应用中数据的信任存储。Ethereum1出现的状态爆炸问题给我们敲响了警钟——只收取每一次读写操作的费用,而不收取占用存储的费用,是不合理的。如果不对占用存储收费,则用户可以无限制地占用区块链的稀缺存储资源;且由于没有好的数据清理机制,区块链的状态就会不断增长,即所谓“爆炸”。状态存储付费是很自然想到的方案。如何设计合理的状态存储付费方案,有两个底层逻辑需要考虑:用户应当为占用链上的稀缺存储资源付出成本。这里的成本是广义的,可以是代币价值、机会成本与承担额外风险等形式。状态存储的使用属性最大化,投资属性最小化。须要避免出现用户大量囤积存储资源,提高资源利用率。EOS使用【RAM】来解决状态收费的问题。开发者须要使用代币向系统合约购买RAM,存储状态数据须要消耗对应大小的RAM资源,当数据删除时RAM资源也会相应释放,并且可以卖回给系统拿回代币。但开发者须要承担RAM和代币价值波动风险。如何对RAM定价呢?EOS创新性地引入了Bancor算法对RAM进行模拟市场定价。Bancor算法有两个特点:数字货币价格取决于存储金金额和代币流通量,真实模拟了市场供需关系;人机交易,无须对手盘,这使得“巨鲸”可轻易做多或做空,导致价格波动剧烈。也正因为上面两个特性,EOS主网刚上线时,出现了大量RAM资源被囤积,RAM价格被瞬间拉至高位,又在随后的一周内快速下降,造成了“割开发者韭菜”的情况。V神在2018年曾提出过使用【状态租金】来解决状态爆炸问题。状态租金很像当前云计算服务的商业模式,用户不仅花费购买占用空间大小,还须购买占用时间。对于状态租金方案的具体设计,我们仍然须要考虑以下几个问题:用户体验:当状态出租时间快到期时,如何提醒用户续费?时间到期后状态数据是否立马清除?不同级别的数据是否有区别的对待?(云服务厂商都会提供到期后的赎回期,以防止关键数据被意外删除)支付对象:哪些数据需要支付租金?除了合约的状态数据必然要支付租金以外,账户本身的元数据(balance, nonce等)是否也要付租金?如果需要,时间到期后清零,势必损害用户的资金安全(与区块链保护数字资产的理念相背),同时nonce为0后可能会遭受重放攻击。如果不需要,仍然无法抑制因新账户的创建而产生的状态爆炸问题。定价:链上存储资源的稀缺程度,与区块链的生态价值及当下的市场需求密切相关。如何建立一个合理定价模型便是个非常重要的问题。Ethereum Research中有大神对状态租金的方案进行了细化,引入了激励机制用于租赁过期的发现和确认,并且允许在状态数据删除后申请恢复。Nervos CKB结合了状态买卖和状态租金的长处,利用原生代币代表占用全局状态的权利,且汇率恒定,即1 CKB代表1 Bytes的存储空间。同时巧妙地利用【二级发行】机制为代币持有者(存储空间占有者)设置了【通胀税】,以作为支付给矿工的状态租金。靠通胀收取租金的方式既保留了RAM方案的买断存储空间的使用模式,解决了上面所提到的用户体验的问题,又将定价转移到了通胀部分对应的法币价值,完全由二级市场进行价值发现。但这使得状态空间的上限严格等同于当前代币流通量,在初期可能会限制生态的发展。合约安全我们在第一篇中有提到,合约安全分为编译期安全和执行期安全。本篇主要阐述执行期安全的设计思路。执行期安全也成为运行期安全,主要由VM针对以下两方面提供保障:数据安全:不能随意篡改其他用户或其他合约的状态数据。资源安全:CPU、内存、硬盘资源的分配与回收。数据安全加密数字资产真正实现了人类梦寐以求的“私有财产神圣不可侵犯”,它象征着真正的自由。为了捍卫这份“自由”,数据安全是重中之重。VM需要为以下两个方面提供安全保障:用户数据的安全,即利用密码学算法判断是否有修改状态数据的权限。合约状态数据的隔离,即任何合约都不能直接修改其他合约的状态数据,即使该用户拥有权限。第一个维度很好理解,合约会提供根据用户地址和交易签名进行身份权限审查的功能(甚至可提供基于多密钥对的权限管理),以判断本次合约调用是否有权限修改相应的数据。这也是“私有财产神圣不可侵犯”的根源。第二个维度需要特别解释一下。这里的不能直接修改其他合约的状态数据,是指不能在合约A的方法中直接修改合约B的数据。为什么?因为这会导致状态变更无法追溯,带来不确定性。我们知道,区块链环境中只能通过交易(Transaction)来触发状态变更,交易本身就是状态变更的日志。若允许在合约A中直接修改合约B的状态数据,则这次修改是并未生成相关日志的,使得状态修改无法追溯,与区块链“可追溯”的特性相违背。以太坊中跨合约调用也是没有保留日志的。笔者认为这是因为以太坊合约是不可升级的,一旦部署后地址和代码都是不可变更的,因此可结合交易和代码具体片段来追踪状态变更记录。但以太坊并没有提供相关的索引,这导致对状态修改的记录追踪基本不可能,因此我认为这是一个设计上的重大缺陷。在EOS中,我们看到跨合约调用是生成了新的action,并被加入到原action列表中,在链上保留了状态修改的日志。能否利用静态代码分析的方式确定跨合约的对方地址和相关合约方法,从而追溯到状态变更的细节?当然是可行的,但如果有多层调用(合约A -> 合约B -> ... -> 合约Z),这种方案显然开销是非常大的。尽管以太坊提供了tracer,可以在执行交易的过程中追踪跨合约调用的对象,但如果我想查找导致合约X某状态变更的所有历史操作,上述方案必须遍历并模拟执行所有的历史交易,显然是不可取的。我们认为,跨合约交易正确的做法,是通过内联交易的形式调用合约B的方法从而间接修改合约B数据。即生成一个新的交易来触发目标合约的状态变更。该交易也会应放入区块中,视为由原交易生成的日志。这样可为状态变更保留操作记录,也符合“可追溯”的特征。资源安全智能合约通常运行在由虚拟机提供的沙箱环境,我们需要对其能够使用的资源进行适度的把控。这些资源包括三类:CPU、内存、硬盘。下面我们以QA的形式对涉及到的问题进行解答——CPU资源Q1: 合约运行最大能占用多少个进程,多少个线程?一个;一个或多个。Q2: 是否允许合约内开辟新线程?不允许。合约不应有操作系统级别的调用,而应由虚拟机层来确定性地分配CPU资源(线程数)。Q3:多线程下如何保证线程安全?多线程下,不应通过加锁来保证线程安全,原因是加锁无法保证执行顺序,带来不确定性。正确的做法是在执行前通过静态分析、注解等手段对合约调用进行归类。互斥资源的调用顺序遵循交易发送的顺序;非互斥资源的合约调用可以并行执行。Q4: 如何控制执行时间?利用Gas机制控制合约执行时间(在本系列第一篇已提到),避免过度占用CPU时间。Q5: 如何捕捉错误与处理?合约执行的错误不应导致虚拟机的进程终止,虚拟机应当提供错误捕获和处理的机制。常规的做法时合约运行时的错误以error的形式抛出,虚拟机层捕获后做失败处理,包括终止交易执行、状态回滚、资源回收等。内存资源Q1:合约运行最大能占用多少内存?节点能分配多大的内存给虚拟机,是由矿工决定。这本质上经济学问题:扩大内存分配无疑会增加成本,而这部分提升的执行效率能为矿工带来多少收益。若可用内存过少,部分交易执行失败,可能导致分叉;若可用内存过多,又会造成资源浪费,降低矿工收益。Q2: 内存能否动态扩张?可以,但须要付费。为了防止内存无限制扩张,虚拟机还应对合约的内存占用设置上限。Q3: 如何避免内存泄漏?不应交由合约开发者控制内存回收,虚拟机应当实现GC机制。Q4: 如何避免内存溢出?Wasm虚拟机中内存实则为字节数组,本身带有边界控制,能有效防止内存溢出。磁盘资源Q1: 单个合约最多能够存储多少数据?这也是经济学问题,应该设置合理的硬盘占用计费。Q2: 能否修改其他合约的持久化数据?不能直接修改,因为这会影响到【数据安全】章节中提到的确定性。虚拟机为合约创建的上下文环境中,包含相互隔离的数据空间。可以通过创建新的上下文环境进行数据修改,这样的操作视为一次新的合约调用(保留日志)。Q3: 如何防止未知的数据丢失(如磁盘损毁)?当发生数据丢失时,节点执行合约会得到不同的状态结果,导致区块被认定为非法,区块链无法延长。这里需要区块链系统具备状态一致性的检测机制,在解决硬盘故障后采用同步主链块并重放交易的方式进行恢复。系统合约系统合约是指区块链系统在启动时预先部署的,可升级、可治理的合约,提供如权限控制、资源租赁、代币质押等基础服务。系统合约通常有以下三个特点:公开透明,无暗箱操作。可通过Env_api被用户合约调用。合约通过治理进行代码变更,无须硬分叉。系统合约可采用普通合约的实现方式,并在系统预定的合约地址部署。未来优化方向智能合约的并行执行合约并行执行是提升智能合约执行效率的一大思路。这里的并行执行并不是指单个合约方法内部的并行,而是合约间的并行。实现合约并行执行,我们需要考虑两个重要的问题:如何检测本次合约执行所访问的资源对象?如读写状态数据、读取账户余额等互斥操作。如何做合约执行的合理调度?即哪些合约能够并行执行,哪些必须串行?一种容易想到的思路是这样的:通过静态代码分析检测出合约方法可能访问到的资源,对会访问相同资源的合约调用归为同一个组。每个组的执行可以并行化,组内执行则串行化(根据交易发送顺序)。然而,实际设计时需要考虑的因素就复杂很多:如何设计一个完备的算法,准确地检测合约方法可能访问到的资源(包括跨合约调用中的资源访问)?如何设计一个高效的调度算法,将合约调用准确分组?合约并行执行后所带来的性能提升,是否能够追回以上两个算法所带来的开销?预言预言机是智能合约获取链外数据的桥梁。这些数据通常由第三方可信数据源提供,如天气数据、赛事数据、数字货币价格等。在传统的互联网应用中,我们可以简单地通过HTTP API获取到这些数据。但在智能合约却不行,原因是HTTP调用通常是异步的,时间不可预估且不具备确定性。因此,需要一个专门的基础设施来为智能合约提供这些链外数据。预言机的设计原则中需要考虑三个要点:获取链外数据并保证数据的真实可用。以确定性、同步的方式被智能合约调用获取。预言机网络本身的安全性和可用性。隐私保护密码学的研究推动了隐私领域的创新。隐私研究主要涉及零知识、多方计算、全同态加密等领域。多方计算 MPC 允许一组人基于他们的输入进行联合计算,而不需要每个人显示其输入值。 例如,Alice 和 Bob 想要知道谁拥有的比特币更多,那么在不需要他们披露自己拥有多少比特币的情况下就能达到这个目的。遗憾的是,目前多方计算的局限性在于它在实践中使用效率极低。全同态加密 (Fully homomorphic encryption) 则允许人们在加密的数据上计算。几十年来,这一直是密码学领域中的一个未解决的问题,直到 2009 年,斯坦福大学博士生克雷格·詹特利 Craig Gentry 使用「理想格」构建了第一个全同态加密方案。如果 Bob 想在 Alice 的数据上执行任意计算,比如训练机器学习模型,同时不必要求 Alice 显示明文数据,理想格加密方案就能派上用场。全同态加密和多方计算一样,目前仍然基本上停留在理论阶段,在实践中的使用效率太低。 
! 有人预言说未来将会是三分技术,七分数据,得数据者得天下。。。 大数据专题全文共25页,当前为第1页。 ! 大数据,是当今公众津津乐道的一个热词,人们纷纷在探讨大数据所带来的科技进步及所蕴含的巨大价值,甚至有人把大数据形容为未来世界的石油,更有人夸张的宣称掌握了大数据的人,就可以像上帝一样来俯瞰整个世界。 Big Data, it's more than what you think 大数据专题全文共25页,当前为第2页。 大数据,又称巨量资料,指的是所涉及的数据资料量规模巨大到无法通过人脑甚至主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。 近几年,被热炒的大数据,不只是指资料,也指这些用来分析、处理巨量资料的新兴科技。 2013年马云卸任阿里集团CEO的职位时曾说,大家还没搞清PC时代的时候,移动互联网来了,还没搞清移动互联网的时候,大数据时代来了。 大数据专题全文共25页,当前为第3页。 你想像不到。。。 到底有多少 这个世界的数据 大数据专题全文共25页,当前为第4页。 近年来,全球数据存储量呈现爆炸式增长,美国互联网数据中心指出,互联网上的数据每年将增长50%,每两年便将翻一番,目前世界上90%以上的数据是最近几年才产生的。据中为咨询预测,到2020年,全球数据量将达到35ZB(相当约90亿块4TB硬盘容量)。 根据国际数据公司(IDC)的测算,似乎没有足够的磁盘空间存储。 就传统IT 企业来看,其结构化和非结构化的数据增长也是惊人的。2005年企业存储的结构化数据为4EB,到2015年将增至29EB,年复合增长率逾20%。非结构化数据发展更猛。2005年为22EB,2015年将增至1600EB,年复合增长率约60%,远远快于摩尔定律。 大数据专题全文共25页,当前为第5页。 那么,庞大的数据 到底来自哪里呢????!! 大数据专题全文共25页,当前为第6页。 据统计,国家图书馆的藏书量有2600万册,如果从数据来看的话,一个家庭一年产生的数据相当于半个国家图书馆的数据总量。 而大数据并非现在才出现,比如在古代的人口普查,中国在东汉时期就有几千万人,这显然也是庞大数据大数据并不是什么崭新的概念,好几十年前 CERN 的科学家就在处理每秒上看 PB (Peta Bytes)巨量资料。那为什么一直到近几年「大数据」这颗塬子弹才爆发呢。 现今要处理的资料量更庞大、资料产生跟处理速度更惊人、资料来源更多样,于是处理、储存大量资料的新技术跟工具快速发展,像是开源软体 Hadoop 跟 NoSQL 资料库。新科技诞生后,开发者跟使用者需要一个专业名词来与之前的科技作出区别,于是「大数据」一词因应而生。 大数据专题全文共25页,当前为第7页。    大数据的特点 Volume(大量) Velocity(高速) Variety(多样) veracity(真实性) 数据量大、数据种类多、 要求实时性强、数据所蕴藏的价值大。在各行各业均存在大数据,但是众多的信息和咨询是纷繁复杂的,我们需要搜索、处理、分析、归纳、总结其深层次的规律。最后是价值,从大量的低质量、低价值的数据中获取知识,犹如从大海中捞针,获取数据成本很高,但有待挖掘价值大。 大数据的挖掘和处理。 从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式计算架构。它的特色在于对海量数据进行分布式数据挖掘(SaaS),但它必须依托云计算的分布式处理、分布式数据库(PaaS)和云存储、虚拟化技术(IaaS)。大数据的挖掘和处理必须用到云技术。 大数据专题全文共25页,当前为第8页。 大数据专题全文共25页,当前为第9页。 科学技术及互联网的发展,推动着大数据时代的来临,各行各业每天都在产生数量巨大的数据碎片,数据计量单位已从从Byte、KB、MB、GB、TB发展到PB、EB、ZB、YB甚至BB、NB、DB来衡量。微博留言产生数据,视频产生数据,手机通话产生数据,商品标签产生数据,快递包裹、物品流通产生数据,移动终端和互联网的普及更是加快产生数据。 越来越多配备了连续测量、报告运行情况的传感器的设备的出现。几年前,跟踪遥测发动机运行仅限于价值数百万美元的航天飞机。    计算机产生的数据可能包含着关于因特网和其他使用者行动和行为的数据,从而提供了对他们的愿望和潜在需求的有用信息。    使用者自身产生的数据信息。人们通过电邮、短信、微博、QQ等产生的文本信息。    至今最大的数据是音频、视频和符号数据。这些数据结构松散,数量巨大,很难从中挖掘有意义的结论和有用的信息。 大数据的采集 大数据专题全文共25页,当前为第10页。 数据采集:ETL工具负责将分布的、异构数据源中
! 有人预言说未来将会是三分技术,七分数据,得数据者得天下。。。 大数据的介绍全文共19页,当前为第1页。 ! 大数据,是当今公众津津乐道的一个热词,人们纷纷在探讨大数据所带来的科技进步及所蕴含的巨大价值,甚至有人把大数据形容为未来世界的石油,更有人夸张的宣称掌握了大数据的人,就可以像上帝一样来俯瞰整个世界。 Big Data, it's more than what you think 大数据的介绍全文共19页,当前为第2页。 大数据,又称巨量资料,指的是所涉及的数据资料量规模巨大到无法通过人脑甚至主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。 近几年,被热炒的大数据,不只是指资料,也指这些用来分析、处理巨量资料的新兴科技。 2013年马云卸任阿里集团CEO的职位时曾说,大家还没搞清PC时代的时候,移动互联网来了,还没搞清移动互联网的时候,大数据时代来了。 大数据的介绍全文共19页,当前为第3页。 你想像不到。。。 到底有多少 这个世界的数据 大数据的介绍全文共19页,当前为第4页。 近年来,全球数据存储量呈现爆炸式增长,美国互联网数据中心指出,互联网上的数据每年将增长50%,每两年便将翻一番,目前世界上90%以上的数据是最近几年才产生的。据中为咨询预测,到2020年,全球数据量将达到35ZB(相当约90亿块4TB硬盘容量)。 根据国际数据公司(IDC)的测算,似乎没有足够的磁盘空间存储。就传统IT 企业来看,其结构化和非结构化的数据增长也是惊人的。2005年企业存储的结构化数据为4EB,到2015年将增至29EB,年复合增长率逾20%。非结构化数据发展更猛。2005年为22EB,2015年将增至1600EB,年复合增长率约60%,远远快于摩尔定律。 大数据的介绍全文共19页,当前为第5页。 1Byte = 8 Bit 1 KB = 1,024 Bytes  1 MB = 1,024 KB = 1,048,576 Bytes  1 GB = 1,024 MB = 1,048,576 KB = 1,073,741,824 Bytes 1 TB = 1,024 GB = 1,048,576 MB = 1,073,741,824 KB = 1,099,511,627,776 Bytes 1 PB = 1,024 TB = 1,048,576 GB =1,125,899,906,842,624 Bytes 1 EB = 1,024 PB = 1,048,576 TB = 1,152,921,504,606,846,976 Bytes 1 ZB = 1,024 EB = 1,180,591,620,717,411,303,424 Bytes 1 YB = 1,024 ZB = 1,208,925,819,614,629,174,706,176 Bytes 大数据的介绍全文共19页,当前为第6页。 那么,庞大的数据 到底来自哪里呢????!! 大数据的介绍全文共19页,当前为第7页。 据统计,国家图书馆的藏书量有2600万册,如果从数据来看的话,一个家庭一年产生的数据相当于半个国家图书馆的数据总量。 而大数据并非现在才出现,比如在古代的人口普查,中国在东汉时期就有几千万人,这显然也是庞大数据大数据并不是什么崭新的概念,好几十年前 CERN 的科学家就在处理每秒上看 PB (Peta Bytes)巨量资料。那为什么一直到近几年「大数据」这颗塬子弹才爆发呢。 现今要处理的资料量更庞大、资料产生跟处理速度更惊人、资料来源更多样,于是处理、储存大量资料的新技术跟工具快速发展,像是开源软体 Hadoop 跟 NoSQL 资料库。新科技诞生后,开发者跟使用者需要一个专业名词来与之前的科技作出区别,于是「大数据」一词因应而生。 大数据的介绍全文共19页,当前为第8页。    大数据的特点 Volume(大量) Velocity(高速) Variety(多样) veracity(真实性) 数据量大、数据种类多、 要求实时性强、数据所蕴藏的价值大。在各行各业均存在大数据,但是众多的信息和咨询是纷繁复杂的,我们需要搜索、处理、分析、归纳、总结其深层次的规律。最后是价值,从大量的低质量、低价值的数据中获取知识,犹如从大海中捞针,获取数据成本很高,但有待挖掘价值大。 大数据的挖掘和处理。 从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式计算架构。它的特色在于对海量数据进行分布式数据挖掘(SaaS),但它必须依托云计算的分布式处理、分布式数据库(PaaS)和云存储、虚拟化技术(IaaS)。大数据的挖掘和处理必须用到云技术。 大数据的介绍全文共1

778

社区成员

发帖
与我相关
我的任务
社区描述
云计算 网络相关讨论
社区管理员
  • 网络
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧