Hadoop+GPU：解决大数据

_梦魇花葬 2014-07-23 06:30:03

加精

上一次我们讨论了一下关于GPU在处理大数据的可能性，今天我们来猜想一下Hadoop+GPU来处理大数据。

引用

http://www.networkworld.com/article/2167576/tech-primers/hadoop---gpu--boost-performance-of-your-big-data-project-by-50x-200x-.html

Hadoop
一个分布式系统基础架构，由Apache基金会所开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。 Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高传输率（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求，可以以流的形式访问（streaming access）文件系统中的数据。Hadoop的框架最核心的设计就是：HDFS和MapReduce.HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。
GPU就不多说了，下面我们看看它是怎么工作的：

A：传输数据从一个硬盘DRAM(一种常见的初始步骤CPU和GPU计算)
B：处理数据和CPU(传输数据:DRAM→芯片组→CPU)
C：处理数据(数据传输:DRAM→CPU芯片→→芯片组→GPU→GDRAM→GPU)
不知道大家对这种方式有什么看法呢？可以讨论一下哟！~~

...全文

6917 13 打赏收藏转发到动态举报

写回复

13 条回复

切换为时间正序

请发表友善的回复…

发表回复

smilestone322 2017-04-08

打赏
举报

回复

GPU 大数据已经是成为主流方案，本来需要多台电脑组成集群的，现在一个电脑就可以搞定 CPU+GPU 异构，nvidia 的P100的服务器，一台先当于250台x86服务器

viqsoft 2014-07-29

打赏
举报

回复

费电不？。。。。。

西瓜狼 2014-07-29

打赏
举报

回复

hadoop是存储密集型系统，基本IO是最大的瓶颈。而gpu是提高运算能力的，和hadoop的设计目标不大一致。

_梦魇花葬 2014-07-27

打赏
举报

回复

是的，应该会有用吧！

line_us 2014-07-25

打赏
举报

回复

来处理大数据

wang0923123 2014-07-25

打赏
举报

回复

发个发非官方的功夫功夫

wike119 2014-07-25

打赏
举报

回复

多搞几台电脑搭建集群就可以了，为什么还要GPU？莫非想提高单个电脑的运算能力？

lhw7791086 2014-07-25

打赏
举报

回复

my03131302 2014-07-24

打赏
举报

回复

DaJiangU 2014-07-24

打赏
举报

回复

没什么看法

austin9972 2014-07-24

打赏
举报

回复

云满笔记 2014-07-24

打赏
举报

回复

Hadoop GPU大数据平台架构可行性分析——应用于上海市中职计算机类课程资源.pdf

初识⼤数据（五初识⼤数据（五.⼤数据平台基本架构）⼤数据平台基本架构）　　⼤数据开发，并不仅仅只是⼀两个组件的简单堆砌，⽽是需要按照实际的数据量、数据种类以及实际业务的需要进⾏⼤量的调优和⼆次开发，构成⼀个有机的整体，这样才能保证⼤数据平台的正常⾼效的运⾏。⼀．以下是⼀个⼤数据平台的基本组成图： 1．硬件环境： 1） X86架构廉价服务器集群：hadoop技术栈是架构在这种服务器上的，所以价格低，横向可扩展性强。 2） GPU服务器集群：如果需要⽤到机器学习算法，可能使⽤GPU服务器集群。 2． ETL：对各种类型的数据采集与清洗，跟据不同的数据类型选择不同的组件或者数据采集⽅法，⽐如⽤Python编写采集或清洗数据。 3．数据存储：将采集清洗或处理好的数据存储在⼤数据存储器中。 4．数据计算： 1）实时计算：对亿条流数据实时进⾏计算。⽐如志管理、消息队列等。 2）离线计算：对海量数据进⾏计算，特点是：数据量巨⼤，维度多。 5．数据分析：对处理好的数据进⾏交互式分析，主要是⽤SQL语⾔进⾏数据的分析。 6．资源管理：对资源进⾏调度和管理，其中包括：内存、CPU、存储等资源。 7．数据管理：对数据进⾏安全、质量、权限等的管理以及⼯作流的管理和元数据治理。 8．运维监控：对hadoop集群、⽣态圈组件进⾏运维、管理和监控。⼆．⼤数据开发应具备的基本技能： 1. 精通java、python、scala开发 2. 精通linux使⽤ 3. 精通SQL开发 4. 具有开源代码的阅读能⼒ 5. 熟悉各种组件的使⽤

释放数据决策力人工智能自动问答系统解决方案人工智能自动问答系统方案设计全文共33页，当前为第1页。目录第一部分人工智能大数据概览第二部分知识图谱技术概览第三部分自动问答解决方案人工智能自动问答系统方案设计全文共33页，当前为第2页。我国的大数据+人工智能战略国外 2016年初，AlphaGo在围棋领域实现了重大突破 2016年10月，美国政府发布《国家人工智能研究与发展策略规划》国内 2016年5月，发改委等印发《＂互联网＋＂人工智能三年行动实施方案》 2017年3月，"人工智能"首次进入我国政府工作报告浙江省发改委制定《浙江省"互联网+"人工智能三年行动实施方案》，建示范区国外 2005年Hadoop项目研究分布式系统基础架构 2008年末，部分计算机研究人员认可"大数据" 2012年3月，美国政府发布了《大数据研究和发展倡议》国内 2014年2月，贵州印发《关于加快大数据产业发展应用若干政策的意见》，开始布局大数据 2015年11月中共中央在"十三五"规划的建议中提出实施国家大数据战略 2016年3月， "国家大数据战略"写进了 "十三五"规划纲要(草案) 人工智能战略发展历程相辅相成人工智能新成就国外 AlphaGo击败世界围棋冠军特斯拉Autopilot将血栓病人送到医院 Swarm人工智能预测肯塔基赛马结果微软人工智能的语言理解能力超过人类人工智能预测美国大选人工智能诊断癌症国内百度大脑已孵化出无人驾驶、智能搜索等创新技术科大讯飞即时语音翻译智慧气象预报\山东智慧旅游国外美国爱荷华和印度增加农业产量阿联酋设计节能建筑巴塞罗那打造智慧城市通用公司改善航空业瑞典斯德哥尔摩出租车缩短通勤时间美国挽救更多"早产儿" 美国预测灾害天气国内智慧气象预报智慧城市阿里信用贷款和淘宝数据魔方腾讯大数据视频 大数据既有成就 大数据战略发展历程人工智能自动问答系统方案设计全文共33页，当前为第3页。人工智能什么是人工智能人工智能有多种表述方式，多种处理技术必须能够感知、推断和行动，然后根据经验进行调整 1，从大量数据中确定和识别人工智能 2，根据背景环境制定实现的目标 3，推荐或直接启动最佳行动方案感知推断行动调整 4，根据经验调整更智能的算法人工智能自动问答系统方案设计全文共33页，当前为第4页。人工智能的实现两种方式让机器执行人工智能：机器学习和深度学习机器学习就是学习算法从数据构建模型，并随着数据量的增加不断改进。增强学习是如何在环境中采取一系列行为，从而获得最大的累积回报（某种强化信号） Q学习是最常用的增强学习方法，其中Q代表某种动作的长期回报价值。 Q学习是通过观察来学习Q值的深度学习是多层神经网络从大量数据中进行学习，如卷积神经网络深度增强学习是将深度学习与增强学习结合起来从而实现从感知到动作的端对端学习的一种全新的算法类脑学习是一种低功耗、将生物机制与数学原理融合的新型网络模型和学习方法，是人工智能的发展方向人工智能机器学习深度学习增强学习深度增强学习卷积神经网络类脑学习 Q学习人工智能自动问答系统方案设计全文共33页，当前为第5页。人工智能-机器学习-深度学习传感器数据预处理特征提取特征选择推理、预测、识别机器学习中间三部分是特征表达。良好的特征表达，对最终算法的准确性起了非常关键的作用，而且系统主要的计算和测试工作都耗在这一大部分。而实际中一般都是人工完成的，靠人工提取特征费时费力、准确性查。不要人工参与的特征自动选取模拟人脑信息处理分层模式需要多层来获得更抽象的特征表达人的视觉系统的信息处理是分级的，高层的特征是低层特征的组合，从低层到高层的特征表示越来越抽象，越来越能表现语义或者意图深度学习人工智能自动问答系统方案设计全文共33页，当前为第6页。人工智能-深度学习深度学习照片识别知识图谱语音搜索精准营销自动驾驶机器翻译医学图像识别语音识别工业保养运动效果包含多隐层的多层感知器，通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。在计算机视觉、语音识别、自然语言理解等领域取得了突破思想就是堆叠多个层，一层的输出作为下一层的输入，输入信息分级表达一堆输入I（如一堆图像或者文本）一个系统S（有n层），通过调整系统中参数，使得它的输出仍然是输入I 自动地获取得到输入I的一系列层次特征，即S1，…, Sn。输出严格地等于输入或者输入与输出的差别尽可能地小训练耗时，模型正确性验证复杂且麻烦某些深度网络不仅训练而且线上部署也需要GPU支持，计算资源要求高人工智能自动问答系统方案设计全文共33页，当前为第7

Title: Handbook of Big Data Technologies Length: 895 pages Edition: 1st ed. 2017 Language: English Publisher: Springer Publication Date: 2017-03-26 ISBN-10: 3319493396 ISBN-13: 9783319493398 Table of Contents Part I Fundamentals of Big Data Processing Big Data Storage and Data Models 1 Storage Models 2 Data Models Big Data Programming Models 1 MapReduce 2 Functional Programming 3 SQL-Like 4 Actor Model 5 Statistical and Analytical 6 Dataflow-Based 7 Bulk Synchronous Parallel 8 High Level DSL 9 Discussion and Conclusion Programming Platforms for Big Data Analysis 1 Introduction 2 Requirements of Big Data Programming Support 3 Classification of Programming Platforms 4 Major Existing Programming Platforms 5 A Unifying Framework 6 Conclusion and Future Directions Big Data Analysis on Clouds 1 Introduction 2 Introducing Cloud Computing 3 Cloud Solutions for Big Data 4 Systems for Big Data Analytics in the Cloud 5 Research Trends 6 Conclusions Data Organization and Curation in Big Data 1 Big Data Indexing Techniques 2 Data Organization and Layout Techniques 3 Non-traditional Workloads in Big Data 4 Curation and Metadata Management in Big Data 5 Conclusion Big Data Query Engines 1 Introduction 2 Massively Parallel Query Engines 3 Hadoop Query Engines 4 SQL on Hadoop 5 Query Optimization 6 Query Execution 7 Summary Large-Scale Data Stream Processing Systems 1 Introduction 2 Programming Models 3 System Support for Distributed Data Streaming 4 Case Study: Stream Processing with Apache Flink 5 Applications, Trends and Open Challenges 6 Conclusions and Outlook Part II Semantic Big Data Management Semantic Data Integration 1 An Important Challenge 2 Current State-of-the-Art 3 The Path Forward Linked Data Management 1 Introduction 2 Background Information 3 Native Linked Data Stores 4 Provenance for Linked Data Non-native RDF Storage Engines 1 Introduction 2 Storing Linked Data Using Relational Databases 3 No-SQL Stores 4 Massively Parallel Processing for Linked Data Exploratory Ad-Hoc Analytics for Big Data 1 Exploratory Analytics for Big Data 2 A Top-K Entity Augmentation System 3 DrillBeyond -- Processing Open World SQL 4 Summary and Future Work Pattern Matching Over Linked Data Streams 1 Overview 2 Linked Data Dissemination System 3 Experimental Evaluation 4 Related Work 5 Summary Searching the Big Data: Practices and Experiences in Efficiently Querying Knowledge Bases 1 Introduction 2 Background 3 The Framework of Cache-Based Knowledge Base Querying 4 Similar Queries Suggestion 5 Cache Replacement 6 Implementation and Experimental Evaluation 7 Related Work 8 Discussion and Conclusion Part III Big Graph Analytics Management and Analysis of Big Graph Data: Current Systems and Open Challenges 1 Introduction 2 Graph Databases 3 Graph Processing 4 Graph Dataflow Systems 5 Gradoop 6 Comparison 7 Current Research and Open Challenges 8 Conclusions and Outlook Similarity Search in Large-Scale Graph Databases 1 Introduction 2 Preliminaries 3 The Pruning-Verification Framework 4 State-of-the-Art Approaches 5 Future Research Directions 6 Summary Big-Graphs: Querying, Mining, and Beyond 1 Introduction 2 Graph Data Models 3 Pattern Matching Techniques Over Big-Graphs 4 Mining Techniques Over Big-Graphs 5 Open Problems 6 Conclusions 7 About Authors Link and Graph Mining in the Big Data Era 1 Introduction 2 Definitions 3 Temporal Evolution 4 Link Prediction 5 Community Detection 6 Graphs in Big Data 7 Weighted Networks 8 Extending Graph Models: Multilayer Networks 9 Open Challenges 10 Conclusions Granular Social Network: Model and Applications 1 Introduction 2 Preliminaries 3 Literature Review 4 Fuzzy Granular Social Networks (FGSN) 5 Discussions and Conclusions Part IV Big Data Applications Big Data, IoT and Semantics 1 Introduction 2 Semantics for Big Data 3 Big Data and Semantics in the Internet of Things 4 Social Mining 5 Graph Mining 6 Big Stream Data Mining 7 Geo-Referenced Data Mining 8 Conclusion SCADA Systems in the Cloud 1 Introduction 2 Related Work 3 An Overview of SCADA 4 Moving SCADA to the Cloud 5 Conceptual SCADA Cloud Orchestration Framework 6 Results 7 Conclusion Quantitative Data Analysis in Finance 1 Introduction 2 The Three V's of Big Data in High Frequency Data 3 Data Cleaning, Aggregating and Management 4 Modeling High Frequency Data in Finance 5 Portfolio Selection and Evaluation 6 The Future 7 Conclusion Emerging Cost Effective Big Data Architectures 1 Introduction 2 Emerging Solutions for Big Data 3 Future Directions 4 Conclusion Bringing High Performance Computing to Big Data Algorithms 1 Introduction 2 GPU Acceleration of Alternating Least Squares 3 GPU Acceleration of Singular Value Decomposition 4 Conclusions Cognitive Computing: Where Big Data Is Driving Us 1 Cognitive Computing: An Alternative Approach for Clear Understanding 2 Big Data Impulsing Cognitive System 3 Traditional Systems versus Cognitive Systems? 4 Data Mining in the Era of Cognitive Systems 5 Design Methods for Cognitive Systems 6 Cognitive Systems 7 The Future of Cognitive Systems 8 Final Remarks Privacy-Preserving Record Linkage for Big Data: Current Approaches and Research Challenges 1 Introduction 2 Background 3 Privacy Aspects and Techniques for PPRL 4 Scalability Techniques for PPRL 5 Multi-party PPRL 6 Open Challenges 7 Conclusions

水 H2O是用于分布式，可扩展的机器学习的内存平台。 H2O使用熟悉的界面（例如R，Python，Scala，Java，JSON和Flow笔记本/网络界面），并与Hadoop和Spark等大数据技术无缝协作。 H2O提供了许多流行实现，例如广义线性模型（GLM），梯度提升机（包括XGBoost），随机森林，深层神经网络，堆叠体，朴素贝叶斯，广义加性模型（GAM），考克斯比例危害，K-表示PCA，Word2Vec以及全自动机器学习算法（）。 H2O是可扩展的，因此开发人员可以添加自己选择的数据转换和自定义算法，并通过所有这些客户端进行访问。可以H2O模型并将其加载到H2O内存中进行评分，也可以将其导出为POJO或MOJO格式以在实现极高的快速评分。可以在《找到更多信息。 H2O-3（此存储库）是H2O的第三种形式，也是的后继形式。目录 // 1.下载H2O-3 尽管本README大部分是为自己构建的开发人员编写的，但大多数H2O用户只是下载并使用预构建的版本。如果您是Python或R用户，安装H2O的最简单方法是通过或（对于Python）或（对于R）： Pyth

CUDA高性能计算讨论

353

社区成员

615

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章