google的mapreduce C++库是开源的吗

hurryboylqs 2013-11-21 01:54:19

在哪里有下载

...全文

609 8 打赏收藏转发到动态举报

写回复

8 条回复

切换为时间正序

请发表友善的回复…

发表回复

白杨湖 2013-12-25

打赏
举报

回复

引用 5 楼 hurryboylqs 的回复:

[quote=引用 4 楼 zhoutai1989 的回复:] 显然没有啊。如果有了就没有Hadoop了。

Hadoop有C++的实现或者说接口吗？google不是最推崇C++的吗 [/quote] Hadoop是用java写的，源码是java的不过有提供c++的接口。没用过。

hurryboylqs 2013-12-07

打赏
举报

回复

引用 6 楼 zhoutai1989 的回复:

Google有自己的MapReduce实现，Hadoop算是对应的开源实现，两者之间没有关系。另外，通过Streaming或者Pipes都可以使用C++语言来写map和reduce，具体方法可以参考hadoop官方文档 or 董的博客。

哦，谢谢啊，只是想学习这方面的东西，看来楼上比较熟悉Hadoop

_IdleMind 2013-12-07

打赏
举报

回复

Google有自己的MapReduce实现，Hadoop算是对应的开源实现，两者之间没有关系。另外，通过Streaming或者Pipes都可以使用C++语言来写map和reduce，具体方法可以参考hadoop官方文档 or 董的博客。

hurryboylqs 2013-12-07

打赏
举报

回复

引用 4 楼 zhoutai1989 的回复:

显然没有啊。如果有了就没有Hadoop了。

Hadoop有C++的实现或者说接口吗？google不是最推崇C++的吗

_IdleMind 2013-12-07

打赏
举报

回复

显然没有啊。如果有了就没有Hadoop了。

hurryboylqs 2013-11-30

打赏
举报

回复

引用 1 楼 jiangheng0535 的回复:

有吗？人家有自己的分布式算法吧。知道通过thrift可以用c++访问hdfs和hbase

我看google技术三宝里的mareduce的一个词频统计的例子里有一段代码：


#include “mapreduce/mapreduce.h”  // User’s map function  class WordCounter : public Mapper {  public:    virtual void Map(const MapInput& input) {    const string& text = input.value();    const int n = text.size();    for (int i = 0; i < n; ) {      // Skip past leading whitespace     while ((i < n) && isspace(text[i]))      i++;     // Find word end    int start = i;     while ((i < n) && !isspace(text[i]))     i++;     if (start < i)      Emit(text.substr(start,i-start),”1″);

#include “mapreduce/mapreduce.h” 这个头文件哪里来的？

许文君 2013-11-30

打赏
举报

回复

应该是没有吧，仁兄最近也在搞分布式吗？有空我们多交流啊

晚起的鸟 2013-11-23

打赏
举报

回复

有吗？人家有自己的分布式算法吧。知道通过thrift可以用c++访问hdfs和hbase

MapReduce 是 Google 在 2004 年发布的一个软件框架，用于支持大规模数据的分布式计算。 MongoDB 是一个开源的面向文档的 NoSQL 数据库系统，使用 C++ 编写。

⼤数据开源框架集锦 1 ⼤数据平台 Hadoop 离线数据的分布式存储和计算基础框架分布式存储HDFS 离线计算引擎MapReduce 资源调度Apache YARN CDH 基于稳定版Hadoop及相关项⽬最成型的发⾏版本, 成为企业部署最⼴泛的⼤数据系统可视化的UI界⾯中⽅便地管理配置和监控Hadoop以及其它所有相关组件简单来说将⼗⼏个hadoop开源项⽬集成在⼀起 HDP 基于hadoop⽣态系统开源组件构建的⼤数据分析平台 2 集群管理与监控 Cloudera Manager ⽤于部署和管理CDH集群的软件 Ambari Hadoop平台的管理软件，具备Hadoop组件的安装、管理、运维 3 ⽂件系统 HDFS 分布式⽂件系统 4 资源调度 YARN hadoop的资源管理和作业调度系统 5 协调框架 Zookeeper 分布式协调服务，解决分布式数据⼀致性⽅案实现诸如数据发布订阅、负载均衡、命名、集群管理 master节点管理分布式锁和分布式队列 6 数据存储 Hbase 分布式⾯向列的NoSQL开源数据库 Cassandra 分布式的混合NoSQL数据库，还有C++版本ScyllaDB MongDB ⾯向⽂档的开源分布式数据库 Redis 开源的⽀持⽹络，基于内存可持久化⽇志，key-value数据库，可⽤于数据库缓存消息中间件 Neo4j 开源⾼性能的NoSQL图形数据库 7 数据处理 MapReduce 分布式离线的计算框架批处理⽇渐被spark和flink取代 Spark 通⽤的⼀站式计算框架 SparkCore批处理 SparkSQL交互式处理 SparkStreaming流处理 Spark Graphx图计算 Spark MLlib机器学习 Flink 流处理和批处理分布式数据处理框架核⼼是⼀个流式的数据流执⾏引擎类似于Spark 批处理数据流处理交互处理图形处理和机器学习 Storm 分布式实时⼤数据处理系统毫秒级别的实时数据处理能⼒实时分析的领导者 8 数据查询分析 Hive 基于hadoop的数据仓库，结构化 SparkSQL 处理结构化数据的spark组件分布式的SQL查询引擎 Impala 实时交互SQL⼤数据查询引擎 Druid 实时⼤数据分析引擎 Elastic Search 分布式可扩展的实时搜索和分析引擎，基于Apache Lucene搜索引擎 9 数据收集 Flume 分布式海量⽇志采集、聚合和传输系统 Logstash 具有实时管道功能的开源数据收集引擎 10 数据交换 sqoop 数据迁移⼯具，⽤来在不同数据存储软件之间进⾏数据传输的开源软件 DataX 阿⾥巴巴开源的离线数据同步⼯具，⽤于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定⾼效的数据同步 11 消息系统 Pulsar 企业级分布式消息系统，有替代Kafka的趋势 Kafka 发布/订阅的消息系统，由Scala写成 RocketMQ 阿⾥巴巴分布式、队列模型的消息中间件 12 任务调度 Azkaban 批量⼯作流任务调度器，将所有正在运⾏的⼯作流的状态保存在其内存 Oozie 基于Hadoop的企业级⼯作流调度框架将所有正在运⾏的⼯作流的状态保存SQL数据库 Cloudeara贡献给Apache的顶级项⽬ 13 数据治理 Ranger Hadoop 平台上并提供操作、监控、管理综合数据安全的框架提供⼀个集中的管理机制，所有数据权限 Sentry Hadoop集群元数据和数据存储提供集中、细粒度的访问控制项⽬ 14 数据可视化 Kibana ⽤于和 Elasticsearch ⼀起使⽤的开源的分析与可视化平台 15 数据挖掘 Mahout 基于hadoop的机器学习和数据挖掘的⼀个分布式框架 Spark MLlib Spark的机器学习库 MADlib 基于SQL的数据库内置的可扩展的机器学习库 16 云平台技术 AWS S3 ⼀种对象存储服务，提供⾏业领先的可扩展性、数据可⽤性、安全性和性能存储和保护各种⽤例数据 GCP Google提供的⼀套云计算服务注册⼀个帐号，在分布在全球各地数⼗个google机房使⽤所有的基础架构服务

java大数据培训学校全套教材系列课程由1000集视频构成，基本就是1）时下流行的java培训学校主流内部教材，2）和市面上培训学校的通行的课程体系几乎一样。所以这套课程都能自己学下来，等于上了培训学校一次，完全可以找个java工程师的工作了。通过学习MapReduce程序，如何输入文件是两个文件，Partitioner的用法，Combiner的用法，自定义对象，排序sort，topN问题，全局变量，剖析源码单步调试详解MapReduce分组group遍历，reduce当中的cleanup的用法，自定义输出：多文件输出MultipleOutputs，DBOutputFormat把MapReduce结果输出到mysql中，MapReduce实现join算法，map端做join，寻找用户间的共同好友等，围绕着Mapreduce知识点的相关14个问题，学过后可以基本胜任MapReduce编程工作。课程特色：专业细致，偏案例，理论强。课程软件使用：必须下载 2018 eclipse 4.7 oxygen版本重要声明：如果感觉噪音大，可以选择不用耳机，加音箱或用电脑原声

java管理源码介绍 NativeTask 是 Hadoop MapReduce 的高性能 C++ API 和运行时。之所以叫NativeTask，是因为它是一个只专注于数据处理的原生计算单元，这正是Task在Hadoop MapReduce上下文中所做的。换句话说，NativeTask 不负责资源管理、作业调度和容错。这些都像以前一样由原始 Hadoop 组件管理，没有改变。但是实际的数据处理和计算，消耗了大部分集群资源，却委托给了这个高效的数据处理单元。 NativeTask 被设计得非常快，使用原生 C++ API。因此可以在其上构建更高效的数据分析应用程序，例如 Google 的 . 实际上这是 NativeTask 的主要目标，提供一个高效的原生 Hadoop 框架，因此可以在其上构建更高效的数据分析工具：数据仓库工具使用并行 DBMS 中现有的最先进的查询执行技术，例如压缩、向量化、动态编译等。这些技术更容易在本机代码中实现，我们可以看到这些技术中的大多数是使用C/C++：Vectorwise、Vertica。高性能数据挖掘/机器学习库，这些算法中的大多数都

编程狂人是推酷网旗下的周刊，内容以开发技术，编程语言，框架等为主！周刊地址http://www.tuicool.com/mags/ 目录：业界新闻特斯拉升级充电软件和适配器：预防车辆着火 Tengine-2.0.0 正式发布 MongoDB 2.4.9 发布，NoSQL数据库 Apache Tomcat 7.0.50 发布前端开发深入理解JavaScript定时机制超实用的JavaScript技巧及最佳实践红皮书（9）：DOM 理解响应式布局设计编程语言 (译)KVO的内部实现 Java NIO与IO的区别和比较我为什么期待M#？为什么大神级程序的C语言代码里到处都是goto? 阅读Google的C++代码规范有感程序设计 iOS- CoreData 数据库管理利器！ iOS- 利用UIImageView自己整了个不会说话的汤姆猫 Android捕获全局异常信息并实现上传 iOS7 如何解决iOS瀑布流运行不流畅后端架构 12款免费与开源的NoSQL数据库介绍 NoSQL与RDBMS：何时使用，何时不使用 Redis作者谈Redis应用场景 sql 语句的limit的用法 MapReduce编程模型程序人生【科技英雄传】C++之父：将工作视为一种乐趣从《安德的游戏》看如何与外星人沟通专访何海涛：“不正经”程序员的进阶之路日记——程序员的烦恼程序员的“横向发展”

Hadoop生态社区

20,811

社区成员

4,691

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章