google的mapreduce C++库是开源的吗

hurryboylqs 2013-11-21 01:54:19
在哪里有下载
...全文
609 8 打赏 收藏 转发到动态 举报
写回复
用AI写文章
8 条回复
切换为时间正序
请发表友善的回复…
发表回复
白杨湖 2013-12-25
  • 打赏
  • 举报
回复
引用 5 楼 hurryboylqs 的回复:
[quote=引用 4 楼 zhoutai1989 的回复:] 显然没有啊。如果有了就没有Hadoop了。
Hadoop有C++的实现或者说接口吗?google不是最推崇C++的吗 [/quote] Hadoop是用java写的,源码是java的不过有提供c++的接口。没用过。
hurryboylqs 2013-12-07
  • 打赏
  • 举报
回复
引用 6 楼 zhoutai1989 的回复:
Google有自己的MapReduce实现,Hadoop算是对应的开源实现,两者之间没有关系。 另外,通过Streaming或者Pipes都可以使用C++语言来写map和reduce,具体方法可以参考hadoop官方文档 or 董的博客。
哦,谢谢啊,只是想学习这方面的东西,看来楼上比较熟悉Hadoop
_IdleMind 2013-12-07
  • 打赏
  • 举报
回复
Google有自己的MapReduce实现,Hadoop算是对应的开源实现,两者之间没有关系。 另外,通过Streaming或者Pipes都可以使用C++语言来写map和reduce,具体方法可以参考hadoop官方文档 or 董的博客。
hurryboylqs 2013-12-07
  • 打赏
  • 举报
回复
引用 4 楼 zhoutai1989 的回复:
显然没有啊。如果有了就没有Hadoop了。
Hadoop有C++的实现或者说接口吗?google不是最推崇C++的吗
_IdleMind 2013-12-07
  • 打赏
  • 举报
回复
显然没有啊。如果有了就没有Hadoop了。
hurryboylqs 2013-11-30
  • 打赏
  • 举报
回复
引用 1 楼 jiangheng0535 的回复:
有吗?人家有自己的分布式算法吧。知道通过thrift可以用c++访问hdfs和hbase
我看google技术三宝里的mareduce的一个词频统计的例子里有一段代码:

#include “mapreduce/mapreduce.h”  // User’s map function  class WordCounter : public Mapper {  public:    virtual void Map(const MapInput& input) {    const string& text = input.value();    const int n = text.size();    for (int i = 0; i < n; ) {      // Skip past leading whitespace     while ((i < n) && isspace(text[i]))      i++;     // Find word end    int start = i;     while ((i < n) && !isspace(text[i]))     i++;     if (start < i)      Emit(text.substr(start,i-start),”1″); 
#include “mapreduce/mapreduce.h” 这个头文件哪里来的?
许文君 2013-11-30
  • 打赏
  • 举报
回复
应该是没有吧,仁兄最近也在搞分布式吗?有空我们多交流啊
晚起的鸟 2013-11-23
  • 打赏
  • 举报
回复
有吗?人家有自己的分布式算法吧。知道通过thrift可以用c++访问hdfs和hbase
⼤数据开源框架集锦 1 ⼤数据平台 Hadoop 离线数据的分布式存储和计算基础框架 分布式存储HDFS 离线计算引擎MapReduce 资源调度Apache YARN CDH 基于稳定版Hadoop及相关项⽬最成型的发⾏版本, 成为企业部署最⼴泛的⼤数据系统 可视化的UI界⾯中⽅便地管理 配置和监控Hadoop以及其它所有相关组件 简单来说将⼗⼏个hadoop开源项⽬集成在⼀起 HDP 基于hadoop⽣态系统开源组件构建的⼤数据分析平台 2 集群管理与监控 Cloudera Manager ⽤于部署和管理CDH集群的软件 Ambari Hadoop平台的管理软件,具备Hadoop组件的安装、管理、运维 3 ⽂件系统 HDFS 分布式⽂件系统 4 资源调度 YARN hadoop的资源管理和作业调度系统 5 协调框架 Zookeeper 分布式协调服务,解决分布式数据⼀致性⽅案 实现诸如数据发布 订阅、负载均衡、命名、集群管理 master节点管理 分布式锁和分布式队列 6 数据存储 Hbase 分布式⾯向列的NoSQL开源数据库 Cassandra 分布式的混合NoSQL数据库 ,还有C++版本ScyllaDB MongDB ⾯向⽂档的开源分布式数据库 Redis 开源的⽀持⽹络,基于内存可持久化⽇志,key-value数据库,可⽤于 数据库 缓存 消息中间件 Neo4j 开源⾼性能的NoSQL图形数据库 7 数据处理 MapReduce 分布式离线的计算框架 批处理 ⽇渐被spark和flink取代 Spark 通⽤的⼀站式计算框架 SparkCore批处理 SparkSQL交互式处理 SparkStreaming流处理 Spark Graphx图计算 Spark MLlib机器学习 Flink 流处理和批处理分布式数据处理框架 核⼼是⼀个流式的数据流执⾏引擎 类似于Spark 批处理 数据流处理 交互处理 图形处理和机器学习 Storm 分布式实时⼤数据处理系统 毫秒级别的实时数据处理能⼒ 实时分析的领导者 8 数据查询分析 Hive 基于hadoop的数据仓库,结构化 SparkSQL 处理结构化数据的spark组件 分布式的SQL查询引擎 Impala 实时交互SQL⼤数据查询引擎 Druid 实时⼤数据分析引擎 Elastic Search 分布式可扩展的实时搜索和分析引擎,基于Apache Lucene搜索引擎 9 数据收集 Flume 分布式海量⽇志采集、聚合和传输系统 Logstash 具有实时管道功能的开源数据收集引擎 10 数据交换 sqoop 数据迁移⼯具,⽤来在不同数据存储软件之间进⾏数据传输的开源软件 DataX 阿⾥巴巴开源的离线数据同步⼯具,⽤于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定 ⾼效的数据同步 11 消息系统 Pulsar 企业级分布式消息系统,有替代Kafka的趋势 Kafka 发布/订阅的消息系统,由Scala写成 RocketMQ 阿⾥巴巴分布式、队列模型的消息中间件 12 任务调度 Azkaban 批量⼯作流任务调度器,将所有正在运⾏的⼯作流的状态保存在其内存 Oozie 基于Hadoop的企业级⼯作流调度框架 将所有正在运⾏的⼯作流的状态保存SQL数据库 Cloudeara贡献给Apache的顶级项⽬ 13 数据治理 Ranger Hadoop 平台上并提供操作、监控、管理综合数据安全的框架 提供⼀个集中的管理机制,所有数据权限 Sentry Hadoop集群元数据和数据存储提供集中、细粒度的访问控制项⽬ 14 数据可视化 Kibana ⽤于和 Elasticsearch ⼀起使⽤的开源的分析与可视化平台 15 数据挖掘 Mahout 基于hadoop的机器学习和数据挖掘的⼀个分布式框架 Spark MLlib Spark的机器学习库 MADlib 基于SQL的数据库内置的可扩展的机器学习库 16 云平台技术 AWS S3 ⼀种对象存储服务,提供⾏业领先的可扩展性、数据可⽤性、安全性和性能 存储和保护各种⽤例数据 GCP Google提供的⼀套云计算服务 注册⼀个帐号,在分布在全球各地数⼗个google机房使⽤所有的基础架构服务

20,811

社区成员

发帖
与我相关
我的任务
社区描述
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
社区管理员
  • 分布式计算/Hadoop社区
  • 涤生大数据
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧