请教两个关于大数据相关的问题

牧牛童子 2019-12-24 01:27:35
1、Hadoop是一个分布式技术架构的名称,对吗?还是一个具体数据库品牌名称(如:ORACLE、MYSQL)?
2、目前市场上采用大数据技术架构的数据库品牌或名称都有哪些?ElasticSearch算是其中之一么?

没怎么接触过数据库的东西,上述两个问题一直迷糊着,若方便,请帮助我解答一下,谢谢
...全文
25502 11 打赏 收藏 转发到动态 举报
写回复
用AI写文章
11 条回复
切换为时间正序
请发表友善的回复…
发表回复
咕泡-星云 2021-07-12
  • 打赏
  • 举报
回复

hadoop包含几个组件:hdfs(分布式存储)、yarn(资源分配)、mapreduce(计算)、hbase(列式存储数据库)
大数据离线数仓:hive,相关的采集框架flume,缓存框架kafka,数据迁移框架sqoop或kettle,调度框架airflow等
大数据常用的快速查询框架有:es、clickhouse、kylin、presto、impala、druid等
在hive基础上更复杂的数据计算有spark,
实时处理框架有flink

飞向海洋的猪 2020-10-16
  • 打赏
  • 举报
回复
1.我认为hadoop属于一个生态,其中包含多个框架,就像楼上所说的那样,当然,hadoop存在apache版本,和CDH版本,CDH版本可以使得其中的框架版本能够匹配,不至于自己选择版本发生错误 2.除了ES,Hbase、Redis、kudu等等也是数据库,ES目前和Logstash、Kibana联合使用比较多,就是ELK。当然,你可以了解下newsql,微软的azure好像就是NEWsql,没具体了解过
苜苜的烂笔头 2020-08-17
  • 打赏
  • 举报
回复
引用 8 楼 pezynd 的回复:
1、Hadoop是一个分布式技术架构的名称,对吗?还是一个具体数据库品牌名称(如:ORACLE、MYSQL)?
答复:hadoop是一个大数据生态的基础架构,可以理解为一整套的生态,里面有zookeeper、hbase、hive等各种框架,每个框架都有其特点和功能,比如:zookeeper负责协调、注册中心;hbase是一种数据库,负责大数据的存储(跟你说的ORACLE、MYSQL关系型数据库都属于数据库);hive是一种工具,等等。

2、目前市场上采用大数据技术架构的数据库品牌或名称都有哪些?ElasticSearch算是其中之一么?
很多,各有特点,自己可网上搜搜,ElasticSearch更适合做搜索


引用 8 楼 pezynd 的回复:
1、Hadoop是一个分布式技术架构的名称,对吗?还是一个具体数据库品牌名称(如:ORACLE、MYSQL)?
答复:hadoop是一个大数据生态的基础架构,可以理解为一整套的生态,里面有zookeeper、hbase、hive等各种框架,每个框架都有其特点和功能,比如:zookeeper负责协调、注册中心;hbase是一种数据库,负责大数据的存储(跟你说的ORACLE、MYSQL关系型数据库都属于数据库);hive是一种工具,等等。

2、目前市场上采用大数据技术架构的数据库品牌或名称都有哪些?ElasticSearch算是其中之一么?
很多,各有特点,自己可网上搜搜,ElasticSearch更适合做搜索
pezynd 2020-07-25
  • 打赏
  • 举报
回复
1、Hadoop是一个分布式技术架构的名称,对吗?还是一个具体数据库品牌名称(如:ORACLE、MYSQL)? 答复:hadoop是一个大数据生态的基础架构,可以理解为一整套的生态,里面有zookeeper、hbase、hive等各种框架,每个框架都有其特点和功能,比如:zookeeper负责协调、注册中心;hbase是一种数据库,负责大数据的存储(跟你说的ORACLE、MYSQL关系型数据库都属于数据库);hive是一种工具,等等。 2、目前市场上采用大数据技术架构的数据库品牌或名称都有哪些?ElasticSearch算是其中之一么? 很多,各有特点,自己可网上搜搜,ElasticSearch更适合做搜索
lucklilili 2020-05-13
  • 打赏
  • 举报
回复
hadoop-logo Apache Hadoop The Apache™ Hadoop® project develops open-source software for reliable, scalable, distributed computing. The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models. It is designed to scale up from single servers to thousands of machines, each offering local computation and storage. Rather than rely on hardware to deliver high-availability, the library itself is designed to detect and handle failures at the application layer, so delivering a highly-available service on top of a cluster of computers, each of which may be prone to failures.
牧牛童子 2020-03-27
  • 打赏
  • 举报
回复
引用 5 楼 清平の乐 的回复:
整体来说hadoop是一个大数据生态圈,主要支持离线数据分析和存储,包括hdfs,zookeeper,hive,yarn,hbase等组件,楼上说的MapReduce主要是计算框架或者说计算引擎。hadoop版本很多,有阿帕奇的原生hadoop和商用的CDH版本,一起其他版本,具体可以百度。之前刚入门的时候经常搭建原生的阿帕奇版,最近在公司刚用一周左右时间搭建完商用版的,建议自己搭建一个单机版的便于更清楚理解hadoop,有其他问题欢迎私信或者博客留言
感谢!
  • 打赏
  • 举报
回复
整体来说hadoop是一个大数据生态圈,主要支持离线数据分析和存储,包括hdfs,zookeeper,hive,yarn,hbase等组件,楼上说的MapReduce主要是计算框架或者说计算引擎。hadoop版本很多,有阿帕奇的原生hadoop和商用的CDH版本,一起其他版本,具体可以百度。之前刚入门的时候经常搭建原生的阿帕奇版,最近在公司刚用一周左右时间搭建完商用版的,建议自己搭建一个单机版的便于更清楚理解hadoop,有其他问题欢迎私信或者博客留言
哈哈xxy 2019-12-25
  • 打赏
  • 举报
回复
修正一下,上面elasticsearch也可以认为是一个数据库不是服务器。 除了HBASE,还有kudu,druid等这些,具体使用要看你需求,如果你所使用的数据不仅要提供实时查询,还要批量运算,kudu支持的比较好,如果你需要的是非常大的数据量下的查询就是hbase了,如果过滤条件比较多的话,可以采用HBASE的二级索引,二级索引有很多方式,原始mr,360的,华为的hindex,阿里的方案不知道开源没有,开源HADOOP平台常用的hbase+es,或者hbase+solr的方式。而druid比hbase支持的实时性更高,据说达到万亿每秒。综合来说,没有最好,看需求。 其次,如果只是用来做数据分析,可以用hive数据仓库,不是数据库,你要弄清楚oltp和olap的关系。
牧牛童子 2019-12-25
  • 打赏
  • 举报
回复
引用 3 楼 哈哈xxy 的回复:
修正一下,上面elasticsearch也可以认为是一个数据库不是服务器。 除了HBASE,还有kudu,druid等这些,具体使用要看你需求,如果你所使用的数据不仅要提供实时查询,还要批量运算,kudu支持的比较好,如果你需要的是非常大的数据量下的查询就是hbase了,如果过滤条件比较多的话,可以采用HBASE的二级索引,二级索引有很多方式,原始mr,360的,华为的hindex,阿里的方案不知道开源没有,开源HADOOP平台常用的hbase+es,或者hbase+solr的方式。而druid比hbase支持的实时性更高,据说达到万亿每秒。综合来说,没有最好,看需求。 其次,如果只是用来做数据分析,可以用hive数据仓库,不是数据库,你要弄清楚oltp和olap的关系。
非常感谢
牧牛童子 2019-12-25
  • 打赏
  • 举报
回复
hadoop
引用 1 楼 哈哈xxy 的回复:
从狭义上来说hadoop是一个分布式系统架构,包括hdfs,mapreduce,yarn组件。 从广义上来说hadoop是一个生态系统,包含了大数据技术的大多数内容。 采用大数据技术架构的数据库的话 Hbase算一个,因为它底层的存储用的是hdfs组件。elasticsearch是一个分布式的搜索引擎,也可以认为是一个服务器吧,但它没有采用到什么大数据架构。
非常感谢。 除了HBase,还有其他的吗?
哈哈xxy 2019-12-24
  • 打赏
  • 举报
回复
从狭义上来说hadoop是一个分布式系统架构,包括hdfs,mapreduce,yarn组件。 从广义上来说hadoop是一个生态系统,包含了大数据技术的大多数内容。 采用大数据技术架构的数据库的话 Hbase算一个,因为它底层的存储用的是hdfs组件。elasticsearch是一个分布式的搜索引擎,也可以认为是一个服务器吧,但它没有采用到什么大数据架构。

20,808

社区成员

发帖
与我相关
我的任务
社区描述
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
社区管理员
  • 分布式计算/Hadoop社区
  • 涤生大数据
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧