说说hadoop在你们的项目中扮演什么角色/起到什么作用?

bandaoyu 2019-03-15 01:44:14
打算转行进入大数据/数据挖掘/人工智能领域,在大数据领域yhadoop是绕不过的话题。因为不太熟悉,也没有做过实际项目,只是搭过一主二从的简单集群,运行过一个hello的 map reduce程序,所以对hadoop的认识还不深,有困惑还没解开。
招聘中要求的会hadoop 主要指的是什么?是hadoop的map reduce 将大数据的运算 分配到多个主机上并行处理吗 还是 hadoop 的分布式文件系统,做存储数据用?
说说真实的项目中(你们自己的项目中),hadoop 主要承担哪些功能的? 最好能给我详细讲讲,包括hadoop配套的其他软件框架呀之类。

初学老萌新,望大家多多指教,谢谢大家
...全文
822 5 打赏 收藏 转发到动态 举报
写回复
用AI写文章
5 条回复
切换为时间正序
请发表友善的回复…
发表回复
bandaoyu 2019-05-29
  • 打赏
  • 举报
回复
物联网的后台数据库 用hadoop合适吗
张伯毅 2019-04-28
  • 打赏
  • 举报
回复
引用 4 楼 bandaoyu 的回复:
引用 3 楼 张伯毅 的回复:
掌握你这样一套生态系统 需要多长时间能上手
要是会用的话,有人带两个星期足矣. 但是要精通的话,这个要求必须得看懂源码.
bandaoyu 2019-04-28
  • 打赏
  • 举报
回复
引用 3 楼 张伯毅 的回复:
掌握你这样一套生态系统 需要多长时间能上手
张伯毅 2019-04-24
  • 打赏
  • 举报
回复
hadoop : 目前可以从三部分来理解. hdfs: 数据存储服务. yarn: 调度服务, mapreduce 依托于 yarn 调度, 现在 spark on yarn 也是依靠 yarn 进行调度. mapreduce: 计算服务 , 依托于 yarn 调度. 真实项目普遍采用 hdfs 存储数据. yarn 负责调度, yarn 进行离线计算. 至于 mapreduce 因为维护性问题和时效的问题, 一般很少用. 至于hive , hbase , spark 等服务, 都是围绕 hadoop 构建的, 从而构成一套生态系统.
zgycsmb 2019-04-24
  • 打赏
  • 举报
回复
主要用到
HDFS mapreduce
3, hive(基于hadoop的数据仓库)

4,hbase(分布式列存数据库)

20,808

社区成员

发帖
与我相关
我的任务
社区描述
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
社区管理员
  • 分布式计算/Hadoop社区
  • 涤生大数据
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧