20,808
社区成员
发帖
与我相关
我的任务
分享
hadoop包含几个组件:hdfs(分布式存储)、yarn(资源分配)、mapreduce(计算)、hbase(列式存储数据库)
大数据离线数仓:hive,相关的采集框架flume,缓存框架kafka,数据迁移框架sqoop或kettle,调度框架airflow等
大数据常用的快速查询框架有:es、clickhouse、kylin、presto、impala、druid等
在hive基础上更复杂的数据计算有spark,
实时处理框架有flink