社区
Hadoop生态社区
帖子详情
大数据数据存入hdfs后如何进行数据分析?
光滑的秃头
2018-06-15 02:57:31
新人 才接触大数据,求解
现在把数据存入到了hadoop 的hdfs上面 并关联到hive 当中的表。请问接下来进行数据分析该怎么做呢?
例如:要分析每年每月每天的每个产品的销售情况
是采用hql 语句 读取需要分析的数据出来进行分析嘛?还是怎么做呢?
...全文
1352
3
打赏
收藏
大数据数据存入hdfs后如何进行数据分析?
新人 才接触大数据,求解 现在把数据存入到了hadoop 的hdfs上面 并关联到hive 当中的表。请问接下来进行数据分析该怎么做呢? 例如:要分析每年每月每天的每个产品的销售情况 是采用hql 语句 读取需要分析的数据出来进行分析嘛?还是怎么做呢?
复制链接
扫一扫
分享
转发到动态
举报
AI
作业
写回复
配置赞助广告
用AI写文章
3 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
zengjc
2018-08-10
打赏
举报
回复
一般情况下,如果是类似“分析每年每月每天的每个产品的销售情况”等简单统计分析,直接使用hive的HQL就可以了,类似于sql,比较容易上手。
或者也可以使用impala来编写SQL进行分析,速度比hive快,也能直接读取你已经建好的hive外部表。
大数据平台下的分析,使用自己熟悉的开发方式就行,这样易上手,速度也不慢;等有了更多的性能、功能要求,再选择更合适的开发方式,比如spark、写MR等;
五哥
2018-07-25
打赏
举报
回复
hql进行查询,统计,分组等操作,如果太复杂就自己写UDF(用户自定义函数)呗
一叶飞舟
2018-06-18
打赏
举报
回复
数据分析,首先制定相应的业务场景,简单的统计查询通过hql就足够了; 复杂一点的场景,可能需要编程实现,中间有可能需要完成清洗、整合加工等数据准备工作。
Flume采集Rabbitmq
数据
同步到
HDFS
在
大
数据
处理领域,
数据
的实时获取、传输与存储是至关重要的环节。Apache Flume是一个分布式、可靠且可...通过合理配置和优化,这个组合可以有效地处理大规模的日志
数据
,为企业的
大
数据
分析和处理提供了坚实的基础。
(源码)基于
大
数据
的日志
数据
分析
与可视化.zip
# 基于
大
数据
的日志
数据
分析
与可视化 ## 项目简介 本项目旨在利用
大
数据
技术对日志
数据
进行
分析与可视化。通过Hadoop、Hive、HBase等
大
数据
工具,对日志
数据
进行
存储、处理和分析,最终将分析结果通过Grafana等...
基于
大
数据
框架的人体健康参数管理分析平台设计与实现.pdf
该模块负责将
数据
上传至Hadoop分布式文件系统(
HDFS
)中,并且对
数据
进行
检查,确保
数据
完整无缺。 3.
数据
查询与统计模块 本模块通过启动Spark来
进行
数据
分析
,使用SparkSQL实现对
数据
的查询和统计。具体步骤包括...
大
数据
平台技术方案及应用案例分析.ppt
对于结构化
数据
,可以直接序列化后
存入
HDFS
(Hadoop Distributed File System);半结构化和非结构化
数据
则可能需要先经过整理再存储。
HDFS
作为分布式文件系统,用于存储大量结构化和半结构化
数据
。HBase作为列族...
Storm定时匹配插入mysql,源
数据
录入
hdfs
5. **
HDFS
与Storm的结合**:虽然Storm通常处理实时
数据
流,但也可以与
HDFS
集成,从
HDFS
中读取历史
数据
进行
批处理,或者将处理结果写入
HDFS
。这种方式结合了实时处理和离线处理的优点。 6. **stormFilter**:在提供...
Hadoop生态社区
20,848
社区成员
4,696
社区内容
发帖
与我相关
我的任务
Hadoop生态社区
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
复制链接
扫一扫
分享
社区描述
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章