大数据数据存入hdfs后如何进行数据分析？

光滑的秃头 2018-06-15 02:57:31

新人才接触大数据，求解

现在把数据存入到了hadoop 的hdfs上面并关联到hive 当中的表。请问接下来进行数据分析该怎么做呢？
例如：要分析每年每月每天的每个产品的销售情况
是采用hql 语句读取需要分析的数据出来进行分析嘛？还是怎么做呢？

...全文

1360 3 打赏收藏转发到动态举报

写回复

3 条回复

切换为时间正序

请发表友善的回复…

发表回复

zengjc 2018-08-10

打赏
举报

回复

一般情况下，如果是类似“分析每年每月每天的每个产品的销售情况”等简单统计分析，直接使用hive的HQL就可以了，类似于sql，比较容易上手。
或者也可以使用impala来编写SQL进行分析，速度比hive快，也能直接读取你已经建好的hive外部表。
大数据平台下的分析，使用自己熟悉的开发方式就行，这样易上手，速度也不慢；等有了更多的性能、功能要求，再选择更合适的开发方式，比如spark、写MR等；

五哥 2018-07-25

打赏
举报

回复

hql进行查询，统计，分组等操作，如果太复杂就自己写UDF(用户自定义函数)呗

一叶飞舟 2018-06-18

打赏
举报

回复

数据分析，首先制定相应的业务场景，简单的统计查询通过hql就足够了；复杂一点的场景，可能需要编程实现，中间有可能需要完成清洗、整合加工等数据准备工作。

Flume采集Rabbitmq数据同步到HDFS

# 基于大数据的日志数据分析与可视化 ## 项目简介本项目旨在利用大数据技术对日志数据进行分析与可视化。通过Hadoop、Hive、HBase等大数据工具，对日志数据进行存储、处理和分析，最终将分析结果通过Grafana等前端工具进行可视化展示。 ## 项目的主要特性和功能 1. 日志数据存储使用HDFS进行日志数据的分布式存储。通过HBase进行实时数据存储和查询。 2. 数据分析 使用Hive进行日志数据的SQL查询和统计分析。通过MapReduce进行大规模数据的批处理分析。 3. 数据可视化使用Grafana进行数据的可视化展示，支持多种图表类型。 4. IP地址解析通过调用百度和淘宝的IP地址API，解析IP地址对应的地理位置信息。将解析后的数据存入MySQL数据库，供前端展示。 5. 日志文件处理支持将本地日志文件上传到HDFS。

基于大数据框架的人体健康参数管理分析平台设计与实现.pdf

大数据平台技术方案及应用案例分析

Storm定时匹配成功后插入mysql；源数据通过插件批量录入hdfs

Hadoop生态社区

20,847

社区成员

4,695

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章