大数据数据存入hdfs后如何进行数据分析?

光滑的秃头 2018-06-15 02:57:31
新人 才接触大数据,求解

现在把数据存入到了hadoop 的hdfs上面 并关联到hive 当中的表。请问接下来进行数据分析该怎么做呢?
例如:要分析每年每月每天的每个产品的销售情况
是采用hql 语句 读取需要分析的数据出来进行分析嘛?还是怎么做呢?
...全文
1388 3 打赏 收藏 转发到动态 举报
写回复
用AI写文章
3 条回复
切换为时间正序
请发表友善的回复…
发表回复
zengjc 2018-08-10
  • 打赏
  • 举报
回复
一般情况下,如果是类似“分析每年每月每天的每个产品的销售情况”等简单统计分析,直接使用hive的HQL就可以了,类似于sql,比较容易上手。
或者也可以使用impala来编写SQL进行分析,速度比hive快,也能直接读取你已经建好的hive外部表。
大数据平台下的分析,使用自己熟悉的开发方式就行,这样易上手,速度也不慢;等有了更多的性能、功能要求,再选择更合适的开发方式,比如spark、写MR等;
五哥 2018-07-25
  • 打赏
  • 举报
回复
hql进行查询,统计,分组等操作,如果太复杂就自己写UDF(用户自定义函数)呗
一叶飞舟 2018-06-18
  • 打赏
  • 举报
回复
数据分析,首先制定相应的业务场景,简单的统计查询通过hql就足够了; 复杂一点的场景,可能需要编程实现,中间有可能需要完成清洗、整合加工等数据准备工作。
内容概要:本文详细介绍了一个基于数据技术栈的旅游景点数据分析平台的搭建与实现过程。首先利用HDFS存储去哪儿网提供的上海旅游景点原始数据,并通过Hive建立外部表进行数据加载与验证,完成数据的结构化存储。随后使用Spark(Scala API)对景点数据进行多维度分析,包括热门景点TOP10、区域分布、评分与价格区间分布、景点类型统计以及评分与价格的相关性分析,分析结果存入HDFS指定目录。最后采用Flask作为Web后端框架,结合ECharts前端可视化库,将分析结果以柱状图、饼图、直方图、折线图、雷达图和散点图等形式在浏览器中展示,形成完整的数据可视化平台。同时文档还涵盖了Scala、Spark、Hive等环境的部署与集成步骤,确保整个数据处理流程顺利运行。; 适合人群:具备一定数据基础知识和编程能力,熟悉Linux操作,正在学习或从事数据开发、数据仓库建设及数据可视化的高校学生、初级到中级数据工程师或开发人员; 使用场景及目标:①掌握HDFS+Hive构建数据存储层的方法;②学习使用Spark进行大规模结构化数据清洗与分析的技术;③实现从后端数据处理到前端可视化展示的全流程开发实践;④理解数据平台中各组件(Hadoop、Hive、Spark、Flask、ECharts)的协同工作机制; 阅读建议:建议读者按照“数据存储→数据分析数据可视化”的流程逐步操作,结合代码与命令行实践,注意环境配置细节(如依赖版本兼容、配置文件路径),并在真实虚拟机环境中部署验证,以加深对数据处理全流程的理解。

20,846

社区成员

发帖
与我相关
我的任务
社区描述
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
社区管理员
  • 分布式计算/Hadoop社区
  • 涤生大数据
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧