社区
Hadoop生态社区
帖子详情
大数据数据存入hdfs后如何进行数据分析?
光滑的秃头
2018-06-15 02:57:31
新人 才接触大数据,求解
现在把数据存入到了hadoop 的hdfs上面 并关联到hive 当中的表。请问接下来进行数据分析该怎么做呢?
例如:要分析每年每月每天的每个产品的销售情况
是采用hql 语句 读取需要分析的数据出来进行分析嘛?还是怎么做呢?
...全文
1421
3
打赏
收藏
大数据数据存入hdfs后如何进行数据分析?
新人 才接触大数据,求解 现在把数据存入到了hadoop 的hdfs上面 并关联到hive 当中的表。请问接下来进行数据分析该怎么做呢? 例如:要分析每年每月每天的每个产品的销售情况 是采用hql 语句 读取需要分析的数据出来进行分析嘛?还是怎么做呢?
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
3 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
zengjc
2018-08-10
打赏
举报
回复
一般情况下,如果是类似“分析每年每月每天的每个产品的销售情况”等简单统计分析,直接使用hive的HQL就可以了,类似于sql,比较容易上手。
或者也可以使用impala来编写SQL进行分析,速度比hive快,也能直接读取你已经建好的hive外部表。
大数据平台下的分析,使用自己熟悉的开发方式就行,这样易上手,速度也不慢;等有了更多的性能、功能要求,再选择更合适的开发方式,比如spark、写MR等;
五哥
2018-07-25
打赏
举报
回复
hql进行查询,统计,分组等操作,如果太复杂就自己写UDF(用户自定义函数)呗
一叶飞舟
2018-06-18
打赏
举报
回复
数据分析,首先制定相应的业务场景,简单的统计查询通过hql就足够了; 复杂一点的场景,可能需要编程实现,中间有可能需要完成清洗、整合加工等数据准备工作。
基于Hadoop的汽车
大
数据
分析系统设计与实现【爬虫、
数据
预处理、MapReduce、echarts、Flask】
本文介绍了基于Hadoop的汽车
大
数据
分析系统的设计与实现。系统通过爬虫获取
数据
,经过预处理后
存入
HDFS
,并利用Hive
进行
数据
分析
,最终将结果导出至MySQL并用Pyecharts
进行
可视化展示。系统采用Flask框架搭建,实现了
数据
采集、存储、分析及交互式展示的功能。
基于
大
数据
的大学生就业因素
数据
分析
系统(Spark+Spring+Vue+Echarts)
该系统基于Spark
进行
大
数据
处理,结合Spring后端与Vue前端框架,利用Echarts实现可视化展示,分析CGPA、实习经历等因素对大学生就业的影响。通过
HDFS
存储
数据
,Spark SQL完成高效计算,并将结果
存入
MySQL供前端调用,形成完整的
大
数据
分析闭环,适用于计算机专业毕业设计。
基于spark的抖音短视频
数据
分析
及可视化
本文介绍基于Spark对抖音短视频
数据
进行
分布式分析的完整流程,涵盖从
数据
预处理、
HDFS
存储、MapReduce清洗到Spark
数据
分析
,并将结果
存入
MySQL。结合Flask后端与前端技术实现可视化展示,体现
大
数据
技术栈在实际场景中的应用。
【
大
数据
毕设推荐】基于Hadoop+Spark+Django皮肤病症状可视化系统源码 毕业设计 选题推荐 毕设选题
数据
分析
机器学习
该系统基于Hadoop+Spark构建分布式
数据
处理 pipeline,完成皮肤病多维症状
数据
(年龄、性别、病种、部位、疗效等)的清洗、聚合与16项统计分析;结果
存入
MySQL,由Django提供RESTful API,前端采用Vue+ECharts实现交互式可视化展示。项目覆盖
大
数据
存储(
HDFS
)、并行计算(Spark SQL)、Web服务(Django/Vue)及医学
数据
分析
全流程。
50个最受欢迎的
大
数据
面试问题
本文列举了50个
大
数据
面试中最常问的问题,涵盖了基本概念、Hadoop、
HDFS
、MapReduce等多个方面。这些问题旨在评估候选人在
大
数据
领域的知识和经验,包括对
大
数据
的定义、Hadoop与NAS的区别、
HDFS
的组件、
数据
处理步骤等。此外,还讨论了
大
数据
分析如何助力企业增长、Hadoop在
大
数据
分析中的作用以及如何处理
大
数据
解决方案的部署。面试问题还涉及到硬件配置、安全性、
数据
转换和Hadoop开发经验等高级话题。
Hadoop生态社区
20,844
社区成员
4,695
社区内容
发帖
与我相关
我的任务
Hadoop生态社区
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
复制链接
扫一扫
分享
社区描述
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章