社区
Hadoop生态社区
帖子详情
大数据数据存入hdfs后如何进行数据分析?
光滑的秃头
2018-06-15 02:57:31
新人 才接触大数据,求解
现在把数据存入到了hadoop 的hdfs上面 并关联到hive 当中的表。请问接下来进行数据分析该怎么做呢?
例如:要分析每年每月每天的每个产品的销售情况
是采用hql 语句 读取需要分析的数据出来进行分析嘛?还是怎么做呢?
...全文
1388
3
打赏
收藏
大数据数据存入hdfs后如何进行数据分析?
新人 才接触大数据,求解 现在把数据存入到了hadoop 的hdfs上面 并关联到hive 当中的表。请问接下来进行数据分析该怎么做呢? 例如:要分析每年每月每天的每个产品的销售情况 是采用hql 语句 读取需要分析的数据出来进行分析嘛?还是怎么做呢?
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
3 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
zengjc
2018-08-10
打赏
举报
回复
一般情况下,如果是类似“分析每年每月每天的每个产品的销售情况”等简单统计分析,直接使用hive的HQL就可以了,类似于sql,比较容易上手。
或者也可以使用impala来编写SQL进行分析,速度比hive快,也能直接读取你已经建好的hive外部表。
大数据平台下的分析,使用自己熟悉的开发方式就行,这样易上手,速度也不慢;等有了更多的性能、功能要求,再选择更合适的开发方式,比如spark、写MR等;
五哥
2018-07-25
打赏
举报
回复
hql进行查询,统计,分组等操作,如果太复杂就自己写UDF(用户自定义函数)呗
一叶飞舟
2018-06-18
打赏
举报
回复
数据分析,首先制定相应的业务场景,简单的统计查询通过hql就足够了; 复杂一点的场景,可能需要编程实现,中间有可能需要完成清洗、整合加工等数据准备工作。
Flume采集Rabbitmq
数据
同步到
HDFS
Flume采集Rabbitmq
数据
同步到
HDFS
(源码)基于
大
数据
的日志
数据
分析
与可视化.zip
# 基于
大
数据
的日志
数据
分析
与可视化 ## 项目简介 本项目旨在利用
大
数据
技术对日志
数据
进行
分析与可视化。通过Hadoop、Hive、HBase等
大
数据
工具,对日志
数据
进行
存储、处理和分析,最终将分析结果通过Grafana等前端工具
进行
可视化展示。 ## 项目的主要特性和功能 1. 日志
数据
存储 使用
HDFS
进行
日志
数据
的分布式存储。 通过HBase
进行
实时
数据
存储和查询。 2.
数据
分析
使用Hive
进行
日志
数据
的SQL查询和统计分析。 通过MapReduce
进行
大规模
数据
的批处理分析。 3.
数据
可视化 使用Grafana
进行
数据
的可视化展示,支持多种图表类型。 4. IP地址解析 通过调用百度和淘宝的IP地址API,解析IP地址对应的地理位置信息。 将解析后的
数据
存入
MySQL
数据
库,供前端展示。 5. 日志文件处理 支持将本地日志文件上传到
HDFS
。
【
大
数据
分析】基于
HDFS
+Spark的旅游景点
数据
处理:上海景区评分价格分布与可视化系统实现
内容概要:本文详细介绍了一个基于
大
数据
技术栈的旅游景点
数据
分析
平台的搭建与实现过程。首先利用
HDFS
存储去哪儿网提供的上海旅游景点原始
数据
,并通过Hive建立外部表
进行
数据
加载与验证,完成
数据
的结构化存储。随后使用Spark(Scala API)对景点
数据
进行
多维度分析,包括热门景点TOP10、区域分布、评分与价格区间分布、景点类型统计以及评分与价格的相关性分析,分析结果
存入
HDFS
指定目录。最后采用Flask作为Web后端框架,结合ECharts前端可视化库,将分析结果以柱状图、饼图、直方图、折线图、雷达图和散点图等形式在浏览器中展示,形成完整的
数据
可视化平台。同时文档还涵盖了Scala、Spark、Hive等环境的部署与集成步骤,确保整个
大
数据
处理流程顺利运行。; 适合人群:具备一定
大
数据
基础知识和编程能力,熟悉Linux操作,正在学习或从事
大
数据
开发、
数据
仓库建设及
数据
可视化的高校学生、初级到中级
数据
工程师或开发人员; 使用场景及目标:①掌握
HDFS
+Hive构建
数据
存储层的方法;②学习使用Spark
进行
大规模结构化
数据
清洗与分析的技术;③实现从后端
数据
处理到前端可视化展示的全流程开发实践;④理解
大
数据
平台中各组件(Hadoop、Hive、Spark、Flask、ECharts)的协同工作机制; 阅读建议:建议读者按照“
数据
存储→
数据
分析
→
数据
可视化”的流程逐步操作,结合代码与命令行实践,注意环境配置细节(如依赖版本兼容、配置文件路径),并在真实虚拟机环境中部署验证,以加深对
大
数据
处理全流程的理解。
大
数据
平台技术方案及应用案例分析.ppt
大
数据
平台技术方案及应用案例分析
基于python的爬虫框架scrapy+Hadoop
大
数据
实现招聘需求分析项目源码(毕业设计)
基于python的爬虫框架scrapy+Hadoop
大
数据
实现招聘需求分析项目源码(毕业设计)。一、
数据
抓取,使用python的爬虫框架scrapy抓取51job网站的招聘信息并
存入
文件 (DataSpider)二、
大
数据
存储,编写java脚本使用
HDFS
API把
数据
上传到
HDFS
文件系统。三、
大
数据
处理,使用Hadoop处理
大
数据
(BigDataHandler)。 基于python的爬虫框架scrapy+Hadoop
大
数据
实现招聘需求分析项目源码(毕业设计)。一、
数据
抓取,使用python的爬虫框架scrapy抓取51job网站的招聘信息并
存入
文件 (DataSpider)二、
大
数据
存储,编写java脚本使用
HDFS
API把
数据
上传到
HDFS
文件系统。三、
大
数据
处理,使用Hadoop处理
大
数据
(BigDataHandler)。 基于python的爬虫框架scrapy+Hadoop
大
数据
实现招聘需求分析项目源码(毕业设计)。一、
数据
抓取,使用python的爬虫框架scrapy抓取51job网站的招聘信息并
存入
文件 (DataSpider)二、
大
数据
存储,编写java脚本使用
Hadoop生态社区
20,846
社区成员
4,695
社区内容
发帖
与我相关
我的任务
Hadoop生态社区
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
复制链接
扫一扫
分享
社区描述
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章