本项目以电影数据为主题,基于hadoop伪分布式搭建,结合hive数据仓库调用物理机mysql数据库实现电影相关数据统计、通过Mapreduce编程对hdfs文件系统的文件进行词频统计。使用python进行电影数据采集、处理、分析及数据可视化,融合了python爬虫,Matplotlib绘图、Echarts数据可视化、情感分析、词图云等多个功能,可实现百万级电影数据离线处理与计算。
这次小组作业我们巩固了前面学习的Hadoop环境搭建、mysql数据库相关知识,在此基础上对hive数据仓库、mapreduce工作原理进行学习。通过本次作业我们也学习到了一些linux系统的安装、基本使用、系统架构以及一些常见命令的使用等。通过小组学习,我们各有分工,相互协作,加深了对彼此的了解,学到新的知识。
, 相关下载链接:
https://download.csdn.net/download/weixin_54707168/87371658?utm_source=bbsseo