新人请教一下大数据开发学习路线

qq_35811360 2017-08-13 06:42:10

请教一下大数据开发学习路线

...全文

1633 14 打赏收藏转发到动态举报

写回复

用AI写文章

14 条回复

切换为时间正序

请发表友善的回复…

发表回复

mlj0381 2017-09-15

打赏
举报

大数据开发学习默认已经有 java开发基础，大数据开发就是解决海量数据存储、计算，涉及分布式、数据流、高可用等。

碧水幽幽泉 2017-09-15

打赏
举报

Hive计算日期差

hive本身有一个UDF，名字是datediff。我们来看一下这个日期差计算的官方描述:
hive> desc function extended datediff;
OK
datediff(date1, date2) - Returns the number of days between date1 and date2
date1 and date2 are strings in the format 'yyyy-MM-dd HH:mm:ss' or 'yyyy-MM-dd'. The time parts are ignored.If date1 is earlier than date2, the result is negative.
Example:
hive> select datediff('2009-30-07', '2009-31-07') from src limit 1;
如果我的日期是2013/10/15这样的，该这么办？这时候可以用hive的regexp_replace 这个UDF。示例如下：
select datediff(regexp_replace('2013/10/15', "/", "-"),regexp_replace('2013/9/15', "/", "-")) from words limit 1;
hive的udf还是很强大的，可以多show functions,学习了解各种hive function。

碧水幽幽泉 2017-09-15

打赏
举报

csv文件数据导入到hive操作说明
1.创建测试表
create table csv_t1(a string,b string,c string)
row format serde 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
with serdeproperties ("separatorChar"=",")
stored as textfile;

或者:
create table csv_t1(a string,b string)
row format delimited
fields terminated by ','
stored as textfile

2.利用hue 文件浏览器，上传本地csv文件：假设路径为/tmp/hive, 文件名为: test2017.csv

3.执行数据加载命令:
load data inpath '/tmp/hive/test2017.csv' overwrite into table pabrdm.csv_t1;

4.查看结果数据
select * from csv_t1;

碧水幽幽泉 2017-09-15

打赏
举报

数据分析可以分为广义的数据分析和狭义的数据分析。
广义的数据分析就包括狭义的数据分析和数据挖掘，我们常说的数据分析就是指狭义的数据分析。

数据分析与数据挖掘的区别

数据分析(狭义)：
(1)定义：简单来说，数据分析就是对数据进行分析。专业的说法，数据分析是指根据分析目的，用适当的统计分析方法及工具，对收集来的数据进行处理与分析，提取有价值的信息，发挥数据的作用。
(2)作用：它主要实现三大作用：现状分析、原因分析、预测分析(定量)。数据分析的目标明确，先做假设，然后通过数据分析来验证假设是否正确，从而得到相应的结论。
(3)方法：主要采用对比分析、分组分析、交叉分析、回归分析等常用分析方法；
(4)结果：数据分析一般都是得到一个指标统计量结果，如总和、平均值等，这些指标数据都需要与业务结合进行解读，才能发挥出数据的价值与作用；

数据挖掘：
(1)定义：数据挖掘是指从大量的数据中，通过统计学、人工智能、机器学习等方法，挖掘出未知的、且有价值的信息和知识的过程。
(2)作用：数据挖掘主要侧重解决四类问题：分类、聚类、关联和预测(定量、定性)，数据挖掘的重点在寻找未知的模式与规律；如我们常说的数据挖掘案例：啤酒与尿布、安全套与巧克力等，这就是事先未知的，但又是非常有价值的信息；
(3)方法：主要采用决策树、神经网络、关联规则、聚类分析等统计学、人工智能、机器学习等方法进行挖掘；
(4)结果：输出模型或规则，并且可相应得到模型得分或标签，模型得分如流失概率值、总和得分、相似度、预测值等，标签如高中低价值用户、流失与非流失、信用优良中差等；

综合起来，数据分析(狭义)与数据挖掘的本质都是一样的，都是从数据里面发现关于业务的知识(有价值的信息)，
从而帮助业务运营、改进产品以及帮助企业做更好的决策。所以数据分析(狭义)与数据挖掘构成广义的数据分析。

BI(Business Intelligence)=数据仓库(存储层)+数据分析和数据挖掘(分析层)+报表(展现层)