新人请教一下大数据开发学习路线

qq_35811360 2017-08-13 06:42:10
请教一下大数据开发学习路线
...全文
1633 14 打赏 收藏 转发到动态 举报
写回复
用AI写文章
14 条回复
切换为时间正序
请发表友善的回复…
发表回复
mlj0381 2017-09-15
  • 打赏
  • 举报
回复
大数据开发学习默认已经有 java开发基础 ,大数据开发就是解决海量数据存储、计算,涉及分布式、数据流、高可用等。
碧水幽幽泉 2017-09-15
  • 打赏
  • 举报
回复
Hive计算日期差

hive本身有一个UDF,名字是datediff。我们来看一下这个日期差计算的官方描述:
hive> desc function extended datediff;
OK
datediff(date1, date2) - Returns the number of days between date1 and date2
date1 and date2 are strings in the format 'yyyy-MM-dd HH:mm:ss' or 'yyyy-MM-dd'. The time parts are ignored.If date1 is earlier than date2, the result is negative.
Example:
hive> select datediff('2009-30-07', '2009-31-07') from src limit 1;
如果我的日期是2013/10/15这样的,该这么办?这时候可以用hive的regexp_replace 这个UDF。示例如下:
select datediff(regexp_replace('2013/10/15', "/", "-"),regexp_replace('2013/9/15', "/", "-")) from words limit 1;
hive的udf还是很强大的,可以多show functions,学习了解各种hive function。
碧水幽幽泉 2017-09-15
  • 打赏
  • 举报
回复
csv文件数据导入到hive操作说明
1.创建测试表
create table csv_t1(a string,b string,c string)
row format serde 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
with serdeproperties ("separatorChar"=",")
stored as textfile;

或者:
create table csv_t1(a string,b string)
row format delimited
fields terminated by ','
stored as textfile

2.利用hue 文件浏览器,上传本地csv文件:假设路径为/tmp/hive, 文件名为: test2017.csv

3.执行数据加载命令:
load data inpath '/tmp/hive/test2017.csv' overwrite into table pabrdm.csv_t1;

4.查看结果数据
select * from csv_t1;
碧水幽幽泉 2017-09-15
  • 打赏
  • 举报
回复
数据分析可以分为广义的数据分析和狭义的数据分析。
广义的数据分析就包括狭义的数据分析和数据挖掘,我们常说的数据分析就是指狭义的数据分析。

数据分析与数据挖掘的区别

数据分析(狭义):
(1)定义:简单来说,数据分析就是对数据进行分析。专业的说法,数据分析是指根据分析目的,用适当的统计分析方法及工具,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用。
(2)作用:它主要实现三大作用:现状分析、原因分析、预测分析(定量)。数据分析的目标明确,先做假设,然后通过数据分析来验证假设是否正确,从而得到相应的结论。
(3)方法:主要采用对比分析、分组分析、交叉分析、回归分析等常用分析方法;
(4)结果:数据分析一般都是得到一个指标统计量结果,如总和、平均值等,这些指标数据都需要与业务结合进行解读,才能发挥出数据的价值与作用;

数据挖掘:
(1)定义:数据挖掘是指从大量的数据中,通过统计学、人工智能、机器学习等方法,挖掘出未知的、且有价值的信息和知识的过程。
(2)作用:数据挖掘主要侧重解决四类问题:分类、聚类、关联和预测(定量、定性),数据挖掘的重点在寻找未知的模式与规律;如我们常说的数据挖掘案例:啤酒与尿布、安全套与巧克力等,这就是事先未知的,但又是非常有价值的信息;
(3)方法:主要采用决策树、神经网络、关联规则、聚类分析等统计学、人工智能、机器学习等方法进行挖掘;
(4)结果:输出模型或规则,并且可相应得到模型得分或标签,模型得分如流失概率值、总和得分、相似度、预测值等,标签如高中低价值用户、流失与非流失、信用优良中差等;

综合起来,数据分析(狭义)与数据挖掘的本质都是一样的,都是从数据里面发现关于业务的知识(有价值的信息),
从而帮助业务运营、改进产品以及帮助企业做更好的决策。所以数据分析(狭义)与数据挖掘构成广义的数据分析。

BI(Business Intelligence)=数据仓库(存储层)+数据分析和数据挖掘(分析层)+报表(展现层)
番茄子桓 2017-09-10
  • 打赏
  • 举报
回复
了解所看到的知识
任性的大萝卜 2017-09-07
  • 打赏
  • 举报
回复
java是hadoop基础,scala是spark基础。 scala和java有很多相似的
qq329799 2017-08-25
  • 打赏
  • 举报
回复
欲练神功,必先自宫, 无需自宫,或能成功。
GodChou 2017-08-16
  • 打赏
  • 举报
回复
引用 4 楼 qq_35811360 的回复:
[quote=引用 3 楼 qq_37896522的回复:]java,mysql简单的linuix,shell操作,然后hadoop,hive,hbase,kafka,flume,scala,spark
javaee用学吗 linux需要精通吗[/quote] linux精通了你都可以找到很好的工作了,会一些基本的增删改查指令就行,熟悉一下linux的文件系统
谁能懂我2011 2017-08-16
  • 打赏
  • 举报
回复
谢谢各位的意见
qq_37896522 2017-08-15
  • 打赏
  • 举报
回复
java,mysql简单的linuix,shell操作,然后hadoop,hive,hbase,kafka,flume,scala,spark
qq_35811360 2017-08-15
  • 打赏
  • 举报
回复
引用 3 楼 qq_37896522的回复:
java,mysql简单的linuix,shell操作,然后hadoop,hive,hbase,kafka,flume,scala,spark
javaee用学吗 linux需要精通吗
ssfaker 2017-08-14
  • 打赏
  • 举报
回复
先从基本开始,Java、python。linux、shell这些基本的都得会
qq_38228532 2017-08-14
  • 打赏
  • 举报
回复
同问,有详细点的吗?

20,808

社区成员

发帖
与我相关
我的任务
社区描述
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
社区管理员
  • 分布式计算/Hadoop社区
  • 涤生大数据
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧