虚拟机搭建hadoop后,能做哪些学习。
ifvlr 2017-05-23 10:54:02 分布式,大数据现在越来越火,我们公司这边也想开始做分布式,大数据这一块事情。目前 领导申请了5台linux的机器(是从很强的机器上分出来的虚拟机,配置不算差,不过还得过一段时间才能下来),我们一直用的是oracle,对分布式都只是听说过,也听过hadoop,但是没有谁正真弄过,大家都在摸着石头过河。。领导想让我们先在自己机器上建立个虚拟机搭建个hadoop平台摆弄一下,回头等机器下来了再一起研究。
我个人对此还是很有兴趣的,加上最近工作不是很忙,于是在自己一边学习一边在机器上用vbox建立了3个centos7的虚拟机,其中一个master,两个slave,在网上照着教程,也搭建起来了一个hadoop平台 用http://ip:50070/验证成功了,但是下一步能用hadoop做啥,怎么用,就不知道了。。。对了,不知道这个算伪分布式还是完全分布式,到时候机器下来了,是不是也能这么搭建?
目前,我们是负责我们公司数据中心报表开发这一块,数据中心是用的是oracle。我们部门经常会接到一些数据提取的需求,会经常访问几张大的流水表。最近业务增长,每天新增上百万数据,有个模块的流水表都已经累计到了十几亿数据了,而且这个表字段还有上百个,建了一堆分区。每次需要从这个流水表中提取数据速度就会很慢。 领导想 先把这个有十几亿流水表的模块抽到分布式平台上, 用分布式的方式来存储和计算(这个模块大概有100来张表把,十亿级别的表一张,亿级别的表3~5张,千万级别的表10张左右吧)。 如果效果不错,可能会慢慢把数据中心也往上面来迁移,后期再运用算法做一些数据挖掘之类的工作,这是后话。。
以上都算是背景吧。。。
现在想问的,1,我如何把oracle的数据同步到hadoop上,同步之前是不是要先安装数据库呢?听说要装HBase分布式数据库,具体不是很明白。
2,我们现在都是用plsql连接的oracle,直接写sql做查询。如果数据同步到了hadoop上,如何连接数据库?还是查询的话是继续用原来写sql的方式写还是有专门的语法?
3,我所说的这些统计查询,hadoop能对此有比较大的性能提升么?
现在处于初学阶段,需求暂时就是上面这么个需求,还请大神指导一下下一步我能做些什么?可以做哪些事情,该学些什么技术呢? 因为刚学习,可能有些问题问得不专业,不清楚具体要做些什么,能做些什么,还请各位指点迷津。。谢谢啦