虚拟机搭建hadoop后,能做哪些学习。

ifvlr 2017-05-23 10:54:02
分布式,大数据现在越来越火,我们公司这边也想开始做分布式,大数据这一块事情。目前 领导申请了5台linux的机器(是从很强的机器上分出来的虚拟机,配置不算差,不过还得过一段时间才能下来),我们一直用的是oracle,对分布式都只是听说过,也听过hadoop,但是没有谁正真弄过,大家都在摸着石头过河。。领导想让我们先在自己机器上建立个虚拟机搭建个hadoop平台摆弄一下,回头等机器下来了再一起研究。
我个人对此还是很有兴趣的,加上最近工作不是很忙,于是在自己一边学习一边在机器上用vbox建立了3个centos7的虚拟机,其中一个master,两个slave,在网上照着教程,也搭建起来了一个hadoop平台 用http://ip:50070/验证成功了,但是下一步能用hadoop做啥,怎么用,就不知道了。。。对了,不知道这个算伪分布式还是完全分布式,到时候机器下来了,是不是也能这么搭建?
目前,我们是负责我们公司数据中心报表开发这一块,数据中心是用的是oracle。我们部门经常会接到一些数据提取的需求,会经常访问几张大的流水表。最近业务增长,每天新增上百万数据,有个模块的流水表都已经累计到了十几亿数据了,而且这个表字段还有上百个,建了一堆分区。每次需要从这个流水表中提取数据速度就会很慢。 领导想 先把这个有十几亿流水表的模块抽到分布式平台上, 用分布式的方式来存储和计算(这个模块大概有100来张表把,十亿级别的表一张,亿级别的表3~5张,千万级别的表10张左右吧)。 如果效果不错,可能会慢慢把数据中心也往上面来迁移,后期再运用算法做一些数据挖掘之类的工作,这是后话。。
以上都算是背景吧。。。
现在想问的,1,我如何把oracle的数据同步到hadoop上,同步之前是不是要先安装数据库呢?听说要装HBase分布式数据库,具体不是很明白。
2,我们现在都是用plsql连接的oracle,直接写sql做查询。如果数据同步到了hadoop上,如何连接数据库?还是查询的话是继续用原来写sql的方式写还是有专门的语法?
3,我所说的这些统计查询,hadoop能对此有比较大的性能提升么?

现在处于初学阶段,需求暂时就是上面这么个需求,还请大神指导一下下一步我能做些什么?可以做哪些事情,该学些什么技术呢? 因为刚学习,可能有些问题问得不专业,不清楚具体要做些什么,能做些什么,还请各位指点迷津。。谢谢啦
...全文
654 6 打赏 收藏 转发到动态 举报
写回复
用AI写文章
6 条回复
切换为时间正序
请发表友善的回复…
发表回复
tianfang 2017-06-13
  • 打赏
  • 举报
回复
再引两篇文章 http://blog.javachen.com/2013/04/17/access-idh-2.3-hbase-in-kettle.html https://my.oschina.net/ilovetao/blog/856083
ifvlr 2017-06-12
  • 打赏
  • 举报
回复
引用 4 楼 ifvlr 的回复:
[quote=引用 1 楼 tianfang 的回复:]
1 需要安装hbase,你可以采用cdh或其他发行版,安装简便一些
2 可以使用kettle ETL工具,从oracle,写入hbase
3 是的,分布式查询处理比oracle快很多


引用 3 楼 tianfang 的回复:
我说不好

转两个文章你看看

http://www.csdn.net/article/2014-05-29/2820004-Hive-HBase

http://www.cnblogs.com/justinzhang/p/4273470.html


请问一下,利用kettle从oracle往hbase中导入数据,我的kettle能安装在windows上吗?因为我的linux是没有图形界面的,不能再linux装这个工具,我在windows上用kettle往hbase中导入数据,它让我指定hbase-site.xml文件,我如何才能在windows上使用kettle往hbase中导入数据呢?[/quote]

我在windows kettle的安装目录 ${data-integration}/plugins/pentaho-big-data-plugin/hadoop-configurations/hdp25的这个目录下找到了hbase-site.xml文件,我是需要把这个文件的路径在

图片中的红框框中指定吗?
这个hbase-site.xml文件中内容默认是

<!--Thu May 30 10:40:32 2013-->
<configuration>
<property>
<name>zookeeper.znode.parent</name>
<value>/hbase-unsecure</value>
</property>
</configuration>

我需要修改成啥?是和我在linux装的zookeeper有关么?
另外,我用的是kettle7。


ifvlr 2017-06-12
  • 打赏
  • 举报
回复
引用 1 楼 tianfang 的回复:
1 需要安装hbase,你可以采用cdh或其他发行版,安装简便一些 2 可以使用kettle ETL工具,从oracle,写入hbase 3 是的,分布式查询处理比oracle快很多
引用 3 楼 tianfang 的回复:
我说不好 转两个文章你看看 http://www.csdn.net/article/2014-05-29/2820004-Hive-HBase http://www.cnblogs.com/justinzhang/p/4273470.html
请问一下,利用kettle从oracle往hbase中导入数据,我的kettle能安装在windows上吗?因为我的linux是没有图形界面的,不能再linux装这个工具,我在windows上用kettle往hbase中导入数据,它让我指定hbase-site.xml文件,我如何才能在windows上使用kettle往hbase中导入数据呢?
tianfang 2017-05-25
  • 打赏
  • 举报
回复
我说不好 转两个文章你看看 http://www.csdn.net/article/2014-05-29/2820004-Hive-HBase http://www.cnblogs.com/justinzhang/p/4273470.html
ifvlr 2017-05-25
  • 打赏
  • 举报
回复
引用 1 楼 tianfang 的回复:
1 需要安装hbase,你可以采用cdh或其他发行版,安装简便一些 2 可以使用kettle ETL工具,从oracle,写入hbase 3 是的,分布式查询处理比oracle快很多
您好,我们的需求是有一些很大的表需要做统计分析,暂时不会涉及到实时查询业务。我看到网上说统计类更适合用Hive。。Hive算是一个数据库吗?oracle的数据能导Hive上吗?还是说数据都是存在Hbase上,用Hive来查询? 不是很明确里面的概念,希望您能解答下。谢谢
tianfang 2017-05-24
  • 打赏
  • 举报
回复
1 需要安装hbase,你可以采用cdh或其他发行版,安装简便一些 2 可以使用kettle ETL工具,从oracle,写入hbase 3 是的,分布式查询处理比oracle快很多

20,807

社区成员

发帖
与我相关
我的任务
社区描述
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
社区管理员
  • 分布式计算/Hadoop社区
  • 涤生大数据
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧