sqoop进行大量oracle表导入到HDFS发生的数据倾斜

qq_29089829 2017-11-23 10:12:52

由于数据的庞大以及年代的的久远，即便设置-m 30都是基本集中在一个map中，尤其是对于几十g数据的表，这种情况下，split by没有任何的用处，有没有其他的解决方法，而且是编写shell脚本大量的表一次性导，不是一张一张表导入，版本号是1.4.4，没有1.4.5的sqoop for oracle，网上查到可以用--query的方法，自己设定sql语句，但是并不清楚怎么去编写，sqoop自己提供的min,max(primary key)感觉已经是最优的sql了

...全文

1494 4 打赏收藏转发到动态举报

写回复

4 条回复

切换为时间正序

请发表友善的回复…

发表回复

码太狼 2018-01-17

打赏
举报

回复

看一下sqoop源码map的实现。根据函数计算出primary key的max和min，然后（max-min）/map数量，计算出的值平均分给map，map根据各自的primary key的max和min进行导数据。如果primary key本来就是不均匀的，map分配的数据量也不会均匀。所以一般情况下设置map=1就可以了。或者根据表的实际字段信息，用sql语句将表分为多个sql开启多个sqoop导出数据。

缱绻浮生丶 2018-01-16

打赏
举报

回复

数据量庞大的时候，建议增量和多个map去跑任务

缱绻浮生丶 2018-01-16

打赏
举报

回复

#!/bin/sh echo "importTable:DM_COLLECT_C_ORG_MAPPING " step_s=$(date +'%Y-%m-%d %H:%M:%S') /usr/lib/sqoop-1.4.6/bin/sqoop import --connect jdbc:db2://10.80.56.16:50001/CPI_DM --username **** --password **** --query 'select ORG_MAPPING_ID,SYS_CODE,S_ORG_CODE,S_ORG_NAME,ORG_CODE,ORG_NAME,DATA_VERSION,DATA_STATUS from DM.COLLECT_C_ORG_MAPPING where 1=1 and $CONDITIONS' --append --target-dir /spicins/dmm/COLLECT_C_ORG_MAPPING -m 1 --null-string '' --null-non-string '' --fields-terminated-by ',' step_e=$(date +'%Y-%m-%d %H:%M:%S') step_time=$(($(date +%s -d "$step_e") - $(date +%s -d "$step_s"))) echo "importTable DM_COLLECT_C_ORG_MAPPING exe time:" echo "scale=2;$step_time / 60"|bc

qq_29089829 2017-12-14

打赏
举报

回复

有没有人回答，之前发错区块了，之所以需要解决这个是因为大表会卡死，然后十几个小时过后就会出现快照过旧然后任务就停滞卡死需要kill掉了

Sqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。本视频从讲解sqoop原理开始,详细讲述了sqoop的安装,使用案例和常用的命令,实现快速上手sqoop的使用

上一篇已经完成了sqoop2的安装，本篇文章介绍sqoop2将数据从Oracle导入hdfs已经从hdfs导入Oracle 1、连接sqoop2服务 sqoop2是c/s模式，之前安装并启动的是sqoop的服务端，如果想要使用和操作sqoop2，需要通过客户端连接到服务端，然后使用。只要保证服务端正常处于运行状态，客户端可以从任意终端发起。也就是说，客户端可以是一台只解压了sqoop2安装包的

有时候oracle中的数据中会存在换行符（" \n "）然而hive1.1.0中数据换行默认识别的也是\n，最坑的是还不能对它进行修改（目前我没有查出修改的方法，大家要是有办法欢迎在评论区讨论）那我只能对数据进行处理了，以前使用sqoop的时候也有这个问题，所幸sqoop有解决换行符的语句，，，，巴拉巴拉，，，扯远了。其中--jars 是指定连接oracle的驱动，ojdbc7.jar对应的是oracle12版本，--master local /...指定的是运行的python文件。.........

sqoop是一个开源工具，主要用处是在Hadoop（hive，hdfs，hbase）与传统的数据库（mysql，Oracle）之间进行数据的传递 MySQL到hdfs的默认加载首先在mysql里面建表并加载数据然后创建一个文件夹，在里面创建编写conf文件 import --connect jdbc:mysql://master:3306/student?useSSL=false --username root --password 123456 --table student --target-d

一、sqoop概述： Sqoop(发音：skup)是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。 Sqoop项目开始于200...

Hadoop生态社区

20,811

社区成员

4,691

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章