spark通过jdbc取余分区, rdd严重数据倾斜, 大家给看看原因

liangmin11 2020-05-29 03:31:49

spark版本2.4.5, oracle版本11.2.0.4, spark通过JDBC的方式从oracle取数据, 使用oracle rowid的方式取余, 分12个区, 方法就是这样SUBSTR(ROWID,-1)),16 , 取数据没有问题, 取回来的数据理论上应该按照16个分区生成16个RDD均匀存放吧? 现在我的情况是16个RDD分区确实生成了, 但是所有的数据都放在了0号分区, 也就是第一个分区里, 其他15个分区都是空的, 您大家帮我看看怎么回事. 还有一个问题就是取余不应该返回整数么？为什么进到rdd里的余数不是9而是9.000000000, 代码和数据如下：

jdbcDF = spark.read.format("jdbc")\
.option("driver", "oracle.jdbc.OracleDriver")\
.option("url", "jdbc:oracle:thin:@//172.28.88.26:1521/DSHIELD")\
.option("dbtable", "(SELECT MOD(ASCII(SUBSTR(ROWID,-1)),20) RN,A.* FROM CFA_PERSONBASEINFO_2 A)")\
.option("user", "FISS_NEW")\
.option("password", "FISS_NEW")\
.option("numPartitions", 16)\
.option("partitionColumn", "RN")\
.option("lowerBound", 1)\
.option("upperBound", 1000000)\
.option("fetchsize",100000)\
.load()

Row(RN=Decimal('9.0000000000'), PERSONID=Decimal('25'), NAME='王艳的', EVERNAME='25', CARDTYPE='I', CARDID='430700199308225054', BIRTHDAY='1993-08-22', SEX='M', GETJOBTIME='26', WORKINGYEARS='19', NATIONLITY='中国', BIRTHPLACE='广东揭阳', NATION='汉族', POLITY='Q', FOREIGNLANG='英语', HIGHESTDEGREE='U', HIGHSTUDY=None, TECHNICRANK='N', ADDRESS='河北省邯郸市邯山区宜都花园8号楼2单元512', POSTCODE='528248', TELEPHONE='0757-28785008', CELLPHONE='13690170786', EMAIL='hel@risingqh.com', LINKMAN='叶颖怡', LINKMANPHONE='13392231816', ADDRESSBIRTH='广州', FAMILYINFO=None, UPDATEDATE='2015-09-28', UPDATETIME='21:10:21', MODIFYID='1064818', MODIFYTYPE='M', MODIFYSTATE='X', MODIFYUSER='G01137-B02')

...全文

793 3 打赏收藏转发到动态举报

写回复

用AI写文章

3 条回复

切换为时间正序

请发表友善的回复…

发表回复

LinkSe7en 2020-06-15

打赏
举报

引用 2 楼 liangmin11 的回复:

[quote=引用 1 楼 LinkSe7en 的回复:] 为什么进到rdd里的余数不是9而是9.000000000 因为你用的是Oracle的函数返回decimal MOD(ASCII(SUBSTR(ROWID,-1)),20) 你这段看得我云里雾里，为什么要模20？
val numPartition = 16
jdbcDF = spark.read.format("jdbc")\
.option("driver", "oracle.jdbc.OracleDriver")\
.option("url", "jdbc:oracle:thin:@//172.28.88.26:1521/DSHIELD")\
.option("dbtable", s"(SELECT MOD(ASCII(SUBSTR(ROWID,-1)),${numPartition}) RN,A.* FROM CFA_PERSONBASEINFO_2 A)")\
.option("user", "FISS_NEW")\
.option("password", "FISS_NEW")\
.option("numPartitions", numPartition)\
.option("partitionColumn", "RN")\
.option("lowerBound", 0)\
.option("upperBound", numPartition)\
.option("fetchsize",100000)\
.load()
试试

mod20是为了分20个区, 好并行读数据, 现在已经确定了, 是upperbound的问题, 也是改成了跟你推荐的一样分区数. 现在遇到另外一个问题, spark读数据很快, 处理rdd也很快, 但是加工完数据以后再写入oracle的时候, 会严重拥堵, 有没有什么好办法可以spark均匀写入[/quote] 观察一下写入Oracle的时候有多少个Task（分区）。过大不好。在df.write前，改成df.repartition(xx).write会好很多。具体多少，要看你Oracle的性能。建议改成小于其他访问Oracle应用的JDBC连接池最大连接数。

liangmin11 2020-06-11

打赏
举报

引用 1 楼 LinkSe7en 的回复:

为什么进到rdd里的余数不是9而是9.000000000 因为你用的是Oracle的函数返回decimal MOD(ASCII(SUBSTR(ROWID,-1)),20) 你这段看得我云里雾里，为什么要模20？


val numPartition = 16
jdbcDF = spark.read.format("jdbc")\
.option("driver", "oracle.jdbc.OracleDriver")\
.option("url", "jdbc:oracle:thin:@//172.28.88.26:1521/DSHIELD")\
.option("dbtable", s"(SELECT MOD(ASCII(SUBSTR(ROWID,-1)),${numPartition}) RN,A.* FROM CFA_PERSONBASEINFO_2 A)")\
.option("user", "FISS_NEW")\
.option("password", "FISS_NEW")\
.option("numPartitions", numPartition)\
.option("partitionColumn", "RN")\
.option("lowerBound", 0)\
.option("upperBound", numPartition)\
.option("fetchsize",100000)\
.load()

试试

mod20是为了分20个区, 好并行读数据, 现在已经确定了, 是upperbound的问题, 也是改成了跟你推荐的一样分区数. 现在遇到另外一个问题, spark读数据很快, 处理rdd也很快, 但是加工完数据以后再写入oracle的时候, 会严重拥堵, 有没有什么好办法可以spark均匀写入

LinkSe7en 2020-06-09

打赏
举报

为什么进到rdd里的余数不是9而是9.000000000 因为你用的是Oracle的函数返回decimal MOD(ASCII(SUBSTR(ROWID,-1)),20) 你这段看得我云里雾里，为什么要模20？


val numPartition = 16
jdbcDF = spark.read.format("jdbc")\
.option("driver", "oracle.jdbc.OracleDriver")\
.option("url", "jdbc:oracle:thin:@//172.28.88.26:1521/DSHIELD")\
.option("dbtable", s"(SELECT MOD(ASCII(SUBSTR(ROWID,-1)),${numPartition}) RN,A.* FROM CFA_PERSONBASEINFO_2 A)")\
.option("user", "FISS_NEW")\
.option("password", "FISS_NEW")\
.option("numPartitions", numPartition)\
.option("partitionColumn", "RN")\
.option("lowerBound", 0)\
.option("upperBound", numPartition)\
.option("fetchsize",100000)\
.load()

试试