九师兄的留言板

九师兄 2020-01-02 06:39:59

大家好，这里是我的留言板，如果有问题，欢迎大家留言，我会第一时间进行回复

...全文

406 8 打赏收藏转发到动态举报

写回复

用AI写文章

8 条回复

切换为时间正序

请发表友善的回复…

发表回复

dev_xp 2021-10-13

打赏
举报

[Flink] Flink运行报错Container released on a lost node 有后续了吗

九师兄 2021-10-13

@dev_xp 没有一直没遇到这种情况了

gnn_explorer 2020-11-20

打赏
举报

你好,请问一下是否遇到过这种情况: SparkStreaming 采用Direct的方式连接kafkfa, CPU利用率低, 怎么提高CPU利用率呢? 另外一个问题可以设置每批次读取Kafka的最小数据条数吗? 据我所知是不可以的. 还有一个问题, kafka 组有新的消费者加入的时候有重平衡策略, 在spark读取kafka之前, 先用scala api 创建一个消费者来读取当前组的offset, 然后在close这个消费者, 这之后还是这个组, 再用spark读取kafka, 查看这个组, 显示正在重平衡, 可以避免掉重平衡吗?

快乐驰骋 2020-10-19

打赏
举报

引用 3 楼 loj896 的回复:

你好，对于spark sql读取hbase中数据，然后进行join的博文，思路是：读出来的数据hbaseRDD通过transform转成dataframe,然后register 成table，利用sql语句join 。我这边测试发现比直接利用rdd写个sort merge join算法，然后直接rdd join慢。可以探讨一下为什么吗？是因为register成table开销大吗？

转DataFrame是类collect操作，会把数据回收到driver，也许这个阶段耗时较多。

loj896 2020-03-28

打赏
举报

你好，对于spark sql读取hbase中数据，然后进行join的博文，思路是：读出来的数据hbaseRDD通过transform转成dataframe,然后register 成table，利用sql语句join 。我这边测试发现比直接利用rdd写个sort merge join算法，然后直接rdd join慢。可以探讨一下为什么吗？是因为register成table开销大吗？

九师兄 2020-03-28

打赏
举报

引用 3 楼 loj896 的回复:

你好，对于spark sql读取hbase中数据，然后进行join的博文，思路是：读出来的数据hbaseRDD通过transform转成dataframe,然后register 成table，利用sql语句join 。我这边测试发现比直接利用rdd写个sort merge join算法，然后直接rdd join慢。可以探讨一下为什么吗？是因为register成table开销大吗？

我忘记了，你试试吧

weixin_42612300 2020-03-03

打赏
举报

您好我在安装Zlib的时候出现报错
rm -f libz.so libz.so.1
ln -s libz.so.1.2.11 libz.so
ln: failed to create symbolic link ‘libz.so’: Read-only file system
make: *** [libz.so.1.2.11] Error 1
请问是为什么我该怎么解决呢跪谢

CEW44712181QQQQQ 2020-02-28