九师兄的留言板

九师兄 2020-01-02 06:39:59
大家好,这里是我的留言板,如果有问题,欢迎大家留言,我会第一时间进行回复
...全文
299 8 打赏 收藏 转发到动态 举报
写回复
用AI写文章
8 条回复
切换为时间正序
请发表友善的回复…
发表回复
dev_xp 2021-10-13
  • 打赏
  • 举报
回复

[Flink] Flink运行报错Container released on a lost node 有后续了吗

九师兄 2021-10-13
  • 举报
回复
@dev_xp 没有 一直没遇到这种情况了
gnn_explorer 2020-11-20
  • 打赏
  • 举报
回复
你好,请问一下是否遇到过这种情况: SparkStreaming 采用Direct的方式连接kafkfa, CPU利用率低, 怎么提高CPU利用率呢? 另外一个问题可以设置每批次读取Kafka的最小数据条数吗? 据我所知是不可以的. 还有一个问题, kafka 组有新的消费者加入的时候有重平衡策略, 在spark读取kafka之前, 先用scala api 创建一个消费者来读取当前组的offset, 然后在close这个消费者, 这之后还是这个组, 再用spark读取kafka, 查看这个组, 显示正在重平衡, 可以避免掉重平衡吗?
快乐驰骋 2020-10-19
  • 打赏
  • 举报
回复
引用 3 楼 loj896 的回复:
你好,对于spark sql读取hbase中数据,然后进行join的博文,思路是:读出来的数据hbaseRDD通过transform转成dataframe,然后register 成table,利用sql语句join 。我这边测试发现比直接利用rdd写个sort merge join算法,然后直接rdd join慢。可以探讨一下为什么吗?是因为register成table开销大吗?
转DataFrame是类collect操作,会把数据回收到driver,也许这个阶段耗时较多。
loj896 2020-03-28
  • 打赏
  • 举报
回复
你好,对于spark sql读取hbase中数据,然后进行join的博文,思路是:读出来的数据hbaseRDD通过transform转成dataframe,然后register 成table,利用sql语句join 。我这边测试发现比直接利用rdd写个sort merge join算法,然后直接rdd join慢。可以探讨一下为什么吗?是因为register成table开销大吗?
九师兄 2020-03-28
  • 打赏
  • 举报
回复
引用 3 楼 loj896 的回复:
你好,对于spark sql读取hbase中数据,然后进行join的博文,思路是:读出来的数据hbaseRDD通过transform转成dataframe,然后register 成table,利用sql语句join 。我这边测试发现比直接利用rdd写个sort merge join算法,然后直接rdd join慢。可以探讨一下为什么吗?是因为register成table开销大吗?
我忘记了,你试试吧
weixin_42612300 2020-03-03
  • 打赏
  • 举报
回复
您好 我在安装Zlib的时候出现报错
rm -f libz.so libz.so.1
ln -s libz.so.1.2.11 libz.so
ln: failed to create symbolic link ‘libz.so’: Read-only file system
make: *** [libz.so.1.2.11] Error 1
请问是为什么 我该怎么解决呢 跪谢

CEW44712181QQQQQ 2020-02-28
  • 打赏
  • 举报
回复
大佬,后来你知道这个问题的答案了吗,我现在也是遇到相同的问题,一脸懵逼,找不到答案好痛苦

576

社区成员

发帖
与我相关
我的任务
社区描述
提出问题
其他 技术论坛(原bbs)
社区管理员
  • community_281
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧