优质创作者: 人工智能技术领域

领域专家: 数据科学与机器学习技术领域

2022-08-02 14:57:11

加精

PySpark数据分析基础：PySpark原理详解

总体而言，PySpark是借助Py4j实现Python调用Java，来驱动Spark应用程序，本质上主要还是JVM runtime，Java到Python的结果返回是通过本地Socket完成。虽然这种架构保证了Spark核心代码的独立性，但是在大数据场景下，JVM和Python进程间频繁的数据通信导致其性能损耗较多，恶劣时还可能会直接卡死，所以建议对于大规模机器学习或者Streaming应用场景还是慎用PySpark，尽量使用原生的Scala/Java编写应用程序，对于中小规模数据量下的简单离线任务，可以.

https://blog.csdn.net/master_hunter/article/details/125841523

63 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

数学建模岛

128,136

社区成员

1,226

社区内容

发帖

与我相关

我的任务

python数据挖掘机器学习个人社区浙江省·杭州市

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

欢迎加入数学建模知识共享小岛~

岛主定期共享每个数学建模竞赛的思路和代码（纯开源免费获取）

有需要可以联系岛主

试试用AI创作助手写篇文章吧

+ 用AI写文章