社区
Spark
帖子详情
spark如何读取MinIO中的数据?
nicodeme
2021-01-07 02:30:50
spark如何读取MinIO中的数据,hadoop的aws包可以吗?
...全文
5678
1
打赏
收藏
spark如何读取MinIO中的数据?
spark如何读取MinIO中的数据,hadoop的aws包可以吗?
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
1 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
nicodeme
2021-01-07
打赏
举报
回复
自己顶一下。顺便解答一下。MinIo支持S3协议,hadoop的aws包完全支持从minIO中读取数据
py
spark
下
读取
minio
数据
@py
spark
下
读取
minio
数据
文件的问题总结 记录一下自己花了一下午时间在py
spark
读取
minio
数据
文件遇到的坑 因为
spark
没法直接进行像pd.read_csv一样对HTTPresponse的url的
读取
,但是
minio
支持s3的接口,所以按照对于s3的
读取
就ok了。
spark
读取
s3文件时,需要两个额外的jar外部依赖包,hadoop-aws.jar 和aws-java-sdk.jar ,同时这两个版本是需要对应的。并且要确保hadoop-common和hadoop-aws的版本必须一致
spark
读写
minio
文件代码实践
Minio
n作为一个先进的对象存储方案,对于大
数据
和人工智能的支持有着天然的优势。它支持与
Spark
\Flink等技术方案进行整合,并且通过S3协议实现
数据
查询的下沉,这让大
数据
的存储与查询分离提供了事实依据。(2) 根据部署的
minio
服务的信息(如端口、Access Key、Secret Key、存储桶名称等),创建一个
Spark
Session对象,可以使用如下步骤进行读写
Minio
。(1) 首先,需要部署
minio
服务集群,搭建
minio
对象存储桶,可以参考我的文章。
spark
读写
minio
【文件名称修改、Dataframe 写成单个文件,删除文件、bug修复等】
文章大纲
minio
简介
spark
dataframe 保存 csv
spark
操作
minio
重命名单个文件重命名多个文件重命名参考文档
minio
简介
MinIO
是全球领先的对象存储先锋,目前在全世界有数百万的用户. 在标准硬件上,读/写速度上高达183 GB / 秒 和 171 GB / 秒。 对象存储可以充当主存储层,以处理
Spark
、Presto、TensorFlow、H2O.ai等各种复杂工作负载以及成为Hadoop HDFS的替代品。
MinIO
用作云原生应用程序的主要存储,与传统对象存
spark
什么是
数据
湖? 什么是deltalake?
What is a data lake? A data lake is a centralized data repository that is capable of storing both traditional structured (row and column) data, as well as unstructured, non-tabular raw data in its native format (like videos, images, binary files, and more
hadoop,
spark
如何集成Mino
MinIO
是一个S3兼容的对象存储系统,可以与Hadoop和
Spark
等大
数据
框架进行集成,实现
数据
存储和分析。
Spark
1,258
社区成员
1,168
社区内容
发帖
与我相关
我的任务
Spark
Spark由Scala写成,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于MapReduce算法实现的分布式计算。
复制链接
扫一扫
分享
社区描述
Spark由Scala写成,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于MapReduce算法实现的分布式计算。
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章