数据源格式的改变在所难免。 由于zip压缩格式不支持split切分读取。mr不会尝试切分zip压缩文件,因为它知道输入的是zip压缩文件(通过ext)且zip不支持切分。所以我觉得你再map的时候应该会拿到整个文件(通过block的Index)。拿到之后将其转化为其他可以压缩并且支持split的压缩格式,如RCFile、Avro或者直接存储解压后的文件。然后再重新mr操作。
20,808
社区成员
4,690
社区内容
加载中
试试用AI创作助手写篇文章吧