spark dataframe persist（disk_only）之后数据都变成了0

菜鸟磊子 2016-10-18 03:54:55

从hive数据表中读取特征数据，为了使用minmaxscale归一化操作，需要将特征转换成vector类型，就有了一下代码：

    DiskLevel=StorageLevel.DISK_ONLY

    udfunction=udf(lambda column: Vectors.dense(column),VectorUDT())

    spark.sql("use itemRecommend")

    OriginalFeatures=spark.sql("select * from feature_table")

    columns=OriginalFeatures.columns

    VectorFeatures=OriginalFeatures

    i=0

    for column in columns:

        if column != "tag":

            i=i+1

            print(column)

            VectorFeatures=VectorFeatures.withColumn(column,udfunction(VectorFeatures[column]))

            #VectorFeatures.persist(storageLevel=DiskLevel)

            if i==20:

                i=0

                VectorFeatures.persist(storageLevel=DiskLevel)

                VectorFeatures.count()

                break

由于特征属性较多，所以想每20个属性persit一次，但是每次persist之后 VectorFeatures 数据都变成了0,很费解，求指导。

...全文

608 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

Dataframe API cache()与persist() - cache()始终以默认存储级别MEMORY_AND_DISK缓存，而persist()允许指定存储级别 Dataframe的API repartition() VS coalesce() - repartition()确实在存储器中的新鲜重新分区，它...

对于简短的回答,我们可以看一下关于spark.local.dir的the documentation：Directory to use for “scratch” space in Spark, including map output files and RDDs that get stored on disk. This should be on a ...

spark中DataFrame或Dataset里的cache()方法默认存储等级为MEMORY_AND_DISK，这跟RDD.cache()的存储等级MEMORY_ONLY是不一样的。理由是重新计算内存中的表的代价是昂贵的。MEMORY_AND_DISK表示如果内存中缓存不下，就...

Spark 中一个很重要的能力是将数据持久化（或称为缓存），在多个操作间都可以访问这些持久化的数据。当持久化一个 RDD 时，每个节点的其它分区都可以使用 RDD 在内存中进行计算，在该数据上的其他 action 操作将直接...

（1）Rdd持久化当调用RDD的persist()或者cache()方法时，这个RDD的分区会被存储到缓存区中，Spark会根据spark.storage.... Spark默认的 cache() 操作会以MEMORY_ONLY 的存储等级持久化数据，意味着缓存新的RD...

1,258

社区成员

1,168

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章