spark sql 读取hive数据表后，如何对数据中每列进行归一化，求指教

菜鸟磊子 2016-10-12 07:22:34

spark sql 读取hive数据表后，如何对数据中每列进行归一化，求指教
数据量较大，样本数为16万左右，特征有300多个。

...全文

3651 7 打赏收藏转发到动态举报

写回复

7 条回复

切换为时间正序

请发表友善的回复…

发表回复

jyli2_11 2017-03-30

打赏
举报

回复

我也遇到了同样的问题，请问每一列转为vector的udf内部是怎么写的呢？

菜鸟磊子 2016-10-16

打赏
举报

回复

引用 4 楼 hehe123456ZXC 的回复:

[quote=引用 1 楼 qq_26802917 的回复:] 归一化的方法有很多种吧？楼主确定300多个特征都要做？？ StandardScaler，MinMaxScaler 楼主看一下是否对你有帮助吧

谢谢回复，我最近在学习spark 的数据预处理，特征数据时从hive中读取到的，数据原格式为： DataFrame[ tag: int, i1: bigint, i2: bigint, i3: bigint, i4: bigint, i5: bigint ] 然后我想对特征的一些列进行归一化。但是我看到spark提供的归一化方法中Normalizer 或者StandardScaler 归一化方法只针对vector类型。而且我发现spark的归一化是行归一化，我想进行列归一化。有点搞不明白，求指教。[/quote]

引用 5 楼 qq_26802917 的回复:

那你需要的是一个行转列的操作 PIVOT

自己找到了解决方法了，使用的是MinMaxScaler，它可以针对列进行列的归一化，首先利用udf将列的每个的特征变成vector类型，然后针对每列进行MinMaxScaler操作，最后再利用VectorAssembler 将所有将分散的vector分散的特征向量聚合成一个vector，将其聚合为"features" ，然后扔进LR中进行训练。多谢你的指导。自己自学spark,遇到了不少小问题，多谢您的指导。

qq_26802917 2016-10-16

打赏
举报

回复

那你需要的是一个行转列的操作 PIVOT

菜鸟磊子 2016-10-14

打赏
举报

回复

引用 1 楼 qq_26802917 的回复:

归一化的方法有很多种吧？楼主确定300多个特征都要做？？ StandardScaler，MinMaxScaler 楼主看一下是否对你有帮助吧

谢谢回复，我最近在学习spark 的数据预处理，特征数据时从hive中读取到的，数据原格式为： DataFrame[ tag: int, i1: bigint, i2: bigint, i3: bigint, i4: bigint, i5: bigint ] 然后我想对特征的一些列进行归一化。但是我看到spark提供的归一化方法中Normalizer 或者StandardScaler 归一化方法只针对vector类型。而且我发现spark的归一化是行归一化，我想进行列归一化。有点搞不明白，求指教。

菜鸟磊子 2016-10-14

打赏
举报

回复

谢谢回复，我最近在学习spark 的数据预处理，特征数据时从hive中读取到的，数据原格式为： DataFrame[ tag: int, i1: bigint, i2: bigint, i3: bigint, i4: bigint, i5: bigint ] 然后我想对特征的一些列进行归一化。但是我看到spark提供的归一化方法中Normalizer 或者StandardScaler 归一化方法只针对vector类型。而且我发现spark的归一化是行归一化，我想进行列归一化。有点搞不明白，求指教。

菜鸟磊子 2016-10-14

打赏
举报

回复

谢谢回复，我最近在学习spark 的数据预处理，特征数据时从hive中读取到的，数据原格式为： DataFrame[ tag: int, i1: bigint, i2: bigint, i3: bigint, i4: bigint, i5: bigint ] 然后我想对特征的一些列进行归一化。但是我看到spark提供的归一化方法中Normalizer 或者StandardScaler 归一化方法只针对vector类型。而且我发现spark的归一化是行归一化，我想进行列归一化。有点搞不明白，求指教。

qq_26802917 2016-10-13

打赏
举报

回复

归一化的方法有很多种吧？楼主确定300多个特征都要做？？ StandardScaler，MinMaxScaler 楼主看一下是否对你有帮助吧

Spark SQL主要目的是使得用户可以在Spark上使用SQL，其数据源既可以是RDD，也可以是外部的数据源（比如Parquet、Hive、Json等）。Spark SQL的其中一个分支就是Spark on Hive，也就是使用Hive中HQL的解析、逻辑执行计划翻译、执行计划优化等逻辑，可以近似认为仅将物理执行计划从MR作业替换成了Spark作业。本文就是来介绍如何通过Spark SQL来读取...

在服务器中直接使用spark-sql 来读取hive表的数据，使用spark引擎进行hive表数据查询，既快又方便。实现起来很简单，只需要把安装hive的hive-site.xml 配置文件，复制到spark安装的conf/ 目录下即可，然后执行 spark-sql ，在交互界面你就能读取hive 的库和表。 ...

[TOC] Spark SQL可以读取hive中的数据,开启Thrift JDBC/ODBC Server服务可以使其他语言客户端使用Spark SQL.关于Spark SQL中对hive的支持,官方文档说明让人疑惑,好像没有把hive编译进去,需要自己手动编译,官方文档提及: Spark SQL also supports reading and writing data stored in

Spark SQL将Hive表中的数据写入到MySQL数据库中

Spark SQL支持从Hive存储中读写数据。然而，Hive存在很多的依赖，而这些依赖又不包含在默认的各类Spark发型版本中。如果将Hive的依赖放入classpath中，Spark将自动加载它们。值得注意的是，这些依赖必须在所有节点中都存在。因为他们需要通过Hive的序列化和反序列化库(SerDes)来访问存储在Hive中的数据。在Spark中配置Hive，需要将hive-site.xml, core-site.xml, hdfs-site.xml放置到Spark的conf/目录下。需要操作H

1,271

社区成员

1,170

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章