spark MLlib中协同过滤算法接受的userId是int类型，但是真正的ID是字符串，怎么映射好呢？

Evil_Logic 2016-02-19 02:20:03

MLlib的cf算法接受的是Rating类型的RDD:

JavaRDD<Rating>

其中Rating代表的是两个int 和一个double

org.apache.spark.mllib.recommendation.Rating.Rating(int user, int product, double rating)

但是假如我的用户唯一标识是uuid，那么怎么转换成唯一对应的int类型？直接弄个映射表把1234和uuid对应起来么？

...全文

1630 7 打赏收藏转发到动态举报

写回复

7 条回复

切换为时间正序

请发表友善的回复…

发表回复

卢子墨 2018-11-30

打赏
举报

回复

请问当初怎么解决的哈？我也遇到这个 id是一连串数字加字符的类型[/quote]

amen000 2017-12-02

打赏
举报

回复

是的，直接弄个主键id int自增长表，与用户uuid对应，注意要去重并一一对应，用sql处理原始数据，用id替换uuid存入算法读取训练数据文件中，算完结果再将id转换回uuid

wrty1993 2017-10-24

打赏
举报

回复

请问当初怎么解决的哈？我也遇到这个 id是一连串数字加字符的类型

qq_26802917 2016-10-13

打赏
举报

回复

看一下StringIndexer的用法

sherry0909_spark 2016-08-31

打赏
举报

回复

楼主，你的问题怎么解决的啊？只能弄个映射表把1234和uuid对应起来么

stjzl 2016-04-14

打赏
举报

回复

为什么要用uuid作用户的唯一标识呢？直接用int 自增不就好了吗

Evil_Logic 2016-03-08

打赏
举报

回复

额，大家都没碰到过这个问题么？

user_info是具有相对较高速度的流，包含为用户生成的事件（UserInfo（userId：字符串，时间戳记：Long，booleanFlag：布尔值，subCategory：字符串，someValue：Float，intValue：Int）） user_update是速度相对较...

【代码】Spark MLlib中协同过滤推荐算法ALS。

协同过滤算法介绍：协同过滤常被用于推荐系统。这类技术目标在于填充“用户－商品”联系矩阵中的缺失项。Spark.ml目前支持基于模型的协同过滤，其中用户和商品以少量的潜在因子来描述，用以预测缺失项。Spark.ml使用...

协同过滤 算法介绍： 协同过滤常被用于推荐系统。这类技术目标在于填充“用户－商品”联系矩阵中的缺失项。Spark.ml目前支持基于模型的协同过滤，其中用户和商品以少量的潜在因子来描述，用以预测缺失项。Spark....

I want to build a recommendation application using spark mllib and the ALS algorithm in collaborative filtering technique. My data set has the user and product features in string form like :[{"user":...

1,261

社区成员

1,169

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章