Spark.mllib中ALS predictAll返回结果缺失

cloudq1120 2017-12-19 05:23:03
任务:
使用mllib中ALS做一个推荐系统的评分估计工作
训练数据约2w user , 60w item, 500w评分记录
测试数据约11w待测评分
遇到问题:
在使用测试集进行测试时 model.predicAll 返回数据少于测试条目
部分代码如下(之前已完成训练):
test_data = sc.textFile(".\data-new\\test")
tdata = test_data.map(lambda x: x.split("\t")[0:2]).map(lambda x:[int(x[0]), int(x[1])])
print(tdata.count())
# tgrade = model.predictAll(tdata).collect()
tgrade = model.predictAll(tdata)
print(tgrade.count())

上段代码输出:
119010
117567
少了1443个评分,实在搞不懂为什么
我又将缺失的评分项挑出来再送进去测试 返回结果是空
如有指教感激不尽
...全文
611 1 打赏 收藏 转发到动态 举报
写回复
用AI写文章
1 条回复
切换为时间正序
请发表友善的回复…
发表回复
见丰 2018-03-19
  • 打赏
  • 举报
回复
https://stackoverflow.com/questions/37379751/spark-als-predictall-returns-empty

1,261

社区成员

发帖
与我相关
我的任务
社区描述
Spark由Scala写成,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于MapReduce算法实现的分布式计算。
社区管理员
  • Spark
  • shiter
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧