请问如何对大数据求svd

店小一 2014-08-17 11:43:17
原始数据是这样的:
三列,分别是item,user 和评分。总共1500万多行,其中不同的item有70万左右,item有2万。
这份数据好像不能再转换成矩阵了吧, 不然我试了下会有30多g,而且很多未评分的user-item关系为0。
我希望对其用svd做推荐,但是这么大的数据不能表示成矩阵,该如何求svd呢?
刚开始学机器学习,希望能得到帮助,谢谢。
...全文
489 4 打赏 收藏 转发到动态 举报
写回复
用AI写文章
4 条回复
切换为时间正序
请发表友善的回复…
发表回复
SG90 2014-08-21
  • 打赏
  • 举报
回复
参考一篇文章:http://www.cnblogs.com/LeftNotEasy/archive/2011/01/19/svd-and-applications.html
SG90 2014-08-21
  • 打赏
  • 举报
回复
SVD在大数据集上一般用迭代法来求解,通过Hadoop的MapReduce框架来加速。
ma130889 2014-08-19
  • 打赏
  • 举报
回复
在Hadoop中可以使用Mahout机器学习框架。具体参考mahout中的taste模块
  • 打赏
  • 举报
回复
spark mllib 包中支持 svd python numpy 包也有svd 函数支持

20,808

社区成员

发帖
与我相关
我的任务
社区描述
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
社区管理员
  • 分布式计算/Hadoop社区
  • 涤生大数据
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧