最近邻协同过滤算法k值如何确定

baidu_29321183 2015-11-14 09:14:40

最近邻协同过滤算法中，k值一般由用户指定吗？该如何选出最适合目标用户的k值大小（邻居集大小），以提高预测的准确高效性。

...全文

325 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

针对当前协同过滤推荐算法易受数据稀疏性与冷启动的问题，提出了一种改进最近邻的协同过滤推荐算法。建立用户-项目评分矩阵，并度量项目之间、用户之间的相似性，获取项目和用户的最近邻居，其中最近邻居的最优参数k值采用粒子群算法选择，在MovieLens和Book-Crossing数据集上进行了仿真对比实验。结果表明，相对于其他协同过滤推荐算法，该算法降低了平均绝对误差值，提升了推荐准确度，达到提高推荐质量效果的目的。

基于大数据的推荐算法研究大数据应用-基于大数据的推荐算法研究全文共35页，当前为第1页。论文框架 2 TopKS算法 3 基于项目层次结构相似性的推荐算法 4 矩阵分解并行化 5 总结与展望 1 课题背景与研究意义大数据应用-基于大数据的推荐算法研究全文共35页，当前为第2页。图书推荐新闻推荐亚马逊当当网淘宝网央广网大数据应用-基于大数据的推荐算法研究全文共35页，当前为第3页。课题背景启发式的协同过滤 代表的方法：KNN 基于模型的协同协同过滤 代表的方法：矩阵分解大数据应用-基于大数据的推荐算法研究全文共35页，当前为第4页。课题背景余弦距离皮尔逊相关系数 ……… user1(3, 2, ?, 4) user2(2, 3, ?, ?) user3(?, ?, 4, 3) user4(4, ?, ?, 1) user5(?, 5, 5, ?) 大数据应用-基于大数据的推荐算法研究全文共35页，当前为第5页。课题背景 . X21*y21 + x22* y22 + x23 * y23 3 u2 v2 . = 交替下降梯度下降大数据应用-基于大数据的推荐算法研究全文共35页，当前为第6页。研究意义用户量猛增项目（商品、新闻等）数量猛增推荐算法的可扩展性不强大数据应用-基于大数据的推荐算法研究全文共35页，当前为第7页。 TopkS算法采用余弦距离和皮尔逊相关公式累加性特点引入倒排索引数据结构结合TopK思想 TopKS是Top K Similarity的简写，即最大的前K个相似度。主要包含以下三部分：大数据应用-基于大数据的推荐算法研究全文共35页，当前为第8页。 TopkS算法余弦距离皮尔逊相关系数大数据应用-基于大数据的推荐算法研究全文共35页，当前为第9页。 TopkS算法倒排索引大数据应用-基于大数据的推荐算法研究全文共35页，当前为第10页。 TopkS算法计算u1和其他用户的相似度大数据应用-基于大数据的推荐算法研究全文共35页，当前为第11页。 TopkS算法假设查找用户ui的最近邻用户，当前计算到用户ui和uj第k1个共同项目（i != j），而ui和uj有k个共同评分项目,则分为两种情况：如果uj已经在最近邻列表LS中，则直接更新列表中的相似度；如果uj不在最近邻列表LS中，则计算用户ui和uj可能的最大值，下面是余弦距离和皮尔逊相关系数可能的最大值：余弦距离大数据应用-基于大数据的推荐算法研究全文共35页，当前为第12页。 TopkS算法皮尔逊相关系数计算出之后，是从LS中剔除最小值，插入uj 把uj加入黑名单否大数据应用-基于大数据的推荐算法研究全文共35页，当前为第13页。 TopkS算法不同稀疏度对近邻计算的影响大数据应用-基于大数据的推荐算法研究全文共35页，当前为第14页。 TopkS算法不同规模用户数量上的比较实验大数据应用-基于大数据的推荐算法研究全文共35页，当前为第15页。 TopkS算法不同K值对执行时间的影响大数据应用-基于大数据的推荐算法研究全文共35页，当前为第16页。基于项目层次结构相似性的推荐算法大数据应用-基于大数据的推荐算法研究全文共35页，当前为第17页。基于项目层次结构相似性的推荐算法相似度度量节点之间的距离度量：然后利用最短路径算法Dijkstra结合TopK思想找到最相近的项目；大数据应用-基于大数据的推荐算法研究全文共35页，当前为第18页。基于项目层次结构相似性的推荐算法三种算法效果对比大数据应用-基于大数据的推荐算法研究全文共35页，当前为第19页。矩阵分解并行化目标函数采用梯度下降方法，V的更新公式通常是：这里注意：是一个常数，对因子矩阵中的每个元素都一样大数据应用-基于大数据的推荐算法研究全文共35页，当前为第20页。矩阵分解并行化同理，用户因子矩阵U也可以近似为矩阵乘除的形式. , V的更新公式变为：这里把步长修改为因子矩阵中每个元素一个值，如下：大数据应用-基于大数据的推荐算法研究全文共35页，当前为第21页。矩阵分解并行化 MapReduce编程模型大数据应用-基于大数据的推荐算法研究全文共35页，当前为第22页。矩阵分解并行化 a11 a12 a13 a21 a22 a23 a31 a32 a33 a41 a42 a43 左矩阵A b11 b12 b13 b14 b21 b22 b23 b24 b31 b32 b33 b34 右矩阵B 内积法外积法分块矩阵乘法 c11 c12 c13 c14 c21 c22 c23 c24 c31 c32 c33 c34 c41 c42 c43 c44 结果矩阵

祝小松，985高校在读博士生，对数值计算有着浓厚的兴趣，希望有一天能够开发出自己的数值计算软件，赶超ANSYS，ABAQUS等，中华不再受“华为之苦”。本人自己在硕士期间也用过很多有限元软件，如ANSYS，ABAQUS,COMSOL,ADAMS等，现在仿真更是五花八门，做仿真计算不仅仅需要知道怎么去使用软件，还需要知道其背后的原理，后者占的比重应更大。盲目的去学习各种软件的使用，无法帮助自身能力提升，最多也是个熟练的技术工，并没有多大的上升空间。因此，希望各位仿真工作者们更应该注重基本理论的学习，最起码对自己仿真出来的结果心里有个谱，软件算的对不对，在不在忽悠你。软件就是一个高级一点的计算器而已。让我们自己去玩软件，而不是软件在玩我们。案例：此系列课程已将在“技术邻”、仿真秀、知乎、CSDN上发布，受到众多同学的点赞支持，所有内容均为一手原创。

什么叫⼤数据⼈物画像_基于⼤数据的⽤户画像推荐模式基于⽤户画像，根据每个⽤户使⽤路径与个⼈偏好推荐内容已经成为内容类产品常见的功能模式，也是提升活跃度与转化率最有效的⽅式之⼀。在之前的课程中，我们介绍了⽤户画像的定义、标签体系与创建过程，本期课程则重点介绍⼏种不同的推荐模式与优缺点。常见的推荐逻辑常见的推荐逻辑根据⽤户信息进⾏推荐，⽤户进⼊产品后需要完善个⼈信息及选择兴趣标签，系统根据⽤户的个⼈信息(年龄、性别、地域)及所选兴趣标签与内容匹配，推荐内容标签匹配度⾼的内容。这种推荐模式的优点在于技术门槛低，由产品经理⾃⼰设计⼀套推荐规则就可以实现。但缺点也很明显，⼀⽅⾯⽤户会不停收到相似的内容，很难拓展新的关注点，另⼀⽅⾯，内容⽣产商会根据推荐机制针对性设置内容的标签、关键字等信息，将低质量的内容推荐给⽤户，造成⽤户流失。基于⼤数据的推荐模式基于⼤数据的推荐模式该模式的核⼼在于，通过建⽴较复杂⽤户画像模型，收集各种途径收集⽤户⾏为数据。根据⽤户业务数据⽣成⽤户画像，计算⽤户画像相似度，对⽤户画像进⾏分组。通过内容标签与⽤户画像标签离线计算推荐内容。该推荐模式主要包含⽤户画像建模、⽤户画像聚类、内容标签、内容推荐四个阶段。⽤户画像建模⽤户画像建模 1、分析业务模型, 建⽴标签体系, 确定标签取值范围 2、分析标签值的数据来源, 按需收集数据, 计算标签值 3、存储⽤户画像数据, 并及时更新⽤户画像最终的结果是往往是⼀张表，每⾏为⼀个⽤户的⽤户画像，存储了⽤户对应的每个标签值。例⼦：⽤户画像聚类⽤户画像聚类选择合适的聚类算法, 计算每个⽤户画像的相似度, 为⽤户分组常见的聚类算法: 层次化: 最近邻⽅法, 最远邻⽅法, 组内聚类法, 组间聚类法, Ward聚类法, 正⼆进制法, 粗聚类算法划分式: 图论算法, K均值算法, 模糊C均值基于密度和⽹格: GDILC 算法, SGC算法, GCHL算法, TFCTMO算法, ST-DBSCAN 其它: ACODF 该部分内容由算法经理主导，作为产品经理不⽤参与。内容标签内容标签为了能把内容推荐给⽤户, 需要为每个内容打上相应的标签, 把内容标签化。与⽤户画像类似, 需要根据业务⽬标来给内容打标签。内容推荐内容推荐主要有三种推荐⽅法。 1、协同过滤推荐⽅法基于⽤户的协同过滤: ⽤户A喜欢A内容, 那么跟⽤户A类似的⽤户B也喜欢A内容基于内容的协同过滤: ⽤户A喜欢A内容, 那么同样喜欢A内容的⽤户B喜欢的内容B⽤⽤户A也喜欢。优势: 有效的使⽤⽤其它⽤户的反馈信息, 提⾼准确度基于⽤户相似推荐可以发现⽤⽤户的潜在兴趣, 增加推荐的多样性劣势: ⽤户和物品存在冷启动问题, 新⽤⽤户新内容没有⾏为数据, 所以⽆法做出推荐，可解释性不稳定, 因为不对内容做分析, 所以⽆法根据深层特征和修改来推荐。相关算法: 关系矩阵及矩阵计算：⽤户关系 U-U 矩阵、内容关系 V-V 矩阵、⽤户-内容 U-V 矩阵基于记忆的协同过滤算法基于模型的协同过滤算法：基于隐因⼦模型的推荐算法、基于朴素贝叶斯分类的推荐算法。 2、基于内容的推荐⽅法: ⽤户喜欢内容A , 那么跟内容A 类似的内容B ⽤户也喜欢优势: ⽤户间相互独⽴独⽴, 只依赖单⼈偏好因为内容类似, 所以推荐的内容直观上很容易解释新内容不存在冷启动问题, 因为只要内容相似就能被推荐劣势: 对内容标签要求⾼不利于挖掘⽤户的潜在兴趣存在新⽤户冷启动问题 3、基于知识的推荐⽅法: ⽤⼤量的数据, 训练专家模型, ⽤专家来对⽤户偏好推荐混合推荐⽅法: 根据业务场景, 将以上⽅法进⾏混合, 优化推荐结果。并⾏：加权式——对多个结果加权计算获得最终结果切换式——根据场景使⽤不同的⽅法混杂——同时⽤以上两种串⾏：层叠式——基于⼀个推荐结果再做⼀次推荐级联式——将⼀种推荐学习到的模型作为另⼀推荐的输⼊⼩结基于⼤数据的推荐模式，可以有效实现"千⼈千⾯"的推荐模式，为⽤户不断输送感兴趣的内容，并挖掘⽤户潜在兴趣点。对于没有使⽤的记录的新⽤户，则采⽤常规推荐模式，当有了记录后根据⽤户⾏为进⾏⼤数据推荐。具体采⽤怎样的推荐模式，则需要产品经理根据产品特性结合企业的实际技术能⼒进⾏选择。

1、协同过滤则是推荐系统中较为广泛使用的推荐技术之一，其实质是对用户的历史评分矩阵数据进行建模分析从而为用户推荐合适的产品。 协同过滤在学术界和工业界已经得到了广泛的研究并提出了很多算法。其中比较常见的有基于最近邻方法（包括基于用户最近邻和基于项目最近邻的方法）、Slope One、隐因子模型（主要包括受限玻尔兹曼机模型和矩阵分解技术）、贝叶斯模型、聚类技术和决策树方法等等。其中最常用也最有效的

搜索引擎技术

2,760

社区成员

2,052

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章