最近邻协同过滤算法k值如何确定

baidu_29321183 2015-11-14 09:14:40
最近邻协同过滤算法中,k值一般由用户指定吗?该如何选出最适合目标用户的k值大小(邻居集大小),以提高预测的准确高效性。
...全文
325 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复
基于大数据的推荐算法研究 大数据应用-基于大数据的推荐算法研究全文共35页,当前为第1页。 论文框架 2 TopKS算法 3 基于项目层次结构相似性的推荐算法 4 矩阵分解并行化 5 总结与展望 1 课题背景与研究意义 大数据应用-基于大数据的推荐算法研究全文共35页,当前为第2页。 图书推荐 新闻推荐 亚马逊 当当网 淘宝网 央广网 大数据应用-基于大数据的推荐算法研究全文共35页,当前为第3页。 课题背景 启发式的协同过滤 代表的方法:KNN 基于模型的协同协同过滤 代表的方法:矩阵分解 大数据应用-基于大数据的推荐算法研究全文共35页,当前为第4页。 课题背景 余弦距离 皮尔逊相关系数 ……… user1(3, 2, ?, 4) user2(2, 3, ?, ?) user3(?, ?, 4, 3) user4(4, ?, ?, 1) user5(?, 5, 5, ?) 大数据应用-基于大数据的推荐算法研究全文共35页,当前为第5页。 课题背景 . X21*y21 + x22* y22 + x23 * y23 3 u2 v2 . = 交替下降 梯度下降 大数据应用-基于大数据的推荐算法研究全文共35页,当前为第6页。 研究意义 用户量猛增 项目(商品、新闻等)数量猛增 推荐算法的可扩展性不强 大数据应用-基于大数据的推荐算法研究全文共35页,当前为第7页。 TopkS算法 采用余弦距离和皮尔逊相关公式累加性特点 引入倒排索引数据结构 结合TopK思想 TopKS是Top K Similarity的简写,即最大的前K个相似度。主要包含以下三部分: 大数据应用-基于大数据的推荐算法研究全文共35页,当前为第8页。 TopkS算法 余弦距离 皮尔逊相关系数 大数据应用-基于大数据的推荐算法研究全文共35页,当前为第9页。 TopkS算法 倒排索引 大数据应用-基于大数据的推荐算法研究全文共35页,当前为第10页。 TopkS算法 计算u1和其他用户的相似度 大数据应用-基于大数据的推荐算法研究全文共35页,当前为第11页。 TopkS算法 假设查找用户ui的最近邻用户,当前计算到用户ui和uj第k1个共同项目(i != j),而ui和uj有k个共同评分项目,则分为两种情况: 如果uj已经在最近邻列表LS中,则直接更新列表中的相似度; 如果uj不在最近邻列表LS中,则计算用户ui和uj可能的最大,下面是余弦距离和皮尔逊相关系数可能的最大: 余弦距离 大数据应用-基于大数据的推荐算法研究全文共35页,当前为第12页。 TopkS算法 皮尔逊相关系数 计算出 之后, 是 从LS中剔除最小,插入uj 把uj加入黑名单 否 大数据应用-基于大数据的推荐算法研究全文共35页,当前为第13页。 TopkS算法 不同稀疏度对近邻计算的影响 大数据应用-基于大数据的推荐算法研究全文共35页,当前为第14页。 TopkS算法 不同规模用户数量上的比较实验 大数据应用-基于大数据的推荐算法研究全文共35页,当前为第15页。 TopkS算法 不同K对执行时间的影响 大数据应用-基于大数据的推荐算法研究全文共35页,当前为第16页。 基于项目层次结构相似性的推荐算法 大数据应用-基于大数据的推荐算法研究全文共35页,当前为第17页。 基于项目层次结构相似性的推荐算法 相似度度量 节点之间的距离度量: 然后利用最短路径算法Dijkstra结合TopK思想找到最相近的项目; 大数据应用-基于大数据的推荐算法研究全文共35页,当前为第18页。 基于项目层次结构相似性的推荐算法 三种算法效果对比 大数据应用-基于大数据的推荐算法研究全文共35页,当前为第19页。 矩阵分解并行化 目标函数 采用梯度下降方法,V的更新公式通常是: 这里 注意: 是一个常数,对因子矩阵中的每个元素都一样 大数据应用-基于大数据的推荐算法研究全文共35页,当前为第20页。 矩阵分解并行化 同理,用户因子矩阵U也可以近似为矩阵乘除的形式. , V的更新公式变为: 这里 把步长修改为因子矩阵中每个元素一个,如下: 大数据应用-基于大数据的推荐算法研究全文共35页,当前为第21页。 矩阵分解并行化 MapReduce编程模型 大数据应用-基于大数据的推荐算法研究全文共35页,当前为第22页。 矩阵分解并行化 a11 a12 a13 a21 a22 a23 a31 a32 a33 a41 a42 a43 左矩阵A b11 b12 b13 b14 b21 b22 b23 b24 b31 b32 b33 b34 右矩阵B 内积法 外积法 分块矩阵乘法 c11 c12 c13 c14 c21 c22 c23 c24 c31 c32 c33 c34 c41 c42 c43 c44 结果矩阵
什么叫⼤数据⼈物画像_基于⼤数据的⽤户画像推荐模式 基于⽤户画像,根据每个⽤户使⽤路径与个⼈偏好推荐内容已经成为内容类产品常见的功能模式,也是提升活跃度与转化率最有效的⽅式之 ⼀。 在之前的课程中,我们介绍了⽤户画像的定义、标签体系与创建过程,本期课程则重点介绍⼏种不同的推荐模式与优缺点。 常见的推荐逻辑 常见的推荐逻辑 根据⽤户信息进⾏推荐,⽤户进⼊产品后需要完善个⼈信息及选择兴趣标签,系统根据⽤户的个⼈信息(年龄、性别、地域)及所选兴趣标签 与内容匹配,推荐内容标签匹配度⾼的内容。 这种推荐模式的优点在于技术门槛低,由产品经理⾃⼰设计⼀套推荐规则就可以实现。但缺点也很明显,⼀⽅⾯⽤户会不停收到相似的内 容,很难拓展新的关注点,另⼀⽅⾯,内容⽣产商会根据推荐机制针对性设置内容的标签、关键字等信息,将低质量的内容推荐给⽤户,造 成⽤户流失。 基于⼤数据的推荐模式 基于⼤数据的推荐模式 该模式的核⼼在于,通过建⽴较复杂⽤户画像模型,收集各种途径收集⽤户⾏为数据。根据⽤户业务数据⽣成⽤户画像,计算⽤户画像相似 度,对⽤户画像进⾏分组。通过内容标签与⽤户画像标签离线计算推荐内容。 该推荐模式主要包含⽤户画像建模、⽤户画像聚类、内容标签、内容推荐四个阶段。 ⽤户画像建模 ⽤户画像建模 1、分析业务模型, 建⽴标签体系, 确定标签取范围 2、分析标签的数据来源, 按需收集数据, 计算标签 3、存储⽤户画像数据, 并及时更 新 ⽤户画像最终的结果是往往是⼀张表,每⾏为⼀个⽤户的⽤户画像,存储了⽤户对应的每个标签。 例⼦: ⽤户画像聚类 ⽤户画像聚类 选择合适的聚类算法, 计算每个⽤户画像的相似度, 为⽤户分组 常见的聚类算法: 层次化: 最近邻⽅法, 最远邻⽅法, 组内聚类法, 组间聚类法, Ward聚类法, 正⼆进制法, 粗聚类算法 划分式: 图论算法, K均算法, 模糊C均 基于密度和⽹格: GDILC 算法, SGC算法, GCHL算法, TFCTMO算法, ST-DBSCAN 其它: ACODF 该部分内容由算法经理主导,作为产品经理不⽤参与。 内容标签 内容标签 为了能把内容推荐给⽤户, 需要为每个内容打上相应的标签, 把内容标签化。 与⽤户画像类似, 需要根据业务⽬标来给内容打标签。 内容推荐 内容推荐 主要有三种推荐⽅法。 1、协同过滤推荐⽅法 基于⽤户的协同过滤: ⽤户A喜欢A内容, 那么跟⽤户A类似的⽤户B也喜欢A内容 基于内容的协同过滤: ⽤户A喜欢A内容, 那么同样喜欢A内容的⽤户B喜欢的内容B⽤⽤户A也喜欢。 优势: 有效的使⽤⽤其它⽤户的反馈信息, 提⾼准确度 基于⽤户相似推荐可以发现⽤⽤户的潜在兴趣, 增加推荐的多样性 劣势: ⽤户和物品存在冷启动问题, 新⽤⽤户新内容没有⾏为数据, 所以⽆法做出推荐,可解释性不稳定, 因为不对内容做分析, 所以⽆法根据深层特 征和修改来推荐。 相关算法: 关系矩阵及矩阵计算:⽤户关系 U-U 矩阵、内容关系 V-V 矩阵、⽤户-内容 U-V 矩阵 基于记忆的协同过滤算法 基于模型的协同过滤算法:基于隐因⼦模型的推荐算法、基于朴素贝叶斯分类的推荐算法。 2、基于内容的推荐⽅法: ⽤户喜欢内容A , 那么跟内容A 类似的内容B ⽤户也喜欢 优势: ⽤户间相互独⽴独⽴, 只依赖单⼈偏好 因为内容类似, 所以推荐的内容直观上很容易解释 新内容不存在冷启动问题, 因为只要内容相似就能被推荐 劣势: 对内容标签要求⾼ 不利于挖掘⽤户的潜在兴趣 存在新⽤户冷启动问题 3、基于知识的推荐⽅法: ⽤⼤量的数据, 训练专家模型, ⽤专家来对⽤户偏好推荐 混合推荐⽅法: 根据业务场景, 将以上⽅法进⾏混合, 优化推荐结果。 并⾏: 加权式——对多个结果加权计算获得最终结果 切换式——根据场景使⽤不同的⽅法 混杂——同时⽤以上两种 串⾏: 层叠式——基于⼀个推荐结果再做⼀次推荐 级联式——将⼀种推荐学习到的模型作为另⼀推荐的输⼊ ⼩结 基于⼤数据的推荐模式,可以有效实现"千⼈千⾯"的推荐模式,为⽤户不断输送感兴趣的内容,并挖掘⽤户潜在兴趣点。 对于没有使⽤的记录的新⽤户,则采⽤常规推荐模式,当有了记录后根据⽤户⾏为进⾏⼤数据推荐。 具体采⽤怎样的推荐模式,则需要产品经理根据产品特性结合企业的实际技术能⼒进⾏选择。

2,760

社区成员

发帖
与我相关
我的任务
社区描述
搜索引擎的服务器通过网络搜索软件或网络登录等方式,将Internet上大量网站的页面信息收集到本地,经过加工处理建立信息数据库和索引数据库。
社区管理员
  • 搜索引擎技术社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧