社区
搜索引擎技术
帖子详情
最近邻协同过滤算法k值如何确定
baidu_29321183
2015-11-14 09:14:40
最近邻协同过滤算法中,k值一般由用户指定吗?该如何选出最适合目标用户的k值大小(邻居集大小),以提高预测的准确高效性。
...全文
325
回复
打赏
收藏
最近邻协同过滤算法k值如何确定
最近邻协同过滤算法中,k值一般由用户指定吗?该如何选出最适合目标用户的k值大小(邻居集大小),以提高预测的准确高效性。
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
论文研究-基于改进
最近邻
的
协同过滤
推荐
算法
.pdf
针对当前
协同过滤
推荐
算法
易受数据稀疏性与冷启动的问题,提出了一种改进
最近邻
的
协同过滤
推荐
算法
。建立用户-项目评分矩阵,并度量项目之间、用户之间的相似性,获取项目和用户的
最近邻
居,其中
最近邻
居的最优参数k
值
采用粒子群
算法
选择,在MovieLens和Book-Crossing数据集上进行了仿真对比实验。结果表明,相对于其他
协同过滤
推荐
算法
,该
算法
降低了平均绝对误差
值
,提升了推荐准确度,达到提高推荐质量效果的目的。
大数据应用-基于大数据的推荐
算法
研究.pptx
基于大数据的推荐
算法
研究 大数据应用-基于大数据的推荐
算法
研究全文共35页,当前为第1页。 论文框架 2 TopKS
算法
3 基于项目层次结构相似性的推荐
算法
4 矩阵分解并行化 5 总结与展望 1 课题背景与研究意义 大数据应用-基于大数据的推荐
算法
研究全文共35页,当前为第2页。 图书推荐 新闻推荐 亚马逊 当当网 淘宝网 央广网 大数据应用-基于大数据的推荐
算法
研究全文共35页,当前为第3页。 课题背景 启发式的
协同过滤
代表的方法:KNN 基于模型的协同
协同过滤
代表的方法:矩阵分解 大数据应用-基于大数据的推荐
算法
研究全文共35页,当前为第4页。 课题背景 余弦距离 皮尔逊相关系数 ……… user1(3, 2, ?, 4) user2(2, 3, ?, ?) user3(?, ?, 4, 3) user4(4, ?, ?, 1) user5(?, 5, 5, ?) 大数据应用-基于大数据的推荐
算法
研究全文共35页,当前为第5页。 课题背景 . X21*y21 + x22* y22 + x23 * y23 3 u2 v2 . = 交替下降 梯度下降 大数据应用-基于大数据的推荐
算法
研究全文共35页,当前为第6页。 研究意义 用户量猛增 项目(商品、新闻等)数量猛增 推荐
算法
的可扩展性不强 大数据应用-基于大数据的推荐
算法
研究全文共35页,当前为第7页。 TopkS
算法
采用余弦距离和皮尔逊相关公式累加性特点 引入倒排索引数据结构 结合TopK思想 TopKS是Top K Similarity的简写,即最大的前K个相似度。主要包含以下三部分: 大数据应用-基于大数据的推荐
算法
研究全文共35页,当前为第8页。 TopkS
算法
余弦距离 皮尔逊相关系数 大数据应用-基于大数据的推荐
算法
研究全文共35页,当前为第9页。 TopkS
算法
倒排索引 大数据应用-基于大数据的推荐
算法
研究全文共35页,当前为第10页。 TopkS
算法
计算u1和其他用户的相似度 大数据应用-基于大数据的推荐
算法
研究全文共35页,当前为第11页。 TopkS
算法
假设查找用户ui的
最近邻
用户,当前计算到用户ui和uj第k1个共同项目(i != j),而ui和uj有k个共同评分项目,则分为两种情况: 如果uj已经在
最近邻
列表LS中,则直接更新列表中的相似度; 如果uj不在
最近邻
列表LS中,则计算用户ui和uj可能的最大
值
,下面是余弦距离和皮尔逊相关系数可能的最大
值
: 余弦距离 大数据应用-基于大数据的推荐
算法
研究全文共35页,当前为第12页。 TopkS
算法
皮尔逊相关系数 计算出 之后, 是 从LS中剔除最小
值
,插入uj 把uj加入黑名单 否 大数据应用-基于大数据的推荐
算法
研究全文共35页,当前为第13页。 TopkS
算法
不同稀疏度对近邻计算的影响 大数据应用-基于大数据的推荐
算法
研究全文共35页,当前为第14页。 TopkS
算法
不同规模用户数量上的比较实验 大数据应用-基于大数据的推荐
算法
研究全文共35页,当前为第15页。 TopkS
算法
不同K
值
对执行时间的影响 大数据应用-基于大数据的推荐
算法
研究全文共35页,当前为第16页。 基于项目层次结构相似性的推荐
算法
大数据应用-基于大数据的推荐
算法
研究全文共35页,当前为第17页。 基于项目层次结构相似性的推荐
算法
相似度度量 节点之间的距离度量: 然后利用最短路径
算法
Dijkstra结合TopK思想找到最相近的项目; 大数据应用-基于大数据的推荐
算法
研究全文共35页,当前为第18页。 基于项目层次结构相似性的推荐
算法
三种
算法
效果对比 大数据应用-基于大数据的推荐
算法
研究全文共35页,当前为第19页。 矩阵分解并行化 目标函数 采用梯度下降方法,V的更新公式通常是: 这里 注意: 是一个常数,对因子矩阵中的每个元素都一样 大数据应用-基于大数据的推荐
算法
研究全文共35页,当前为第20页。 矩阵分解并行化 同理,用户因子矩阵U也可以近似为矩阵乘除的形式. , V的更新公式变为: 这里 把步长修改为因子矩阵中每个元素一个
值
,如下: 大数据应用-基于大数据的推荐
算法
研究全文共35页,当前为第21页。 矩阵分解并行化 MapReduce编程模型 大数据应用-基于大数据的推荐
算法
研究全文共35页,当前为第22页。 矩阵分解并行化 a11 a12 a13 a21 a22 a23 a31 a32 a33 a41 a42 a43 左矩阵A b11 b12 b13 b14 b21 b22 b23 b24 b31 b32 b33 b34 右矩阵B 内积法 外积法 分块矩阵乘法 c11 c12 c13 c14 c21 c22 c23 c24 c31 c32 c33 c34 c41 c42 c43 c44 结果矩阵
有限元理论与程序设计
祝小松,985高校在读博士生,对数
值
计算有着浓厚的兴趣,希望有一天能够开发出自己的数
值
计算软件,赶超ANSYS,ABAQUS等,中华不再受“华为之苦”。本人自己在硕士期间也用过很多有限元软件,如ANSYS,ABAQUS,COMSOL,ADAMS等,现在仿真更是五花八门,做仿真计算不仅仅需要知道怎么去使用软件,还需要知道其背后的原理,后者占的比重应更大。盲目的去学习各种软件的使用,无法帮助自身能力提升,最多也是个熟练的技术工,并没有多大的上升空间。因此,希望各位仿真工作者们更应该注重基本理论的学习,最起码对自己仿真出来的结果心里有个谱,软件算的对不对,在不在忽悠你。软件就是一个高级一点的计算器而已。让我们自己去玩软件,而不是软件在玩我们。案例: 此系列课程已将在“技术邻”、仿真秀、知乎、CSDN上发布,受到众多同学的点赞支持,所有内容均为一手原创。
什么叫大数据人物画像-基于大数据的用户画像推荐模式.pdf
什么叫⼤数据⼈物画像_基于⼤数据的⽤户画像推荐模式 基于⽤户画像,根据每个⽤户使⽤路径与个⼈偏好推荐内容已经成为内容类产品常见的功能模式,也是提升活跃度与转化率最有效的⽅式之 ⼀。 在之前的课程中,我们介绍了⽤户画像的定义、标签体系与创建过程,本期课程则重点介绍⼏种不同的推荐模式与优缺点。 常见的推荐逻辑 常见的推荐逻辑 根据⽤户信息进⾏推荐,⽤户进⼊产品后需要完善个⼈信息及选择兴趣标签,系统根据⽤户的个⼈信息(年龄、性别、地域)及所选兴趣标签 与内容匹配,推荐内容标签匹配度⾼的内容。 这种推荐模式的优点在于技术门槛低,由产品经理⾃⼰设计⼀套推荐规则就可以实现。但缺点也很明显,⼀⽅⾯⽤户会不停收到相似的内 容,很难拓展新的关注点,另⼀⽅⾯,内容⽣产商会根据推荐机制针对性设置内容的标签、关键字等信息,将低质量的内容推荐给⽤户,造 成⽤户流失。 基于⼤数据的推荐模式 基于⼤数据的推荐模式 该模式的核⼼在于,通过建⽴较复杂⽤户画像模型,收集各种途径收集⽤户⾏为数据。根据⽤户业务数据⽣成⽤户画像,计算⽤户画像相似 度,对⽤户画像进⾏分组。通过内容标签与⽤户画像标签离线计算推荐内容。 该推荐模式主要包含⽤户画像建模、⽤户画像聚类、内容标签、内容推荐四个阶段。 ⽤户画像建模 ⽤户画像建模 1、分析业务模型, 建⽴标签体系,
确定
标签取
值
范围 2、分析标签
值
的数据来源, 按需收集数据, 计算标签
值
3、存储⽤户画像数据, 并及时更 新 ⽤户画像最终的结果是往往是⼀张表,每⾏为⼀个⽤户的⽤户画像,存储了⽤户对应的每个标签
值
。 例⼦: ⽤户画像聚类 ⽤户画像聚类 选择合适的聚类
算法
, 计算每个⽤户画像的相似度, 为⽤户分组 常见的聚类
算法
: 层次化:
最近邻
⽅法, 最远邻⽅法, 组内聚类法, 组间聚类法, Ward聚类法, 正⼆进制法, 粗聚类
算法
划分式: 图论
算法
, K均
值
算法
, 模糊C均
值
基于密度和⽹格: GDILC
算法
, SGC
算法
, GCHL
算法
, TFCTMO
算法
, ST-DBSCAN 其它: ACODF 该部分内容由
算法
经理主导,作为产品经理不⽤参与。 内容标签 内容标签 为了能把内容推荐给⽤户, 需要为每个内容打上相应的标签, 把内容标签化。 与⽤户画像类似, 需要根据业务⽬标来给内容打标签。 内容推荐 内容推荐 主要有三种推荐⽅法。 1、
协同过滤
推荐⽅法 基于⽤户的
协同过滤
: ⽤户A喜欢A内容, 那么跟⽤户A类似的⽤户B也喜欢A内容 基于内容的
协同过滤
: ⽤户A喜欢A内容, 那么同样喜欢A内容的⽤户B喜欢的内容B⽤⽤户A也喜欢。 优势: 有效的使⽤⽤其它⽤户的反馈信息, 提⾼准确度 基于⽤户相似推荐可以发现⽤⽤户的潜在兴趣, 增加推荐的多样性 劣势: ⽤户和物品存在冷启动问题, 新⽤⽤户新内容没有⾏为数据, 所以⽆法做出推荐,可解释性不稳定, 因为不对内容做分析, 所以⽆法根据深层特 征和修改来推荐。 相关
算法
: 关系矩阵及矩阵计算:⽤户关系 U-U 矩阵、内容关系 V-V 矩阵、⽤户-内容 U-V 矩阵 基于记忆的
协同过滤
算法
基于模型的
协同过滤
算法
:基于隐因⼦模型的推荐
算法
、基于朴素贝叶斯分类的推荐
算法
。 2、基于内容的推荐⽅法: ⽤户喜欢内容A , 那么跟内容A 类似的内容B ⽤户也喜欢 优势: ⽤户间相互独⽴独⽴, 只依赖单⼈偏好 因为内容类似, 所以推荐的内容直观上很容易解释 新内容不存在冷启动问题, 因为只要内容相似就能被推荐 劣势: 对内容标签要求⾼ 不利于挖掘⽤户的潜在兴趣 存在新⽤户冷启动问题 3、基于知识的推荐⽅法: ⽤⼤量的数据, 训练专家模型, ⽤专家来对⽤户偏好推荐 混合推荐⽅法: 根据业务场景, 将以上⽅法进⾏混合, 优化推荐结果。 并⾏: 加权式——对多个结果加权计算获得最终结果 切换式——根据场景使⽤不同的⽅法 混杂——同时⽤以上两种 串⾏: 层叠式——基于⼀个推荐结果再做⼀次推荐 级联式——将⼀种推荐学习到的模型作为另⼀推荐的输⼊ ⼩结 基于⼤数据的推荐模式,可以有效实现"千⼈千⾯"的推荐模式,为⽤户不断输送感兴趣的内容,并挖掘⽤户潜在兴趣点。 对于没有使⽤的记录的新⽤户,则采⽤常规推荐模式,当有了记录后根据⽤户⾏为进⾏⼤数据推荐。 具体采⽤怎样的推荐模式,则需要产品经理根据产品特性结合企业的实际技术能⼒进⾏选择。
协同过滤
之 一、基于用户
最近邻
的推荐
算法
1、
协同过滤
则是推荐系统中较为广泛使用的推荐技术之一,其实质是对用户的历史评分矩阵数据进行建模分析从而为用户推荐合适的产品。
协同过滤
在学术界和工业界已经得到了广泛的研究并提出了很多
算法
。其中比较常见的有基于
最近邻
方法(包括基于用户
最近邻
和基于项目
最近邻
的方法)、Slope One、隐因子模型(主要包括受限玻尔兹曼机模型和矩阵分解技术)、贝叶斯模型、聚类技术和决策树方法等等。其中最常用也最有效的
搜索引擎技术
2,760
社区成员
2,052
社区内容
发帖
与我相关
我的任务
搜索引擎技术
搜索引擎的服务器通过网络搜索软件或网络登录等方式,将Internet上大量网站的页面信息收集到本地,经过加工处理建立信息数据库和索引数据库。
复制链接
扫一扫
分享
社区描述
搜索引擎的服务器通过网络搜索软件或网络登录等方式,将Internet上大量网站的页面信息收集到本地,经过加工处理建立信息数据库和索引数据库。
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章