【已开奖】【第14期社区福利赠书活动】只为最美,淘宝“千人千面”导购智能评测与素材巡检(文末赠书《淘宝交付之道》5本)

架构师李肯
物联网领域优质创作者
博客专家认证
2023-03-13 07:29:31
加精

只为最美,淘宝“千人千面”导购智能评测与素材巡检


全面个性化、内容化的淘宝天猫,构造了基于内容的丰富的导购场景,包括猜你喜欢、有好货、每日好店、必买清单、哇哦视频、微淘、买家秀、 头条、洋葱盒子等。个性化为消费者带来了更精准的货品分发服务,内容化为消费者带来了更多惊喜和更好的服务体验。好的商品应该以更好的形式展现给消费者。

不同于传统测试业务,面对海量的 feed 流(即持续更新并呈现给用户内容的信息流)内容、个性化推荐分发、庞大的用户群体等挑战,如何构建整体内容导购质量 体系?如何发现问题、度量体验并丰富和提效测试手段?构建整体内容导购质量体系,主要可从以下两个方面进行考虑。

  • 用户侧:如何评估千人千面导购推荐系统?

  • 平台侧:多来源、多类型、高标准下,如何高效管控素材质量?


个性化评测

1 . 多维评估体系

推荐系统模型研发过程包含离线特征处理、模型网络设计、离线训练、离线预 估、在线部署、  A/B 测试、模型优化等环节。通常的评估手段包含如下两大类。

  • 离线预估:从 算法模型 的视角 进行评 估,  包含 AUC 、F1-score 、查准率 (precision)、查全率(recall)、  NDCG 等指标。

  • 在线评估:从业务效果的视角进行评估,  包含点击率、转化率、互动率、 PV 、UV 等指标。

以上两类维度将分别从模型的拟合性和短期业务指标上进行评估,它们在用户 体验方面仍存在一些不足之处,会因用户体验不好而被诟病,比如,买了还推、全 域趋同等,从而影响中长期推荐效果。基于此,对于导购推荐效果,我们从五个维 度制定出了全局评估指标体系。

 

下面对多维推荐体验评估标准的五个维度进行具体说明。

  • 丰富度:包含打散度、多样性、覆盖率等指标。比如,打散度是指同一坑位或 者同一页面中图片主体、商品主体是否过于同质,是否有更丰富的商品推荐。

  • 友好度:包含曝光过滤、购买过滤等指标。已经购买了还推荐同样的商品等 问题是用户对电商类推荐系统诟病较多的地方。用户有比较、比价等消费诉

    求,但相比于纯内容推荐,用户对电商类推荐的疲劳度会更低。

  • 相关度 :包含相关性、发现性等指标。推荐系统普遍采用的是协同过滤策略, 相关性用于短期匹配效率,发现性用于中长期兴趣、货品挖掘,各有优劣, 需要整体平衡。

  • 可信度:除涉黄、涉政等红线标准之外,淘宝天猫对于素材真实、准确地描 述货品的要求极高。例如,标题党、主体杂糅、主体模糊、不完整、切割等 都是不允许的。

  • 美观度:牛皮癣构图布局和恶心主体(比如特写牙齿病、皮肤病)素材等不 适合在首页、会场等公域场景展出。

2 . 统计学习评估流程

确定了评估标准之后,接下来就是进入统计学习评估的流程,其中包含如下图 所示的几大步骤,即通过模型测试集输出推荐结果、利用统计学习方法进行 指标自动计算、各指标相关性分析、进行整体业务评估度量。

那么,为什么要采用统计学习方法呢?

  • 为了更精准的指标刻画:比如,服饰和箱包 vs 服饰和家装,从传统规则(类 目、标签等) 分类的角度来看,它们是一样的,但运用 word2vec 映射到高

    维向量空间,就能更精准地对距离进行刻画,以用于计算打散度和多样性等指标。

  • 为了多维度的全局评估:整体指标的好坏是一个非凸优化的问题,各指标之 间具有相互影响的平衡关系,在不同的业务阶段每一个场景所关注的核心指标也会存在差异。需要通过统计学习的方法进行相关性分析、因子分析等, 在几十个指标的基础上形成置信基线的全局评估。

3 . 小结

多维推荐体验评估标准基于 5 个维度提供多评测指标计算服务,产出指标合理 性置信区间基线,以应用于日常导购和大促会场等个性化评测场景。在淘宝天猫大 促个性化会场,及时发现打散不足、推荐不足、重复推荐、推荐趋同、视觉同图等 问题,提前优化,通过多轮评测验证,将会场上线前整体评测通过率由 90% 提升到 了 99%。

推荐系统的评测需要针对大量样本进行整体统计度量,从而对各类用户体验指 标进行深入洞察,通过因子分析等手段,得到明确的相关性,并可借助 A/B 测试和 推演,得到因果性的评测结论,该结论对于业务持续运营、算法优化方向的确定等 具有重要的意义。


素材质量管控

1 . 淘宝天猫素材质量标准

电商平台素材的来源包含商家商品发布、招商报名、导购选品、达人创作等, 有文本、图像等格式。好的素材质量对于用户体验、增长转化、平台质量等的提高都起到了至关重要的作用。而在这其中,图像(图片、视频)作为体验表达的重要媒介,是我们重点管控的对象。

电商类素材除了需要满足内容安全的红线防范要求之外,为了保证更好的平台 体验,还需要能够准确、清晰、美观地传递商品和服务信息。平台自身也有严格的素材规范。下图为某会场商品白底图素材质量部分基础规范。

电商类素材需要具备如下特点和诉求。

  • 素材信息表达要求准确:避免图片与实物不符、误导用户,包含主体要完整且为单主体,无模特,等等。

  • 高质量图片转化效率更高 :feed 流下用户视觉输入的信息量巨大,精美、布局合理的图片更能脱颖而出,能有更高的转化率,平台也能提供更好的用户体验。高质量的要求包含无牛皮癣、纯白底、无阴影和抠图等。

  • 不同场景要有不同的颗粒度标准:比如商品主图的牛皮癣,在公域会场和性价比营销场景中其标准颗粒度就不一样(分别为轻微可接受和轻微不可 接受)。

2 . 素材质量管控方案

面对多样场景中的不同规范标准,我们运用迁移学习、样本扩散等技术,可以快速训练出图像检测模型,解决不同场景中劣质素材的问题。通过学习数以亿计的素材,素材质量管控方案可以形成体系化工程架构和质量巡检机制,持续提升素材质量和用户体验。

整体方案 :基于迁移学习思想质检模型快速训练研发。

获取模型训练研发过程中的样本,并进行特征处理、构建训练模型网络、参数 调优等操作。基于迁移学习技术,我们可以通过共享模型训练方式消减提效,快速、 复用、灵活、泛化地产生多个模型。我们通过持续样本调整构建运营业务标准和算 法建模桥梁。算法研发的运行流程如下图所示。

 

共享模型训练策略具有如下特点。

( 1 )多任务共享特征提高识别效率

在多任务迁移学习网络模型中,各任务之间共享基础特征,可以减少基础特征重复计算,提高预测效率。在多任务训练网络模型中,各任务之间共享基础特征,可以减少深度网络模型对各个任务的训练数据量需求,比如,对于牛皮癣、  Logo、 水印等任务,它们的特征具有高度的相似性,可以显著提高各任务的识别精度。但 是如果任务之间的相似程度不是很高,就会增加模型的拟合难度。为此,我们采用 Curriculum Learning 训练策略、从简到难逐步进行网络学习,同时在模型上结合半监督正则项,充分利用海量无标签数据,进一步提高精度,如图下所示。

 

( 2 )噪声样本识别提高模型精度

循环学习策略可以识别噪声标签样本,提高训练数据的质量,进而提高模型的最终识别精度。为了提高模型的最终识别精度,深度网络对于训练数据的精度提出了很高的要求,然而很多图像质量的识别任务都存在边界定义模糊、难以标注等问题,这就导致了训练数据中往往会存在噪声标签的问题。为了解决图像质量数据标 注难、噪声多的问题,我们提出了一种识别噪声标签的方法,即通过循环学习策略方法,使得模型在过拟合和欠拟合之间反复转换。

 在上述循环学习过程中,干净的标签样本和噪声标签样本会出现明显的区分性特征。利用这种方法,我们可以很快地找到那些训练数据集中的噪声标签样本,从而提高训练数据的质量,并最终保证模型的精度。

 

下面就来介绍一下素材数据流转工程架构的相关内容。

通过产品化的素材质量服务平台承载,可以将问题定义、样本获取、模型训练、 效果验收、工程服务等过程形成完整的工程化方案承载,对接各类素材业务,持续 运转。素材质量巡检数据流程如下图所示。

素材质量运营流程如下图所示,具体说明如下。

 

低质定义:通过客户满意度、用户负反馈、运营规范、审核数据分析、分析素材 质量等渠道洞察用户体验侧诉求。

模型训练:样本扩散技术快速获得样本,共享网络模型快速训练生成新的检测模 型,噪声样本识别技术加固提升模型精度,并通过运营验收。

评测验收:模型通过工程化以统一服务协议的形式对接各类素材数据源,包含淘 宝、天猫活动类素材,常态导购场景类素材,内容推荐类素材等。

巡检管控:在素材投放到手机淘宝平台之前,过滤出劣质素材,并退回给商家修 改处理,确保“辣眼睛”图片不会流转到用户侧。

前置研发系统:素材质检服务与研发产品系统打通,素材质量质检成为素材数据 流转链路中必要的一环。

3 . 小结

建立 50 多种劣质素材检测模型(其中包括牛皮癣、多主体、模特衣架、低俗情趣、恶心血腥、透明图、白底图、水印、二维码等),提供离线 / 在线检测服务,从供给端对导购业务的各类商品、劣质素材内容进行质量检测、卡口治理。以大促期间的素材检测为例,每周检测劣质素材都在百万级以上,通过过滤 治理为用户带来了“最美”的体验。

本篇内容摘自阿里巴巴集团大淘宝技术 著、机械工业出版社出版的《淘宝交付之道》,该书已在各大网店平台上架,想要进一步深入了解淘宝近20年软件交付经验的朋友们可以自行前往购买。

《淘宝交付之道》

阿里巴巴集团大淘宝技术 著

推荐理由:

(1)淘宝官方出品:淘宝20年软件交付方法与经验沉淀,36个月匠心写作。

(2)8个维度总结:围绕价值交付的全生命周期,系统总结淘宝实现持续、快速、高质交付的方法论和实践经验。

(3)阿里集团推荐:阿里巴巴合伙人程立(鲁肃)、大淘宝技术CTO余刚(若海)高度评价并推荐。


赠书福利活动

 

为了回馈广大粉丝的大力支持,特开展粉丝专属的赠书福利活动,参与方式如下:

 【架构师李肯】本期粉丝专属福利赠书活动汇总,一共送出5本书籍:

1.关注CSDN博客专家【架构师李肯】,点击图文 神理论 | 我面向淘宝编程,而你面向什么编程?(文末赠书5本)  https://blog.csdn.net/szullc/article/details/129524690,文末围绕【淘宝】相关的内容发表【优质评论】,注意是优质评论,并转发集赞,留言点赞数排名前2,包邮送出畅销书《淘宝交付之道》2本。

2. 使用微信扫描以下二维码,参与抽奖,总共送出畅销书《淘宝交付之道》2本。

 

3.特别惊喜:我会额外从所有的留言中挑选最走心的1条评论,由架构师李肯额外赠送1本书籍《淘宝交付之道》。所以,大家尽管走心地评论吧,剩下的就交给李肯吧。

 

开奖时间为:    2023年3月19日 18:00

 

兑奖截止日期:2023年3月20日 18:00 逾期不候

 

快快去邀请你的好友来为你的评论留言点赞吧!

 

请各位持续关注【架构师李肯】,每周送出各式福利活动,敬请期待。

 

免费想各位开放架构师李肯的IT图书赠书福利活动专群(群二维码过期的后,联系微信:721317716),大家加入群里可以获得第一首赠书福利活动消息。

...全文
225 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

13,972

社区成员

发帖
与我相关
我的任务
社区描述
物联网架构师李肯,CSDN博客专家,带你一起玩转嵌入式和物联网。
物联网嵌入式硬件 个人社区 广东省·深圳市
社区管理员
  • 架构师李肯
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

架构师李肯带你进入物联网的精彩世界。

试试用AI创作助手写篇文章吧