• 首页
  • 资讯
  • 技术交流
  • openGauss
  • GaussDB
  • 问答
  • 招聘
  • 博客
  • 精品课
  • 酷哥
  • 贡献者

国家开始着手整顿算法推荐,会给行业带来什么影响与变化?

敲代码的贝塔 秀才 美团 程序员  2021-09-09 16:54:09

作者 | gongyouliu

编辑 | auroral-L

随着《中华人民共和国数据安全法》的实施(2021年9月1日正式生效),国家会对涉及到数据安全的情形进行规范、整顿这是必然的,也是符合法制精神的。对目前大行其道的算法推荐,本法也完全适用。

从公开征求意见可以看出,国家后面会正式着手整顿互联网算法推荐业务。那么这个整顿行动会带来哪些变化呢?对以推荐为产品核心功能的APP(如今日头条、抖音、快手、淘宝等)有什么大的影响?对从事推荐算法的从业者有什么影响?对使用这些APP的用户是好是坏呢?

带着上面几个问题,笔者结合自己多年的推荐算法从业经验及最近的思考,说说自己的观点和看法,供读者参考和借鉴。本文会从三个基本原则、国家为什么要整顿算法推荐业务、整顿推荐算法业务给平台方带来的挑战、整顿算法推荐业务给标的物提供方带来的改变、整顿算法推荐业务给算法从业者带来的改变、整顿算法推荐业务给用户带来的变化等6个维度来进行讲解。希望本文可以给读者提供广泛的思考视角。也希望本文可以减缓或者消除行业及相关从业者对《意见稿》带来的恐慌情绪。

 

一、三个基本原则

首先,在讲解之前,说一下笔者自己的立场和观点,下面所有的讨论都是基于笔者自己的立场和观点作为基础展开的,也就是说,后面所有笔者个人的判断都是这些立场和观点的自然延伸。笔者的观点主要体现在如下3个基本原则上。

 

原则1:技术是中性的,技术无所谓好坏。

 

技术本身是没有价值观的,技术反映的是使用技术的人的价值观。技术可以用来做好事,也可以用来做坏事,技术带来的正面和负面影响完全是背后使用该技术的人造成的。算法推荐只是一个技术解决方案,因此算法推荐也是中性的。算法推荐目前带来的负面影响完全是背后设计、开发、运营、维护它们的公司造成的。

 

原则2:算法推荐是人类获取信息非常重要的一种方式。

 

人类获取信息一般有2方式,一种是主动的,也就是人们知道自己需要什么,需求是明确的,这时可以通过搜索和导航来满足。另外一种是被动的,也就是不知道自己需要什么,需求不明确,这时一般可以通过算法推荐来满足。

人类的这两种需求是客观存在的。并且,随着物质生活的丰富和科技的发展,社会可以提供的商品、服务越来越多,这种被动的需求变得越来越重要。因此算法推荐是符合人类社会发展客观规律的,也是符合人们的价值需要的。所以,提供算法推荐服务,是可以提升人们便利性,符合用户利益的。

 

原则3:算法推荐需要满足用户、商品或者服务提供方、平台方3方的利益诉求,做到多赢。

 

目前提供算法推荐服务的APP一般会涉及到3个主体,平台方(即APP的开发方,比如淘宝)、用户(使用APP的最终用户)、商品或者服务提供方(比如淘宝上的商家)。要想让整个系统良好运转,这3个群体需要达到某种利益平衡,才能让整个系统健康发展,一直运转下去。要达到这种博弈的均衡状态,推荐系统需要考虑3方的利益,做到3赢才是最好的选择。如果算法推荐在设计之初就考虑多方利益,那么也是一定可以做到多赢的。在算法推荐服务的3个参与方中,平台方是最重要的,也是《意见稿》直接针对的主体。

上面这3条原则是笔者认为最重要的三条基本原则,笔者也认为这3条原则一定是正确的客观规律。有了上面3个原则,下面我们基于这3个原则进行讨论,笔者下面很多思路也是这3个原则结合具体情况的自然推广与延伸。首先,我们来分析一下国家为什么要整顿算法推荐业务。

 

二、国家为什么要整顿算法推荐业务

国家之所以要大力整顿算法推荐业务,那一定是因为目前的算法推荐存在很大的问题,对国家、社会和人民的生活造成了比较大的负面影响了。整顿的目的肯定是规范市场行为,让算法推荐在规范化、合规合法的方向上发展,最终造福整个社会。

那么目前算法推荐存在什么问题?这些问题有多严重呢?带着这些问题,笔者结合自己的行业实践和思考,来为读者分析一下。个人觉得算法推荐至少存在如下5个比较突触的问题。

 

1. 平台方的算法推荐目标单一,以自身利益为主导

资本是逐利的,目前基本所有提供算法推荐的企业,基本都将点击率、购买转化率等商业化指标作为算法推荐优化的核心目标,而很少考虑到过度的算法推荐会带来什么样的危害。即使知道了过度利用算法推荐存在对用户的伤害,他们也漠不关心,因为国家还没有什么法律对这一行为进行规范,他们的行为更多的是游离在法律边缘,他们知道这么做也不会给自己带来什么麻烦,所以就有恃无恐地这么做了。

如果企业不顾用户利益,社会利益,而以企业自身利益作为一切行动的准则的话,一定会对用户利益造成损害,也会造成不好的社会影响。过度给用户推荐一些他们短期不需要的商品或者金融产品,导致用户无故多花了很多冤枉钱。绝大多数人的自制力还是比较差的,如果算法推荐过度地满足人的“动物性”的欲望,会导致人们冲动消费,最终钱都到了平台方和商品及服务提供方的腰包了。

 

2. 算法推荐的“标的物(商品或服务)”提供方质量问题

创造好的产品或者服务是需要花费时间、精力和成本的,也是需要有一定的专业素养的。如果平台没有对标的物提供一定的规范和引导,肯定会导致很多劣质的、无价值的标的物(比如淘宝上的假货、劣质商品,头条上的剽窃、标题党文章等)流通到平台中,最终受害的一定是消费者和整个市场环境。

如果不加管控,会造成很大的问题。这势必会伤害用户和整个社会环境,因为很多标的物是对人(特别是青少年)的身心是有伤害的(比如低俗、暴力、恶俗、带情色擦边球的文本、视频、游戏等),有些甚至包含反动言论等危害国家安全的信息。

 

3. 不注重保护个人隐私,胡乱收集和使用个人信息

算法推荐要获得更好的效果需要更多的数据进行模型构建。因此,企业为了创造更多的收益,滥用手中的权利(一般来说企业与用户的权利是不对等的,目前很多APP都存在霸王条款,如果你不同意它的协议,你就无法使用他们开发的APP,而这些协议往往是站在他们利益角度来草拟的,对用户限制居多),胡乱收集用户各种数据,有些数据可能是构建算法模型根本不需要的,也被在收集之列。

有些企业可能还做的更过分,将你的数据作为资产卖给一些第三方公司来获利(这个事情我就深受其害,我之前开了一个股票账号,后面就经常有各种投资证券公司给我打电话,相信很多人也都亲身经历了这类事情)。

之所以出现这种情况,就是因为企业做这类事情没有相应的法律制裁,违法成本低,导致他们铤而走险。中国公民的个人信息保护意识也比较淡漠,所以他们就肆无忌惮地做起了各种卑鄙的勾当。

 

4. 让用户太过于沉迷,影响用户身心健康发展

前面也说过,毫无原则的、只在满足企业商业价值的算法推荐系统,让用户沉浸在满足人“原始本能”的欲望冲动中不能自拔(很多人刷抖音能刷一整天)。太过沉迷,让用户无暇进行个人学习提升,严重影响用户身心发展。特别是青少年,辨别能力还不足,自控力还比较差,很容易陷进去,过度使用这些系统容易导致影响学业和身心健康发展。

 

5. 算法推荐搜集的数据也可能对国家安全造成危害

中国的互联网企业一般都受益于中国的人口红利。大的互联网企业拥有庞大的用户群体,可以获取到的数据量是非常多的,并且维度也是非常丰富的。这里拿滴滴来说,滴滴每天的用户有千万级,总用户好几亿。每个打滴滴的人的出行记录都被滴滴收集后(滴滴收集这些数据的目的之一也是为了算法更好地调度运力资源,在用户打车时为用户推荐最合适的车辆),这背后的数据可以挖掘出很多比较重要的信息,比如中国国民的人口地理分布,行政机关的事务工作时间、工作地点规律等。

在国家数据安全法出台之前,在数据的存储、使用中没有特别有针对性的法律规范,这些数据如果被不法分子获取是可能危害国家安全的。滴滴偷偷上市后被国家多部门联合审查,可能就是因为有数据泄露上的问题导致的。

读完上面的分析,相信读者也大致知道了当前算法推荐存在的一些比较严重的问题。国家的初衷肯定是好的,希望算法推荐能够真正发挥技术的价值,为整个社会和个人生活带来好的变化。所以,国家准备规范算法推荐行为,整顿当前不合理的算法推荐是非常正确的举措。

既然是规范和整顿,那么肯定会对算法推荐涉及到的利益方都有影响。这里面的利益方主要有4方:一是提供算法推荐服务的企业(后面会统一简称为平台方);二是为算法推荐提供标的物的标的物提供方(比如淘宝上的商家、B站上的up主、视频网站上的视频出品方等);三是算法推荐的从业者——算法的开发者是互联网企业的算法工程师;四是最终的用户——算法推荐最终服务的还是广大的用户群体。

下面我们在接下来的三、四、五、六这4节中分别说明国家整顿算法推荐对参与的4方有什么影响以及其中存在的利弊。我们先从整顿算法推荐给平台方带来的挑战说起。

 

三、整顿算法推荐给平台方带来的挑战

在本节开始讲之前,笔者这里对算法推荐的范围进行一些解读,好让读者知道会对哪些算法业务有影响。根据笔者的理解,这里的算法推荐不仅仅是我们字面上理解的推荐系统。而是所有通过算法来为用户的决策提供服务的算法方案及算法背后牵涉到的数据、产品、运营等。至少包括推荐系统、搜索、广告投放、精准营销、个性化推送等业务(其实意见稿中第二条也明确提到了几种在管控范围内的技术或者业务)。用一句话来说,只要是利用了算法(包括机器学习算法、人工规则策略等)来为用户提供服务的业务都在此次管控范围内。所以说,这个整顿的范围是非常广的,基本对所有的互联网企业和个性化服务都有影响。具体的影响包括如下5个方面:

 

1. 有限制的收集用户数据

首先企业后面是不能再胡乱收集数据了,企业只能收集必要的数据,这些收集的数据是可以改善产品与服务的,跟企业提供的业务无关的数据是不可以收集的。

 

2. 将数据和服务的使用控制权交给用户

未来用户是可以选择是否让企业收集自己的数据的,也可以先同意企业收集自己的数据,后面再要求关闭并且删除自己的所有数据。对于企业提供的算法推荐服务也是一样的,用户有权关闭企业提供的算法推荐服务。

 

3. 企业会更难做精准营销了

由于数据和服务的控制权都交给了用户,那么企业就更不容易收集到那么多的用户数据了。这对以数据为原料的机器学习算法是致命打击。没有了优质的海量数据,常用的机器算法就很难有用武之地(小样本学习、迁移学习等新方法未来可能会越来越重要),推荐没有那么精准了。如果用户关闭了算法推荐服务,那么服务将对该用户不可用。

不过这个影响也没必要放大。我猜测国家法律是许可按照规范提供算法推荐服务的企业默认对用户开启算法推荐服务的。如果企业的提供的服务是公开透明的,让用户拥有控制权,并且真的能够为用户带来便利和好处,那么用户还是愿意使用的。真正关闭的用户可能比例不会那么大。

 

4. 企业必须投入专门的人力、财力去落实与法律管控相关的事务

企业对数据的隐私保护,公开透明,这些都是要付出成本的。如果让用户拥有数据和算法推荐服务的控制权,这对产品形态,后端的服务,前端的交互展示逻辑等都有较大的调整,这无形中会涉及到很多部门的配合、开发、运营、维护等工作。

为了满足法律管控、为了保护用户隐私、为了让用户有控制权、为了算法推荐的原理有更好的可解释性、为了服务更加公开透明、为了算法推荐的审核和备案、为了处理算法推荐的应急情况,这些对算法的工程架构,算法采用的技术方案等都有比较大的影响,甚至可能对公司组织架构都有影响,可能公司会成立专门的人员或者团队进行算法解释、新算法开发、安全审核相关的工作。这些改变,当然会涉及到人力、资源的投入。

 

5. 算法推荐的目标会变得更加多元化,不能只顾自身利益

以前那种唯点击率、唯转化率的算法优化思路肯定是行不通了。企业的算法应该考虑多方的利益,要平衡自身、用户、标的物提供方、社会效益等多方利益。为了构建满足多元利益的算法推荐系统。算法推荐服务从原理、架构、实施、算法技术等多个方面都要进行比较大的调整和革新。

这些挑战和改变是比较明显的,更多隐含的改变还得等后面法律规范真正落地后才能慢慢呈现出来。这些改变咋一看对平台方有居多的要求和限制,看起来是不利的。但是我认为这种影响是局部的、短期的。《意见稿》规范了整个行业,对行业提出了更高的要求,必定会让整个算法推荐更加规范化、透明化,最终朝着多赢的方向发展,长久是可以让整个生态更加稳定繁荣的。

算法推荐的规范除了对企业有巨大的挑战外,对规范标的物提供方也是有比较大的帮助的。我们在下面一节来加以说明。

 

四、整顿算法推荐给标的物提供方带来的改变

整顿算法推荐给标的物提供方带来的影响不会那么直接,整顿直接面向的是提供算法服务的企业,企业为了满足法律法规的要求,必然会对算法推荐的实体,也就是标的物进行适当的规范。这些规范主要包括如下2个方面:

 

1. 对标的物质量的管控

《意见稿》要求要弘扬正向的价值观、要对用户、对整个生态有价值。这必然让推荐服务提供商对标的物提供方提供的商品、服务进行更严格的管控,要严格保证标的物的质量。如果标的物是商品或者服务,就要求保证商品或者服务的品质,如果标的物是虚拟商品(如文本、视频等),一定要是正向的、健康的、有益人们身心发展的数字产品。

对于提供优质标的物提供方,平台方肯定是支持的,而对于提供劣质标的物的提供方,平台方一定是打压的,对于多次违法犯规的提供方一定会永久封禁。这种改变一定会体现在对这些标的物提供方的流量分配上。

2. 对流量分配机制的调节

提供优质标的物的提供方一定会得到平台方流量的倾斜,好的商品和服务会得到更多的曝光,好的商品和服务用户消费后也会是正向的评价,这个过程是一个不断正循环、正反馈的过程。最终整个生态是“良者愈良,劣者愈劣”的。有了流量的倾斜,这些优质的提供方也更容易挣到更多的钱。

所以,未来的标的物提供方,不能有侥幸的心理,一定要做好商品和服务,只有提供更优质的标的物,才能更好地生存下去。有了《意见稿》对行业的规范,商品或服务提供方一定会朝着更好的方向发展,这对整个行业、对用户都是有利无害的。

五、整顿算法推荐给算法推荐从业者带来的改变

算法推荐的从业者一般是受雇于平台方的,一般不直接受《意见稿》的管控,平台方为了应对《意见稿》的要求,必然会对算法推荐进行调整、优化,这间接会改变算法从业者的工作形式和工作内容。这些改变主要体现在数据获取、模型构建、算法服务等3个维度,下面分别加以说明。

1. 数据维度的变化

当企业为用户提供是否可以收集用户数据的选择权时,如果用户关闭供数据收集权限,那么企业就无法获得该用户的行为数据。而数据是机器学习算法的核心资源,这势必会影响算法推荐的落地实施、具体实现形式以及算法效果。

对这类没有数据的用户提供的算法推荐将不具备精准性,这批用户就变成了系统的冷启动用户。未来,冷启动用户必然更多,怎么更好地服务这部分用户,是整个算法推荐需要考虑的核心问题。具体的应对方式可能是算法推荐技术上的改进与优化,也可能是产品形态上的调整与改变。具体怎么实施,还得看企业的思路和已有的数据、技术资源。

数据在收集、转运、处理、存储、建模过程中的各个环节,为了保证数据的安全与隐私,对整个系统架构和处理方式都是有比较大的冲击的。

这些由数据管控或者数据不足带来的挑战都会最终直接或者间接影响到算法从业者,他们开发算法的模型,能够提供的个性化服务形式都会有所调整和改变。

2. 模型维度的变化

模型维度的变化体现在数据量和数据维度的变化对构建模型带来的挑战,更少的数据会对模型的效果等带来影响,小样本学习、迁移学习等学习范式未来可能会在推荐系统中有更大的用武之地。模型维度的变化也体现在《意见稿》要求保护用户隐私上,隐私保护要求算法有所改进,这就要求采用具备隐私保护的算法(比如联邦学习算法等)。

如果算法模型要体现多元的价值目标(而不是唯流量论)也会对算法的优化目标有较大的挑战,这进而影响可以选择的模型、具体的模型优化方法等。

3. 算法服务的变化

首先,用户可以选择关闭算法推荐服务,对这部分用户,整个算法推荐的产品形态、交互形式都会受到影响,具体怎么实施,还得看后面企业怎么满足这部分用户的需求。一般来说,可以将这部分用户作为冷启动用户来处理,或者针对这部分用户提供编辑精选推荐等其他的产品形态。不管怎样,都会对算法从业者的实际工作产生直接影响。

《意见稿》也要求对推荐算法具备一定的可管控性、可解释性、可追溯性,那么算法从业者在选择具体的算法方案及对算法全流程的人工干预上,都会产生一定的变化。

总之,在《意见稿》正式实施后,算法推荐的从业者在构建算法推荐模型的整个业务流程上的具体工作都会受到影响和冲击,这种变化对算法从业者的技能树是有影响的,但是对职业方向应该是没有太大影响的。

我们在前面第一节中的原则2中就说过,算法推荐是满足人类需求的一种必不可少的方式。那么《意见稿》只会对算法从业者的具体工作内容有影响(这些影响可能是正向的,这要求从业者学习更多的技术和方法),基本不会减少对这类岗位的需求。甚至更可能的情形是,由于《意见稿》的落地,企业要从更多的维度来思考调整算法推荐,会招聘更多这方面的专业人才。

六、整顿算法推荐业务给用户带来的变化

《意见稿》显然也间接地对最终算法推荐的使用方(也就是用户)施加影响。这种影响主要体现在如下3个方面:

1. 用户有更多的自主选择权

用户的自主选择权主要体现在对数据收集的知情权、使用权上。企业收集用户什么类型的数据,这些数据用于什么用途,未来在APP上用户可以直接看到。用户有权禁止企业收集自己的数据,用户有权让企业销毁已经收集的自己的数据。

用户在使用产品时,不再受到很多霸王条款的侵扰,诸如如果你不同意APP的协议你就无法使用APP这类事情,后面会得到减少甚至是消除。

用户的自主权还体现在对平台方提供的服务的知情权和决定权上。所谓知情权,就是用户可以知道平台方是基于什么原理、什么逻辑为自己提供算法推荐服务的,这在《意见稿》中是有明确规定的,平台方是有这个义务的。另外,用户还可以随时开启和关闭平台方给自己提供的算法推荐服务。

2. 用户会获得更加多元化、有价值的算法推荐

《意见稿》实施后,平台方必然会在算法推荐中整合多源的目标,让算法推荐朝着健康、公平公正、稳定和谐的方向发展,不会一味地将自身利益作为唯一的目标。这对用户是有好处的。另外,企业也会提供更加多样化、丰富的标的物供用户选择,在满足需求的同时,也让用户获得更多的信息,不会一味迎合用户口味,最终会减少或者避免信息茧房现象的出现。

3. 可以减缓用户的过度沉迷和过度消费

用户之所以会过度沉迷,是因为算法一味迎合用户,只推荐你感兴趣的(这些往往是满足人的动物性需求),久而久之,用户就会沉浸在一浪接着一浪的兴趣冲动中,导致沉迷而无法自拔。如果平台方的算法目标调整为提供多元化的信息推荐,那么是可以大大改善这种情况的。

在《意见稿》的要求下,平台方的算法推荐目标多元化之后,就不会从用户身上无底线地获取收益了。这对于节省用户资金,防止用户过度的、不理性的消费也是大有裨益的。

总之,《意见稿》对最终的用户是非常有利的。用户属于多方利益博弈中最弱势的一方,理应是应该受到更多保护和支持的。《意见稿》的实施将会真正做到从用户角度来思考问题,将用户利益放到比较重要的位置,这确实是一件大快人心的事情。某种程度上说,这也是最正确的做法,因为所有企业赖以生存的基础都是用户,只有将用户的利益放到比较重要的位置,企业才能更好地持久生存下去。

总结

《意见稿》初看对整个行业不利,但是基于笔者前面的分析,它带来的影响需要辩证地去看。如果我们抓住了事物的客观规律,比如第一节提到的三个原则,就会发现算法推荐是一种中性的技术,它是人类获取信息的一种重要的、必不可少的方式,并且它是可以带来多方利益平衡的。有了这个认识,那么《意见稿》带来的影响就可以很好地被我们评估和识别了。

《意见稿》实施之后,短期当然会对整个算法推荐行业有比较大的影响和冲击,特别是像抖音、快手、头条、淘宝等将算法推荐作为核心技术和运营手段的企业。这些企业会在过渡期面临比较大的调整、改变。这些改变可能会对团队组织架构、产品形态、营销方式、公司收益等产生比较大的影响。这必定会带来阵痛。

《意见稿》会间接对标的物提供方提供的服务品质、服务质量等提出了更高的要求。《意见稿对算法从业者的具体工作内容、技术实现方案等都或多或少有影响。《意见稿》对最终的用户的影响更是温和的、有百利而无一害的。

《意见稿》产生的影响肯定是缓慢的,会在企业应对过程中被缓和、稀释。也就是说提供算法推荐的企业受到的影响是首当其冲的,而算法从业者、标的物提供方、用户的影响是比较缓和的,提供算法服务的企业就是他们的防震垫。

总之,笔者认为《意见稿》的出台是对整个算法推荐行业利好的消息,它最终会规范整个算法推荐行业,让整个行业在规范化、合理化、透明化、公正化的道路上走得更远,最终达到多方博弈的平衡稳定状态,这种状态也是多赢的状态!

转载,欢迎小伙伴们交流讨论

...全文
84 7 收藏 回复
写回复
回复
切换为时间正序
请发表友善的回复…
发表回复

还没有回复,快来抢沙发~

发帖
Gauss松鼠会
创建于2021-07-06

430

社区成员

汇集数据库的爱好者和关注者,大家共同学习、探索、分享数据库前沿知识和技术,像松鼠一样剥开科学的坚果;交流Gauss及其他数据库的使用心得和经验,互助解决问题,共建数据库技术交流圈。
帖子事件
编辑了帖子
2021-09-09 17:01
创建了帖子
2021-09-09 16:54
社区公告

欢迎大家同时关注Gauss松鼠会专家酷哥。

https://www.zhihu.com/people/ku-ge-78-98