2009年由Netflix建议的Netflix Prize百万美金比赛,必定是引荐体系范畴最美丽性的工作,这次比赛不光招引了许多专业人士开端投身于引荐体系范畴的研讨工作,也让这项技能从学术圈实在地进入到了商业界,引发了火热的评论并逐步深化到了商业的中心内地。

当然,最获益的必定仍是Netflix公司自己,不只大有替代Amazon成为新一代引荐引擎之王的姿势,而且从商业报答自身上看也无疑取得了十分巨大的报答。

7年过去了,Netflix引荐体系的现状怎么呢?ResysChina将带来最新的深度解读。

早年举行Netflix Prize比赛的时分,Netflix引荐体系的首要方针是猜测用户对某部影片的评分(1-5分),由于当年Netflix的主营事务仍是DVD租借,打分是Netflix最首要的获取用户反应的办法。

Netflix虽然依然在运用着由Netflix Prize衍生出来的算法,但现在Netflix的中心事务办法现已转变为在线流媒体,因而Netflix可以从更多维度去了解用户的运用行为,比方,怎么观看(运用什么设备、每天的什么时刻,每周的哪天,观看的频度),用户是怎么发现视频的,乃至是哪些视频现已引荐给了用户但并未被播映,等等。

Netflix的最新用户数据:注册会员6500万人,每天观看视频的总时长1亿个小时。

Netflix新一代引荐体系的承载办法是「会员主页」,这也是每个会员登录之后的榜主页,均匀每3小时的视频播映中就有2个小时是从这儿建议的。咱们都知道,主页几乎是一切产品最最重要的页面,Netflix勇于把主页根据引荐体系来驱动,一来阐明他们对引荐体系的注重程度,二来也是标明他们对自己引荐技能的高度自傲。

下图一图二是Netflix主页引荐的示例。主页下面那一行行的豆腐块电影海报便是Netflix给出的引荐成果,一共会有40行,每一行都是根据一种引荐算法给出的成果,一般一行引荐成果的数量不超越75个,会归纳考虑用户运用的设备等用户体会要素。每一行都会有对应的「标签」用来标明引荐理由,Netflix经过这种办法让引荐成果更直白,用户也更好了解。

Netflix讲解了运用到的几种最中心的引荐算法。

1、Personalized Video Ranker: PVR

这是Netflix引荐体系最中心的部分。根据「基因」的电影引荐首要便是由PVR来完结的,比方上图一中左图的榜首行是「悬疑电影」,「悬疑」便是一种基因。PVR是千人千面的,即便同一个基因引荐序列,每个用户看到的影片及排序都是不同的。Netflix引荐体系中PVR的运用极端广泛,它是针对每个用户给出个性化引荐成果的根底,比方和「盛行度」算法结合,可以让抢手引荐也变得个性化起来。

2、Top-N Video Ranker

上图一中右图榜首行的「Top Picks」便是Top-N算法最典型的运用。必定程度上可以以为,Top-N是PVR算法的一个特例。PVR重视的是每个引荐序列的排序,而Top-N的中心方针是从一切序列中找出来最最相关的。可以简略了解为,Top-N的核算规模仅限于每个引荐序列头部的数据,优化方针也是从一切引荐序列中优中选优。

3、Trending Now

活期存款利息计算(招商白酒指数基金分级)

Netflix发现近期趋势(从几分钟到几天)是猜测用户观看行为的有用因子,而且假如可以与适宜的个性化办法结合起来的话作用还会更好。Netflix运用trending ranker算法来生成Trending Now的引荐成果。

这个算法在两类场景里特别适用:1)每隔几个月(比方每年一次)会重复,且每次产生都会有一波显着的短期效应的,比方每年情人节期间的浪漫爱情片;2)突发的、短期的工作,比方媒体大规模报导了一场在人口密布区域登陆的飓风,就会引发一波关于飓风及其他天然灾害相关的纪录片和影片的重视。上图二左图的第二行为Trending Now的示例。

4、Continue Watching

Netflix运用continue watching raker来对是否持续观看某部影片或许某个系列来进行建模。Continue Watching不是未观看完视频的简略陈设,它会归纳考虑间隔前次观看的时刻,是停在了影片的中段、最初仍是结束,运用的什么设备,期间是否又观看了其他影片等许多要素。上图二右图的榜首行为此种引荐的示例。

5、Video-Video Smilarity

Because You Watched (BYW) 引荐——根据观看前史的引荐——是一种遍及被运用的十分重要的引荐形状,Netflix天然也不破例,上图一左图第二行便是示例。这类引荐办法的中心是核算两个影片的「类似度」,可以核算根据内容的基因类似度,可以从行为视点核算Item-based协同过滤的余弦类似度,当然也可以归纳运用多种办法。这种类似度自身对错个性化的,Netflix会在把BYW推送到个人页面的时分参加个性化相关的衡量。

6、Page Generation: Row Selection and Ranking

根据上面介绍的这些算法,Netflix一般会对每个用户都生成一个上万行的引荐成果调集。因而,怎么把这些成果收缩到40行内放到用户主页内,且一同要保证相关性和多样性,这就十分考究功力了,要归纳考虑包括时刻、场合、不同的家庭成员奉献账号等在在内的多种要素。

2015年曾经,Netflix首要运用的是根据规矩的办法来生成引荐成果页面。今日,Netflix现已演进出了一种充沛个性化且针对相关性与多样性进行了优化的页面生成算法。

7、Evidence

这些算法一同组成了完好的Netflix引荐体系。但还有其他的一同算法,比方引荐理由挑选算法,它和引荐算法一同构成了Netflix引荐的完好用户体会,用户根据引荐理由来判别引荐的影片是否合适他。

Netflix把完好的引荐理由放在了示例图中页面左上角的部分,包括,1)关于影片的猜测评分;2)内容介绍;3)艺人阵容、所获奖项之类的元数据;4)引荐图片的挑选能其他UI相关的部分,等等。引荐理由挑选算法会点评引荐影片相关的可供显现的一切条目,然后挑选出最有利于协助用户做出判其他条目显现在页面的引荐理由区域。

举个栗子,引荐理由挑选算法会决定是应该标明一部影片获得过奥斯卡,仍是提示用户这部影片和他最近刚看完的某部影片十分类似;它还会从多个版其他图库中挑选出一张最贴合给定引荐理由的图片。

8、Search

Netflix的引荐在整个产品里边可以说是无处不在,从流播映时长来看,80%的用户挑选都或多或少受到了引荐的影响。其他的20%来自于查找,查找也有自己的算法。用户一般都是查找影片、艺人或许是咱们目录供给的基因;咱们归纳运用了信息检索及相关技能为用户供给最相关的查找成果。

可是,由于用户的查找词也会常常触碰到不在咱们库里的影片、艺人或许是基因,再或许是一些广泛概念,以至于查找也变成了某种引荐问题。

比方以下图三为例,1)左图是用户查找「usual」的成果,估测用户很可能是要查找影片「The Usual Suspects」,但这部影片Netflix库里没有,图中显现的查找成果是根据这个估测做出的引荐成果;2)右图是用户查找「fren」的成果,首先是显现姓名里边包括fren的影片,左下角显现相关的艺人,然后下面是估测用户是要找「French Movies」给出的引荐成果。在这些比方里边,当「查找」没有成果的时分,引荐会接收用户恳求给出来引荐成果。

关于引荐体系的商业价值,Netflix提到了一个很有意思点,「引荐体系协助Netflix赢得关键时刻」:当一个会员拜访Netflix,Netflix期望可以协助他在几秒钟之内就找到他感兴趣的影片,避免他去寻觅其他乐子。

个性化技能可以协助人们接触到那些满足小众的内容,而这些内容在其他大众传播办法下,一般会由于比方广告价值太低一级原因,无法有用显露。从Netflix的数据可以很清楚的看到,由于引荐体系的作用,他们整个渠道被点播到的影片数量大大的进步了。

Netflix运用一个专门的方针来衡量这一点,ECS - Effective Catalog Size。

当一切的播映都来自于一部影片的时分,ECS等于1;假如播映次数与影片数持平,即每次播映的都是不同的影片时,ECS等于影片数;其它状况ECS介于这之间。如下图,Netflix根据无个性化的数据(抢手影片)与个性化引荐PVR的数据做了一个比照剖析,在最显着的当地,个性化引荐使得ECS进步了4倍之多,即在相同播映次数的状况下,个性化引荐驱动的播映掩盖到的影片要多得多。

别的一个很重要的点,个性化技能可以显着进步引荐影片的被承受度(Take-Rate),即引荐给用户的影片实在被播映的比率。Netflix相同做了一个比照剖析,见下图,黑色线是根据抢手度的曲线,赤色线是根据个性化PVR方针的曲线,个性化引荐使得承受度有了巨大的进步。

而且除此之外,比承受度进步更有意义的是,优异的引荐技能使得用户的参加度(观看时长)与退订率都获益匪浅。Netflix的月退订率很低(很小的个位数百分比),大部分是由于支付的问题,实在自动挑选退订的十分少。经过在个性化引荐范畴的多年耕耘,月退订率得以下降了可观的百分比。月退订率的下降,一来有用延长了会员的付费存续期,二来也下降了为补偿丢失用户所要支付的本钱。

除了掩盖度、承受度这两个详细方针之外,全面点评引荐体系的好坏面临的应战极大。Netflix给了一个比方,对应「纸牌屋」给出的两组引荐成果见下图。

直觉上咱们一般会觉得下面这组引荐成果更好,由于把老版其他纸牌屋给引荐出来了。但是并没有。Netflix实践事务数据标明,图中上面榜首组的引荐成果更好。当一个引荐体系面临海量的用户以及许多的待引荐条目的时分,怎么点评引荐成果便是一件极端中心的工作了,你总得搞清楚自己到底在忙活什么对吧。

Netflix选用的是付费会员的商业办法,因而付费会员数便是十分有用的点评方针,这个数字受三个部分的影响:1)新会员转化率;2)老会员退订率;3)已退订会员的召回率。

好的引荐体系无疑可以让用户存留率增大,存留率又和用户的观看时长十分有联系。

Netflix在许多运用AB测验的办法来不断的优化相关的方针,一个典型的从离线试验到在线AB测验的流程如下图所示,这个整套流程基本上也是老练引荐体系的标配套路了。需求要点考虑的问题,1)怎么精确地界说方针;2)怎么合理地切分数据和流量;3)怎么实在点评试验成果。

当然,Netflix的引荐体系也仍是有各种进步空间的,Netflix列举了几点。

更有用的试验结构:可以支撑离线试验算法更快速的迭代,而且可以更有用猜测线上AB测验成果;在参加度方针体系中怎么可以更好地平衡电影、连续剧、专题节目等各种办法的内容等。

习惯全球化的算法:Netflix计划在2016年末进入全球商场,不同版权要求的内容会有相应的约束,比方某些影片只限于某些国家播映,怎么一致有用地使用Netflix全球数据来最大化某个区域的引荐作用。

操控正反应带来的偏置效应:引荐体系是典型的强正反应体系,用户参加度越高的影片会进一步引荐给更大的用户集体,然后这些影片就又会更活泼。怎么可以找到更有用的办法引进随机性,然后学习到更强健的模型。

更好的引荐页面构建办法:引荐页面构建仍是一个相对新颖、研讨比较少的范畴。

会员冷启动问题:这个是引荐范畴老大难的问题了,Netflix也不破例,PVR算法在老用户上的作用要显着好于新用户。怎么可以在新用户首月体会期内更好的拿下他,价值巨大。

同享账户的问题:虽然Netflix现已供给了一个付费会员支撑多个独立账号的功用,但多个家庭成员同享一个账号的状况依然很常见,需求可以愈加智能地自动化处理这个问题。

供给更好的引荐理由:怎么为给到每一个用户的每一个引荐成果都搭配上更个性化的引荐理由。

据Netflix预算,个性化引荐体系每年为它的事务节约的费用可达10亿美金。打造一套优异的引荐体系面临着许多应战,但无疑又价值巨大。