✅ 操作成功!

用户画像ppt

发布时间:2023-06-04 作者:admin 来源:文学

用户画像ppt

用户画像ppt

-

2023年2月16日发(作者:情书格式)

⼀⽂告诉你什么是⽤户画像

什么是⽤户画像

⽤户画像,英⽂⼜叫UserProfile,我们经常看到在PPT中展现出⾼⼤上的⽤户画像,展现的

⽅式是采⽤标签云的⽅式绘制⼀个⼈的形状,或者在⼀个⼈物形象旁边列出若⼲⼈⼝统计学属

性,以此来表达“⽤户画像”这个概念。

上⾯这种⽅式看上去⾮常炫酷,但实际上这么做的⽬的只是为了对外展现,⽤户画像最应该是

给机器看,⽽不是给⼈看。如果要给机器看,那每个⽤户的画像应该就是⼀个向量。

⽤户向量化后的结果,就是UserProfile,俗称“⽤户画像”。所以,⽤户画像不是推荐系统的⽬

的,⽽是在构建推荐系统的过程中产⽣的⼀个关键环节的副产品。

通常⼤型推荐系统⼀般都分为召回和排序两个阶段,因为全量物品通常数量⾮常⼤,⽆法为⼀

个⽤户(User)逐⼀计算每⼀个物品(Item)的评分,这时候就需要⼀个召回阶段,其实就是

预先筛选⼀部分物品(Item),从⽽降低计算量,⽤户画像除了⽤于最终匹配评分,还要⽤在召

回。所以,构建⽤户画像就要以这两个阶段为⽬的。

⽤户画像关键因素

建⽴⽤户画像有两个关键点,⼀个是维度,另⼀个是量化。这⾥举个简单的例⼦来说明下。⽐

如有以下⼏家旅店,旅店的属性(标签)如下:

名称价格环境距离

A100/晚中5km

B200/晚优2km

C150/晚差10km

D150/晚优1km

对价格、环境、距离分别映射⼀个评分。假定都分为三个级别,价格越低评分越⾼,环境越好

评分越⾼,距离越近评分越⾼,那么映射后的结果如下:

名称价格环境距离

A322

B133

C211

D233

映射后⽣成旅店的特征矩阵(维度矩阵),每个旅店都对应⼀个向量,⽐如旅店A对应的向量就

是[1,2,2]。接下来需要对⼈也映射⼀个向量,映射⽅法就是看你多在意这⼏个因素,⽐如我对

价格不敏感(不缺钱),但是⾮常在意环境和距离,那我这个⼈对应的向量就是[1,3,3]。然后将

物品的矩阵与⼈的向量相乘,得到这个⼈对每个物品的评分。

可以看到,最后会有⼀个评分列表,分别表⽰我对每个旅店的预估评分。了解了上⾯的例⼦

后,再来看下⽤户画像中关键的两个因素:维度和量化。

上⾯例⼦中选择的维度分别是:价格、环境、距离。这⼏个维度有以下⼏个特点:

维度名称都是可解释的

维度的数量是拍脑袋拍出来的

选择什么维度也是拍脑袋拍出来的

在实际⽣产环境中,维度名称并不⼀定需要由可解释性,维度数量以及选择什么维度也不应该

都以主观意愿来决定。

再来看下量化,实际⽣产环境中,⽤户画像每个维度的量化,应该交给机器,⽽且以⽬标为导

向,以推荐效果好坏来反向优化出⽤户画像才有意义。像前⾯的例⼦中的先⾏主观量化⽽不考

虑推荐效果时⾮常不合理的。

所以⽤户画像的量化是和第三个关键元素“效果”息息相关的。前⾯已经说过,不要为了⽤户画像

⽽⽤户画像,它只是推荐系统的⼀个副产品,所以要根据使⽤效果(排序好坏、召回覆盖等指

标)来指导⽤户画像的量化。

⽤户画像构建⽅法

按照对⽤户向量化的⼿段来分,⽤户画像构建⽅法分成三类:

1.查户⼝

查户⼝的意思就是说直接使⽤原始数据作为⽤户画像,⽐如注册资料中包含的⼈⼝统计学信

息,或者浏览历史、购买历史,除了数据清洗等⼯作外,数据本⾝没有做任何抽象和处理。通

常对于⽤户冷启动等场景⾮常有⽤。

2.堆数据

堆数据的意思就是说从历史数据中统计过出需要的结果,常见的兴趣标签就属于这类:从历史

⾏为数据中去挖掘出标签,然后在标签维度上做数据统计,⽤统计结果作为量化结果。⼀般⾮

常炫酷的⽤户画像都是通过这种⽅法制作的。

3.⿊盒⼦

⿊盒⼦的意思是说使⽤机器学习⽅法,学习出⼈类⽆法直观理解的稠密向量,也最不被⾮技术

⼈员重视,但实际上在推荐系统中承担的作⽤⾮常⼤。

⽐如使⽤潜语义模型构建⽤户阅读兴趣,或者使⽤矩阵分解得到的隐因⼦,或者使⽤深度学习

模型学习⽤户的Embedding向量。这⼀类⽤户画像数据因为通常是不可解释,不能直接被⼈看

懂。

总结

⽤户画像应该是让机器看的,所以就需要是⼀种结构化的数据,可以认为是⽤户信息的向量化

结果。⽤户画像的关键元素有维度和量化,量化时需要以推荐系统的效果为指导。通常构建⽤

户画像的⽅法有三种:采⽤原始信息(查户⼝)、使⽤统计结果(可被理解)、使⽤机器学习

⽅法(⽆法被⼈理解,但是很重要)。

👁️ 阅读量:0