用户画像ppt

发布时间：2023-06-04 作者：admin 来源：文学

用户画像ppt

2023年2月16日发(作者：情书格式)

⼀⽂告诉你什么是⽤户画像

什么是⽤户画像

⽤户画像，英⽂⼜叫UserProfile，我们经常看到在PPT中展现出⾼⼤上的⽤户画像，展现的

⽅式是采⽤标签云的⽅式绘制⼀个⼈的形状，或者在⼀个⼈物形象旁边列出若⼲⼈⼝统计学属

性，以此来表达“⽤户画像”这个概念。

上⾯这种⽅式看上去⾮常炫酷，但实际上这么做的⽬的只是为了对外展现，⽤户画像最应该是

给机器看，⽽不是给⼈看。如果要给机器看，那每个⽤户的画像应该就是⼀个向量。

⽤户向量化后的结果，就是UserProfile，俗称“⽤户画像”。所以，⽤户画像不是推荐系统的⽬

的，⽽是在构建推荐系统的过程中产⽣的⼀个关键环节的副产品。

通常⼤型推荐系统⼀般都分为召回和排序两个阶段，因为全量物品通常数量⾮常⼤，⽆法为⼀

个⽤户（User）逐⼀计算每⼀个物品（Item）的评分，这时候就需要⼀个召回阶段，其实就是

预先筛选⼀部分物品（Item），从⽽降低计算量，⽤户画像除了⽤于最终匹配评分，还要⽤在召

回。所以，构建⽤户画像就要以这两个阶段为⽬的。

⽤户画像关键因素

建⽴⽤户画像有两个关键点，⼀个是维度，另⼀个是量化。这⾥举个简单的例⼦来说明下。⽐

如有以下⼏家旅店，旅店的属性（标签）如下:

名称价格环境距离

A100/晚中5km

B200/晚优2km

C150/晚差10km

D150/晚优1km

对价格、环境、距离分别映射⼀个评分。假定都分为三个级别，价格越低评分越⾼，环境越好

评分越⾼，距离越近评分越⾼，那么映射后的结果如下：

名称价格环境距离

A322

B133

C211

D233

映射后⽣成旅店的特征矩阵（维度矩阵），每个旅店都对应⼀个向量，⽐如旅店A对应的向量就

是[1,2,2]。接下来需要对⼈也映射⼀个向量，映射⽅法就是看你多在意这⼏个因素，⽐如我对

价格不敏感（不缺钱），但是⾮常在意环境和距离，那我这个⼈对应的向量就是[1,3,3]。然后将

物品的矩阵与⼈的向量相乘，得到这个⼈对每个物品的评分。

可以看到，最后会有⼀个评分列表，分别表⽰我对每个旅店的预估评分。了解了上⾯的例⼦

后，再来看下⽤户画像中关键的两个因素：维度和量化。

上⾯例⼦中选择的维度分别是：价格、环境、距离。这⼏个维度有以下⼏个特点：

维度名称都是可解释的

维度的数量是拍脑袋拍出来的

选择什么维度也是拍脑袋拍出来的

在实际⽣产环境中，维度名称并不⼀定需要由可解释性，维度数量以及选择什么维度也不应该

都以主观意愿来决定。

再来看下量化，实际⽣产环境中，⽤户画像每个维度的量化，应该交给机器，⽽且以⽬标为导

向，以推荐效果好坏来反向优化出⽤户画像才有意义。像前⾯的例⼦中的先⾏主观量化⽽不考

虑推荐效果时⾮常不合理的。

所以⽤户画像的量化是和第三个关键元素“效果”息息相关的。前⾯已经说过，不要为了⽤户画像

⽽⽤户画像，它只是推荐系统的⼀个副产品，所以要根据使⽤效果（排序好坏、召回覆盖等指

标）来指导⽤户画像的量化。

⽤户画像构建⽅法

按照对⽤户向量化的⼿段来分，⽤户画像构建⽅法分成三类：

1.查户⼝

查户⼝的意思就是说直接使⽤原始数据作为⽤户画像，⽐如注册资料中包含的⼈⼝统计学信

息，或者浏览历史、购买历史，除了数据清洗等⼯作外，数据本⾝没有做任何抽象和处理。通

常对于⽤户冷启动等场景⾮常有⽤。

2.堆数据

堆数据的意思就是说从历史数据中统计过出需要的结果，常见的兴趣标签就属于这类：从历史

⾏为数据中去挖掘出标签，然后在标签维度上做数据统计，⽤统计结果作为量化结果。⼀般⾮

常炫酷的⽤户画像都是通过这种⽅法制作的。

3.⿊盒⼦

⿊盒⼦的意思是说使⽤机器学习⽅法，学习出⼈类⽆法直观理解的稠密向量，也最不被⾮技术

⼈员重视，但实际上在推荐系统中承担的作⽤⾮常⼤。

⽐如使⽤潜语义模型构建⽤户阅读兴趣，或者使⽤矩阵分解得到的隐因⼦，或者使⽤深度学习

模型学习⽤户的Embedding向量。这⼀类⽤户画像数据因为通常是不可解释，不能直接被⼈看

懂。

总结

⽤户画像应该是让机器看的，所以就需要是⼀种结构化的数据，可以认为是⽤户信息的向量化

结果。⽤户画像的关键元素有维度和量化，量化时需要以推荐系统的效果为指导。通常构建⽤

户画像的⽅法有三种：采⽤原始信息（查户⼝）、使⽤统计结果（可被理解）、使⽤机器学习

⽅法（⽆法被⼈理解，但是很重要）。

👁️ 阅读量：0

🔖 本文标签：

🔥 最新发布文章