
用户画像ppt
-
2023年2月16日发(作者:情书格式)⼀⽂告诉你什么是⽤户画像
什么是⽤户画像
⽤户画像,英⽂⼜叫UserProfile,我们经常看到在PPT中展现出⾼⼤上的⽤户画像,展现的
⽅式是采⽤标签云的⽅式绘制⼀个⼈的形状,或者在⼀个⼈物形象旁边列出若⼲⼈⼝统计学属
性,以此来表达“⽤户画像”这个概念。
上⾯这种⽅式看上去⾮常炫酷,但实际上这么做的⽬的只是为了对外展现,⽤户画像最应该是
给机器看,⽽不是给⼈看。如果要给机器看,那每个⽤户的画像应该就是⼀个向量。
⽤户向量化后的结果,就是UserProfile,俗称“⽤户画像”。所以,⽤户画像不是推荐系统的⽬
的,⽽是在构建推荐系统的过程中产⽣的⼀个关键环节的副产品。
通常⼤型推荐系统⼀般都分为召回和排序两个阶段,因为全量物品通常数量⾮常⼤,⽆法为⼀
个⽤户(User)逐⼀计算每⼀个物品(Item)的评分,这时候就需要⼀个召回阶段,其实就是
预先筛选⼀部分物品(Item),从⽽降低计算量,⽤户画像除了⽤于最终匹配评分,还要⽤在召
回。所以,构建⽤户画像就要以这两个阶段为⽬的。
⽤户画像关键因素
建⽴⽤户画像有两个关键点,⼀个是维度,另⼀个是量化。这⾥举个简单的例⼦来说明下。⽐
如有以下⼏家旅店,旅店的属性(标签)如下:
名称价格环境距离
A100/晚中5km
B200/晚优2km
C150/晚差10km
D150/晚优1km
对价格、环境、距离分别映射⼀个评分。假定都分为三个级别,价格越低评分越⾼,环境越好
评分越⾼,距离越近评分越⾼,那么映射后的结果如下:
名称价格环境距离
A322
B133
C211
D233
映射后⽣成旅店的特征矩阵(维度矩阵),每个旅店都对应⼀个向量,⽐如旅店A对应的向量就
是[1,2,2]。接下来需要对⼈也映射⼀个向量,映射⽅法就是看你多在意这⼏个因素,⽐如我对
价格不敏感(不缺钱),但是⾮常在意环境和距离,那我这个⼈对应的向量就是[1,3,3]。然后将
物品的矩阵与⼈的向量相乘,得到这个⼈对每个物品的评分。
可以看到,最后会有⼀个评分列表,分别表⽰我对每个旅店的预估评分。了解了上⾯的例⼦
后,再来看下⽤户画像中关键的两个因素:维度和量化。
上⾯例⼦中选择的维度分别是:价格、环境、距离。这⼏个维度有以下⼏个特点:
维度名称都是可解释的
维度的数量是拍脑袋拍出来的
选择什么维度也是拍脑袋拍出来的
在实际⽣产环境中,维度名称并不⼀定需要由可解释性,维度数量以及选择什么维度也不应该
都以主观意愿来决定。
再来看下量化,实际⽣产环境中,⽤户画像每个维度的量化,应该交给机器,⽽且以⽬标为导
向,以推荐效果好坏来反向优化出⽤户画像才有意义。像前⾯的例⼦中的先⾏主观量化⽽不考
虑推荐效果时⾮常不合理的。
所以⽤户画像的量化是和第三个关键元素“效果”息息相关的。前⾯已经说过,不要为了⽤户画像
⽽⽤户画像,它只是推荐系统的⼀个副产品,所以要根据使⽤效果(排序好坏、召回覆盖等指
标)来指导⽤户画像的量化。
⽤户画像构建⽅法
按照对⽤户向量化的⼿段来分,⽤户画像构建⽅法分成三类:
1.查户⼝
查户⼝的意思就是说直接使⽤原始数据作为⽤户画像,⽐如注册资料中包含的⼈⼝统计学信
息,或者浏览历史、购买历史,除了数据清洗等⼯作外,数据本⾝没有做任何抽象和处理。通
常对于⽤户冷启动等场景⾮常有⽤。
2.堆数据
堆数据的意思就是说从历史数据中统计过出需要的结果,常见的兴趣标签就属于这类:从历史
⾏为数据中去挖掘出标签,然后在标签维度上做数据统计,⽤统计结果作为量化结果。⼀般⾮
常炫酷的⽤户画像都是通过这种⽅法制作的。
3.⿊盒⼦
⿊盒⼦的意思是说使⽤机器学习⽅法,学习出⼈类⽆法直观理解的稠密向量,也最不被⾮技术
⼈员重视,但实际上在推荐系统中承担的作⽤⾮常⼤。
⽐如使⽤潜语义模型构建⽤户阅读兴趣,或者使⽤矩阵分解得到的隐因⼦,或者使⽤深度学习
模型学习⽤户的Embedding向量。这⼀类⽤户画像数据因为通常是不可解释,不能直接被⼈看
懂。
总结
⽤户画像应该是让机器看的,所以就需要是⼀种结构化的数据,可以认为是⽤户信息的向量化
结果。⽤户画像的关键元素有维度和量化,量化时需要以推荐系统的效果为指导。通常构建⽤
户画像的⽅法有三种:采⽤原始信息(查户⼝)、使⽤统计结果(可被理解)、使⽤机器学习
⽅法(⽆法被⼈理解,但是很重要)。