此文是根据《推荐系统实践》部分整理而来。
PART 1
第一个问题是
用户行为数据有哪些?
用户行为数据最简单的存在形式就是日志,日志记录了用户的各项行为包括网页浏览、购买、点击、评分、评论等等。这些数据可以横向分析,比如某个页面的点击率;也可以纵向分析,比如某一个用户的操作流程。
用户行为按照行为划分分为两种:
- 显性反馈行为
- 隐形反馈行为
显性反馈行为
显性反馈行为主要是各个产品的功能点,比如评分、点赞、分享等等,这些功能的设计让用户明确表达了自己的想法,但是设计的方式也可能会造成偏差。比如说评分功能,对于外卖、打车等产品,设置1~5分,能够得到的更多就是1分或者5分(我个人推测的,并不严谨),因为考虑到场景,我是想尽快达到目的地或者尽快叫到外卖吃,除非有特殊的情感需求,一般都不想打分,觉得可以就5分,不好就1分,因此2、3、4中间评分会出现的很少;如果是一些较为专业的平台如豆瓣,很多人都是看完电影后有强烈的动机去主动打分评价,因此相对而言用户更愿意去花精力打分甚至评论,这个分数的分布就相对于更加平均准确。
隐性反馈行为
隐性反馈主要是那些不能明确反应用户喜好的行为,最具有代表性的就是浏览行为,相对于显性反馈而言,隐性反馈虽然不明确,但是数据量更大。
对比
以下是显性和隐性反馈的对比:
Paste_Image.png
以下是显性反馈数据和隐性反馈数据的例子
Paste_Image.png
互联网中的用户行为有很多种,比如浏览网页、购买商品、评分、评论等等,本书给出了一种表达方式,将一个用户行为表示为6部分,即:
- 产生行为的用户
- 行为的对象
- 行为的种类
- 产生行为的上下文
- 行为的内容
-
行为的权重
表格如下:
Paste_Image.png
这里本人认为要注意一点:如果要得到更精确的粒度,还是要区分好每种行为的正反馈、负反馈甚至是误操作的可能性。比如分享和评论,不一定是正反馈,也可能是因为物品内容太烂而发声;还有产品设计上,如果点赞比踩的位置图标更明显,那么误操作的可能就会上升。所以在设计行为的权重的时候还需要切分更细的粒度,才能得到更准确的结果。
在很多时候我们并不使用统一结构表示所有行为,而是针对不同的行为给出不同表示(本人没有理解这部分)。一般来说,不同的数据集包含不同的行为,目前比较有代表性的数据集有下面几个:
- 无上下文信息的隐性反馈数据集。每一条行为记录仅仅包含用户ID和物品ID;
- 无上下文信息的显性反馈数据集。每一条记录包含用户ID、物品ID和用户对物品的评分;
- 有上下文信息的隐性反馈数据集。每一条记录包含用户ID、物品ID和用户对物品产生行为的时间戳;
- 有上下文信息的显性反馈数据集。每一条记录包含用户ID、物品ID、用户对物品的评分和评分行为发生的时间戳。
PART 2
接下来一个问题是:
用户行为有哪些普遍规律?
在利用用户行为数据设计推荐算法之前,研究人员需要对用户行为数据进行恩熙,了解数据中蕴含的一般规律,这样才能对算法的设计起到指导作用。主要分为两部分:
- 用户活跃度和物品流行度的分布
- 用户活跃度和物品流行度的关系
用户活跃度和物品流行度的分布
首先,互联网的很多数据分布都满足Power Law分布,在互联网领域也成为长尾分布:
Paste_Image.png
理解开来就是二八原则。同时用户行为也蕴含着这种分布,令fu(k)为对k个物品产生过行为的用户 , fi(k)为被k个用户产生过行为的物品数。那么,fu(k)和fi(k)都满足长尾分布:
Paste_Image.png
下面一张图展示了物品流行度的长尾分布,横坐标是物品的流行度K,纵坐标是流行度为K的物品的总数。这里,物品的流行度指对物品产生过行为的用户总数。
Paste_Image.png
下图展示了用户活跃度的长尾分布,横坐标是用户的活跃度K,纵坐标是活跃度为K的用户总数。这里,用户的活跃度为用户产生过行为的物品总数。
Paste_Image.png
用户活跃度和物品流行度的关系
一般来说,不活跃的用户要么是新用户,要么是只用过产品一两次的老用户,那么不同活跃度的用户喜欢的物品的流行度是否有差别?
一般认为,新用户倾向于浏览热门的物品,因为他们对产品还不熟悉,只能点击首页的热门物品;老用户会逐渐开始浏览冷门的物品。
下图展示了用户活跃度与物品流行度之间的关系,横坐标是用户活跃度,纵坐标是具有某个活跃度的所有用户评过分的物品的平均流行度:
Paste_Image.png
显示的结论是:用户越活跃,越倾向于浏览冷门的物品。
PART 3
最后一个问题:
如何设计实验评测算法?
在之前的一篇推荐系统实践-评测中介绍了三种评测方法:离线实验、用户调查和在线实验,并且介绍了评测的指标。这部分将通过离线实验方法评测算法,分为三小块:
- 数据集
- 实验设计
- 评测指标
数据集
采用的数据集包含了6000多用户对4000多部电影的100万条评分,这个数据集是一个评分数据集,用户评分为1~5分。这块着重研究隐反馈数据集中的TopN推荐问题,因此忽略了数据集中的评分记录,也就是说,TopN的任务是预测用户会不会对某部电影评分,而不是预测用户在准备对某部电影评分的前提下会给电影评多少分。
实验设计
协同过滤算法(下一篇介绍)的离线实验一般如下设计。首先,将用户行为数据集按照均匀分布随机分成M份(这里取M=8),挑选一份作为测试集,将剩下的M-1份作为训练集。然后在训练集上建立用户的兴趣模型,并在测试集上对用户行为进行预测,统计出相应的评测指标。为了保证评测指标并不是过拟合的结果,需要进行M次试验,并且每次都使用不同的测试集,然后将M次试验测出的评测指标的平均值作为最终的评测指标。
评测指标
对用户u推荐N个物品(记作R(u)),令用户u在测试集上喜欢的物品集合为T(u),然后可以通过准确率/召回率评测推荐算法的精度:
Paste_Image.png Paste_Image.png
召回率描述有多少比例的用户-物品评分记录包含在最终的推荐列表中,而准确率描述最终的推荐列表中有多少比例是发生过的用户-物品评分记录。
覆盖率反映了推荐算法发掘长尾的能力,覆盖率越高,说明算法中越能将长尾中的物品推荐给用户:
Paste_Image.png
覆盖率表示最终的推荐列表中包含多大比例的物品,如果所有的物品都被推荐给至少一个用户,那么覆盖率就是100%。
最后,还需要评测推荐的新颖度,这里用推荐列表中物品的平均流行度度量推荐结果的新颖度。如果推荐出的物品都很热门,说明推荐的新颖度较低,否则说明推荐结果比较新颖。