Binary labels|二元标签

bolin
发布于 2025-08-24 / 1 阅读
0
0

Binary labels|二元标签

一、二元标签简介

在推荐系统中,并不是所有场景都会有用户的明确评分(比如 1 到 5 星)。更多时候,我们只能观察到用户是否产生了某种行为,例如是否点击、是否购买、是否点赞。这类数据往往用 二元标签(Binary labels) 来表示。

所谓二元标签,就是把用户的行为转化为 0/1 的结果

  • 1 表示用户与物品发生了正向的交互(如点击、购买、喜欢);

  • 0 表示用户没有发生交互;

  • ? 表示该物品尚未展示给用户,因此标签未知。

通俗理解:

这就像一次二选一的问答:用户看见某个物品后,要么“感兴趣” (1),要么“不感兴趣” (0)。推荐系统的目标就是根据已有的观测数据,推断用户对未展示物品的兴趣概率。


二、从评分到二元标签

752500F6-20BB-4FFD-A07F-D54C1417DC16.png

在传统的推荐系统任务中,用户会对电影、商品等物品打分(如 0–5 星)。但是在很多实际应用场景中,获取到的并不是详细的分数,而是用户是否对物品表现出兴趣。

图中展示了一个例子:

  • 原本 Alice 对《Love at last》打了 5 分,现在被简化为 1(表示喜欢/正向反馈)。

  • 对《Nonstop car chases》打了 0 分,则对应二元标签中的 0(表示不喜欢/负向反馈)。

  • 对于一些没有打过分的电影,标签用 ? 来表示(表示未知,未观测到)。

这种转化的好处是:

  • 把复杂的多等级评分问题简化为“是/否”问题,更加通用。

  • 在点击、购买等场景中,二元标签更符合数据的真实分布。

直观理解:与其让系统预测“用户会给这部电影 4 分还是 5 分”,不如直接预测“用户会不会喜欢/点击这部电影”。这更贴近实际应用。


三、二元标签的应用场景

B8A0F1FA-B263-4025-9D4E-7A872C4EE59C.png

二元标签在推荐系统和在线平台中非常常见,因为很多时候我们只能观测到用户的行为,而无法得到明确的评分。图中给出了几个典型的应用场景:

  1. 购买行为:用户是否在看到商品后完成购买?(是 → 1;否 → 0;未展示 → ?)

  2. 点赞/收藏行为:用户是否对某个内容点击“喜欢”或“收藏”?

  3. 停留时长:用户是否在某个内容上停留至少 30 秒?(停留足够久可视为感兴趣)

  4. 点击行为:用户是否点击了推荐的物品或广告?

在这些场景中,标签的含义是:

  • 1 = 用户产生了交互(engaged),说明有兴趣;

  • 0 = 用户没有交互,说明不感兴趣;

  • ? = 系统还没展示过该物品,因此标签未知。

通俗理解:在电商里,推荐系统会不断尝试“给你看一个商品”,然后观测你是否点击或购买。这种“点或不点”的行为就是二元标签。


四、从回归到二分类

43AABDE7-B3B9-434C-A802-F49882CB9A63.png

在前面介绍协同过滤时,我们是通过一个线性函数来预测用户对物品的评分:

协同过滤算法(图6).png

这相当于一个回归问题,输出可以是任意实数。

但是在 二元标签 的场景中,我们需要预测的是:用户是否会与物品发生交互(1 或 0)。这就要求模型输出的不是一个任意数,而是一个概率值,范围在 0 到 1 之间。

为此,引入 Sigmoid 函数

51CEE4BB-A9D2-4DB2-9C07-075B75C48BF1.png

这样,预测公式变为:

E988DBF7-19BA-4597-B231-3B1DA89DECF9.png

含义是:

  • 当结果接近 1 时,表示用户很可能喜欢或点击该物品。

  • 当结果接近 0 时,表示用户大概率不感兴趣。

通俗理解:之前的模型像是在猜“用户会打几分”,而现在则是在判断“用户会不会点赞/点击”,并给出一个概率,比如“有 80% 的可能点击”。


五、二元标签的代价函数

D4934FB4-5C9C-496B-9C4C-D63CC9EEA60C.png

在二元标签任务中,使用平方误差(如回归任务)并不合适,因为它无法很好地处理概率输出。为此,我们通常采用 对数损失函数(Logistic Loss,也称 Log Loss 或 Cross-Entropy Loss)

(1)单个样本的损失函数

如果真实标签为 y∈{0,1},预测概率为 y^,则损失函数定义为:

A4CF7249-3223-4CCA-ABA1-DD6B572CDB01.png

含义:

  • 当真实值 y=1 时,损失为 −log⁡(y^),预测越接近 1 损失越小。

  • 当真实值 y=0 时,损失为 −log⁡(1−y^),预测越接近 0 损失越小。

(2)整体损失函数

对所有用户与物品的观测数据取平均:

AAD7CAFA-2135-4FB3-B3A0-1E7E94298CAB.png

(3)直观理解

  • 如果预测概率与真实结果一致,损失接近 0;

  • 如果预测概率与真实结果差距很大,损失会非常大(被强烈惩罚);

  • 相比平方误差,Log Loss 更适合分类问题,因为它考虑了概率分布的匹配。

通俗来说:Log Loss 就像一个“惩罚函数”,如果你对用户很可能点击的内容预测了一个很低的概率,那就会被狠狠惩罚。


六、总结与应用

在推荐系统中,二元标签是一种非常常见的数据形式。与评分预测不同,它不需要用户明确给出分数,而是通过 行为数据(点击、购买、点赞、停留) 来判断用户的兴趣。这种建模方式将复杂的预测问题简化为 二分类任务

  • 核心思想:预测用户是否会对某个物品产生兴趣,用概率来衡量。

  • 建模方法:通过 Sigmoid 函数将预测值映射到 [0,1],并使用 Log Loss 衡量预测与真实标签的差距。

  • 优势:适用范围广,特别适合只有“交互/未交互”数据的场景。

典型应用场景

  • 点击率(CTR)预估:预测广告或推荐内容的点击概率;

  • 购买预测:预测用户是否会下单;

  • 互动预测:预测是否会点赞、评论、转发等。

二元标签方法虽然简单,但却是现代推荐系统、广告投放和信息流排序的核心基础。几乎所有的推荐平台在底层都会使用这一建模方式。



评论