了解噪声的含义、添加位置以及对效果衡量工作的影响。
摘要报告是可汇总报告的汇总结果。 当收集器将可汇总报告分批并由汇总服务处理时,系统会在生成的摘要报告中添加噪声(随机数量的数据)。 添加噪声是为了保护用户隐私。此机制的目标是拥有一个可以支持差分隐私衡量的框架。
摘要报告中的噪声简介
虽然添加噪声目前通常不是广告效果衡量的一部分,但在许多情况下,添加的噪声不会大幅改变您对结果的解读方式。
不妨从以下方面考虑:如果某条数据没有噪声,您是否有信心根据该数据做出决策?
例如,如果广告系列 A 有 15 次转化,广告系列 B 有 16 次转化,广告客户是否会放心地更改广告系列策略或预算?
如果答案为“否”,则噪声无关紧要。
您需要以如下方式配置 API 用量:
- 问题的答案是“是”。
- 系统会以一种不会显著影响您根据特定数据做出决策的方式来管理噪声。您可以按以下方式处理此问题:对于预期的最低转化次数,您希望将所收集指标中的噪声保持在一定百分比以下。
在本部分和下一部分中,我们将概述实现目标 2 的策略。
核心概念
每次请求摘要报告时,汇总服务都会为每个汇总值(即每个键)添加一次噪声。
这些噪声值是从特定概率分布中随机抽取的,如下所示。
影响噪音的所有因素都依赖于两个主要概念。
无论汇总值是低还是高,噪声分布(详见下文)都是相同的。因此,汇总值越高,噪声相对于该值的影响就越小。
例如,假设总累计购买价值为 20,000 美元和总累计购买价值为 200 美元都受到从同一分布中选择的噪声的影响。
假设此分布中的噪声大致介于 -100 和 +100 之间。
- 对于 20,000 美元的汇总购买价值,噪声介于 0 到 100/20,000=0.5% 之间。
- 对于 200 美元的汇总购买价值,噪声介于 0 和 100/200=50% 之间。
因此,噪声对 20,000 美元的汇总购买价值的影响可能要小于对 200 美元价值的影响。相对而言,2 万美元的预算可能受噪声的影响较小,也就是说,信噪比可能更高。
较高的汇总值受噪声的影响相对较小。 这会带来一些重要的实际影响,下一部分将对此进行概述。此机制是 API 设计的一部分,其带来的实际影响是长期的。在广告技术平台设计和评估各种汇总策略时,它们将继续发挥重要作用。
虽然无论汇总值是多少,噪声都是从同一分布中抽取的,但该分布取决于多个形参。在已结束的源试用期间,广告技术平台可以更改这些参数之一(即 epsilon),以评估各种效用/隐私调整。不过,请注意,调整 epsilon 的功能是临时性的。欢迎您就自己的使用情形和效果良好的 epsilon 值提供反馈。
虽然广告技术公司无法直接控制添加噪声的方式,但可以影响噪声对其衡量数据的影响。在接下来的部分中,我们将深入探讨如何在实践中影响噪声。
在此之前,我们先来详细了解一下噪声的应用方式。
放大:如何应用噪声
一种噪声分布
噪声是从 Laplace 分布中抽取的,具有以下参数:
- 平均值 (
μ) 为 0。这意味着,最可能的噪声值为 0(未添加噪声),并且含噪值小于原始值的可能性与大于原始值的可能性相同(有时称为无偏)。 b = CONTRIBUTION_BUDGET/epsilon的比例参数。CONTRIBUTION_BUDGET在浏览器中定义。epsilon用于 Aggregation Service。
下图显示了 μ=0、b = 20 的拉普拉斯分布的概率密度函数:
随机噪声值,一种噪声分布
假设某个广告技术平台请求了两个汇总键(key1 和 key2)的摘要报告。
汇总服务会选择两个噪声值 x1 和 x2,这两个值遵循相同的噪声分布。x1 会添加到 key1 的汇总值中,而 x2 会添加到 key2 的汇总值中。
在图表中,我们将噪声值表示为相同。这是一种简化;实际上,噪声值会因从分布中随机抽取而有所不同。
这表明,噪声值都来自同一分布,并且与它们所应用到的汇总值无关。
噪声的其他属性
系统会为每个汇总值(包括空值 [0])应用噪声。
例如,即使某个键的真实汇总值为 0,您在该键的汇总报告中看到的含噪汇总值(很可能)也不会是 0。
噪声可以是正数,也可以是负数。
例如,对于 327,000 的含噪前购买金额,噪声可能是 +6,000 或 -6,000(这些是任意示例值)。
评估噪声
计算噪声的标准差
噪声的标准差为:
b*sqrt(2) = (CONTRIBUTION_BUDGET / epsilon)*sqrt(2)
示例
如果 epsilon = 10,则噪声的标准差为:
b*sqrt(2) = (CONTRIBUTION_BUDGET / epsilon)*sqrt(2) = (65,536/10)*sqrt(2) = 9,267
评估衡量差异是否显著
由于您将了解聚合服务为每个值输出添加的噪声的标准差,因此您可以确定适当的比较阈值,以确定观测到的差异是否可能是由噪声造成的。
例如,如果添加到某个值中的噪声约为 +/- 10(考虑了缩放),而两个广告系列之间的值差异超过 100,则可以放心地得出结论:每个广告系列之间所测得的值差异并非仅由噪声造成。
互动并分享反馈
您可以参与并试用此 API。
后续步骤
- 如需了解您可以控制哪些变量来提高信噪比,请参阅处理噪声。
- 如需有关规划汇总报告策略的帮助,请参阅通过汇总报告设计决策进行实验。
- 试用噪声实验室。