Noiselab

关于此文档

通过阅读本文档,您将:

  • 了解在生成摘要报告之前应创建哪些策略。
  • 了解 Noise Lab,这是一款可帮助您了解各种噪声参数的影响,并快速探索和评估各种噪声管理策略的工具。
噪声实验室的屏幕截图。
噪音实验室

分享您的反馈

虽然本文总结了使用汇总报告的一些原则,但可能未反映出多种噪声管理方法。欢迎您提出建议、补充内容和问题!

  • 如需针对噪声管理策略、API(epsilon)的实用性或隐私性提供公开反馈,以及分享在噪声实验室中进行模拟时的观察结果,请执行以下操作:对此问题发表评论
  • 如需针对 API 的其他方面提供公开反馈,请点击此处创建新问题

前期准备

  1. 如需了解相关简介,请参阅归因报告:摘要报告归因报告完整系统概览
  2. 请先浏览了解噪声了解汇总键,以便充分利用本指南。

设计决策

核心设计原则

第三方 Cookie 和汇总报告的运作方式存在根本性差异。一个主要区别在于,摘要报告中的衡量数据会添加噪声。另一个是报告的安排方式。

为了以更高的信噪比访问汇总报告效果衡量数据,需求方平台 (DSP) 和广告效果衡量服务提供商需要与广告客户合作,制定噪声管理策略。为了制定这些策略,DSP 和效果衡量服务提供商需要做出设计决策。这些决策围绕一个基本概念展开:

虽然从绝对意义上讲,抽取噪声值的分布仅取决于两个参数(即 epsilon 和贡献预算),但您还可以使用许多其他控件来影响输出衡量数据的信噪比

虽然我们认为迭代过程会带来最佳决策,但这些决策的每次变化都会导致略有不同的实现,因此必须在编写每个代码迭代之前(以及在投放广告之前)做出这些决策。

决策:维度粒度

在 Noise Lab 中试用

  1. 前往高级模式。
  2. 在“参数”侧边栏中,找到“您的转化数据”。
  3. 观察默认参数。默认情况下,每天可归因的转化总数为 1, 000。如果使用默认设置(默认维度、每个维度的可能不同值的默认数量、密钥策略 A),则每个分桶的平均数量约为 40。请注意,输入中的“每个分桶的平均每日可归因转化次数”值为 40。
  4. 点击“模拟”以使用默认参数运行模拟。
  5. 在“参数”侧边栏中,查找“维度”。将地理位置重命名为城市,并将可能的不同值的数量更改为 50。
  6. 观察这会如何改变每个分桶的平均每日可归因转化次数。现在低了很多。这是因为,如果您在不更改任何其他内容的情况下增加此维度中可能的值的数量,那么您会增加总的分桶数,但不会更改每个分桶中包含的转化事件数。
  7. 点击“模拟”。
  8. 观察所得模拟的噪声比:噪声比现在高于之前的模拟。

根据核心设计原则,较小的汇总值可能比大的汇总值更具噪声。因此,您的配置选择会影响每个桶(也称为汇总键)中最终包含的归因转化事件数量,而该数量会影响最终输出的摘要报告中的噪声。

影响单个分桶中归因转化事件数量的一项设计决策是维度的精细程度。请参考以下汇总键及其维度的示例:

  • 方法 1:一种具有粗略维度的关键结构:国家/地区 x 广告系列(或最大的广告系列汇总桶)x 产品类型(10 种可能的产品类型之一)
  • 方法 2:一个包含精细维度的关键结构:城市 x 广告素材 ID x 商品(100 种可能的商品)

城市是比国家/地区更精细的维度;广告素材 ID是比广告系列更精细的维度;商品是比商品类型更精细的维度。因此,与方法 1 相比,方法 2 的汇总报告输出中每个分桶(即每个键)的事件(转化)数量会更少。鉴于添加到输出中的噪声与桶中的事件数量无关,因此采用方法 2 时,汇总报告中的衡量数据会更加嘈杂。对于每个广告客户,请在密钥设计中尝试各种粒度权衡,以便在结果中获得最大效用。

决策:关键结构

在 Noise Lab 中试用

在简单模式下,系统会使用默认的密钥结构。在高级模式下,您可以尝试不同的密钥结构。其中包含一些示例维度,您也可以修改这些维度。

  1. 前往高级模式。
  2. 在“参数”侧边栏中,找到“关键策略”。请注意,该工具中名为 A 的默认策略使用一个包含所有维度的精细键结构:地理位置 x 广告系列 ID x 产品类别。
  3. 点击“模拟”。
  4. 观察生成的模拟的噪声比。
  5. 将关键策略更改为 B。这会显示其他控件,供您配置密钥结构。
  6. 配置密钥结构,例如按如下方式配置:
    1. 关键结构的数量:2
    2. 关键结构 1 = 地理位置 x 商品类别。
    3. 关键结构 2 = 广告系列 ID x 商品类别。
  7. 点击“模拟”。
  8. 请注意,由于您使用了两种不同的键结构,因此现在每种衡量目标类型都会生成两份摘要报告(购买次数和购买价值各两份)。观察其噪声比。
  9. 您还可以尝试将此方法应用于自己的自定义维度。为此,请查找要跟踪的数据:维度。您可以考虑移除示例维度,然后使用最后一个维度下方的“添加”“移除”“重置”按钮创建自己的维度。

另一项会影响单个分桶中归因转化事件数量的设计决策是您决定使用的键结构。请参考以下汇总键示例:

  • 一种包含所有维度的键结构;我们将其称为“键策略 A”。
  • 两种关键结构,每种结构都包含一部分维度;我们将其称为“关键策略 B”。
关键策略 A 和 B 的分桶。
关键策略 A 和 B 的分桶。

策略 A 更简单,但您可能需要汇总(求和)摘要报告中包含的含噪摘要值,才能获得某些数据洞见。将这些值相加,实际上也是将噪声相加。 采用策略 B 时,摘要报告中显示的汇总值可能已经提供了您所需的信息。这意味着,策略 B 可能会比策略 A 带来更好的信噪比。不过,策略 A 的噪声可能已经可以接受,因此您可能仍然会选择策略 A,因为它更简单。 如需了解详情,请参阅详细示例,其中概述了这两种策略

密钥管理是一个非常深入的主题。可以考虑采用多种精细技术来提高信噪比。其中一种在高级密钥管理中进行了说明。

决策:批处理频率

在 Noise Lab 中试用

  1. 前往简单模式(或高级模式 - 这两种模式在批处理频率方面的工作方式相同)
  2. 在“参数”侧边栏中,依次查找“您的汇总策略”>“批处理频次”。是指在单个作业中通过汇总服务处理的可汇总报告的批处理频率。
  3. 观察默认的批处理频率:默认情况下,系统会模拟每日批处理频率。
  4. 点击“模拟”。
  5. 观察生成的模拟的噪声比。
  6. 将批处理频率更改为每周。
  7. 观察所得模拟的噪声比:噪声比现在低于(优于)之前的模拟。

另一个会影响单个分桶中归因转化事件数量的设计决策是您决定使用的批处理频率。批处理频率是指您处理可汇总报告的频率。

如果报告的汇总频率较高(例如每小时一次),则其中包含的转化事件会少于汇总频率较低(例如每周一次)的同一报告。因此,与采用较低频次汇总时间表(例如每周一次)的同一报告相比,每小时报告将包含更多噪声,``` 包含的转化事件也会更少。因此,在所有其他条件相同的情况下,小时报告的信噪比将低于周报告。尝试以各种频率报告要求,并评估每种频率的信噪比。

如需了解详情,请参阅批处理在较长时间段内进行汇总

决策:影响可归因转化的广告系列变量

在 Noise Lab 中试用

虽然这很难预测,并且除了季节性效应外还可能存在显著差异,但请尝试将每日单触式归因转化次数估计为最接近的 10 的幂:10、100、1,000 或 10,000。

  1. 前往高级模式。
  2. 在“参数”侧边栏中,找到“您的转化数据”。
  3. 观察默认参数。默认情况下,每天可归因的转化总数为 1, 000。如果使用默认设置(默认维度、每个维度的可能不同值的默认数量、密钥策略 A),则每个分桶的平均数量约为 40。请注意,输入中的“每个分桶的平均每日可归因转化次数”值为 40。
  4. 点击“模拟”以使用默认参数运行模拟。
  5. 观察生成的模拟的噪声比。
  6. 现在,将每日可归因转化的总数设置为 100。 请注意,这会降低每个分桶的“平均每日归因转化次数”值。
  7. 点击“模拟”。
  8. 请注意,噪声比现在更高了:这是因为,如果每个桶的转化次数较少,系统会应用更多噪声来保护隐私。

一个重要的区别是,广告客户可能获得的总转化次数与可能获得的归因转化总次数。后者最终会影响汇总报告中的噪声。归因转化次数是总转化次数的一个子集,容易受到广告系列变量(例如广告预算和广告定位)的影响。例如,在其他条件相同的情况下,您会预期 1,000 万美元的广告系列的归因转化次数高于 1 万美元的广告系列。

要考虑的事项:

  • 根据单次触碰同设备归因模型评估归因的转化,因为这些转化属于通过 Attribution Reporting API 收集的摘要报告的范围。
  • 考虑归因转化的最坏情况数量和最好情况数量。例如,在其他条件相同的情况下,考虑广告客户的最低和最高可能广告系列预算,然后将这两种结果的可归因转化次数预测值作为输入内容纳入模拟中。
  • 如果您考虑使用 Android Privacy Sandbox,请在计算中考虑跨平台归因转化。

决策:使用缩放

在 Noise Lab 中试用

  1. 前往高级模式。
  2. 在“参数”侧边栏中,找到“您的汇总策略”>“缩放”。默认情况下,此属性设置为“是”。
  3. 为了了解缩放对噪声比的积极影响,请先将“缩放”设置为“否”。
  4. 点击“模拟”。
  5. 观察生成的模拟的噪声比。
  6. 将“缩放”设置为“是”。请注意,Noise Lab 会根据您方案的衡量目标范围(平均值和最大值)自动计算要使用的缩放比例。在实际的系统或源试用设置中,您需要实现自己的缩放比例计算。
  7. 点击“模拟”。
  8. 观察到,在第二次模拟中,噪声比现在更低(更好)。这是因为您正在使用缩放功能。

根据核心设计原则,添加的噪声是贡献预算的函数。

因此,为了提高信噪比,您可以决定通过根据贡献预算对转化事件期间收集的值进行缩放(并在汇总后进行反缩放)来转换这些值。使用缩放来提高信噪比。

决策:衡量目标的数量和隐私预算分配

这与缩放有关;请务必阅读使用缩放

在 Noise Lab 中试用

衡量目标是指在转化事件中收集的独特数据点。

  1. 前往高级模式。
  2. 在“参数”侧边栏中,找到要跟踪的数据: 衡量目标。默认情况下,您有两项衡量目标:购买价值和购买次数。
  3. 点击“模拟”以使用默认目标值运行模拟。
  4. 点击“移除”。此操作将移除最后一个衡量目标(在本例中为购买次数)。
  5. 点击“模拟”。
  6. 请注意,在第二次模拟中,购买价值的噪声比现在更低(更好)。这是因为您的衡量目标较少,因此您的一个衡量目标现在可以获得所有贡献预算。
  7. 点击“重置”。现在,您再次拥有两个衡量目标:购买价值和购买次数。请注意,噪声实验室会根据您方案的衡量目标范围(平均值和最大值)自动计算要使用的缩放比例。默认情况下,Noise Lab 会在各个衡量目标之间平均分配预算。
  8. 点击“模拟”。
  9. 观察生成的模拟的噪声比。记下模拟中显示的缩放比例。
  10. 现在,让我们自定义隐私预算分配,以实现更好的信噪比。
  11. 调整为每个效果衡量目标分配的预算百分比。在给定默认参数的情况下,衡量目标 1(即购买价值)的范围(介于 0 和 1000 之间)比衡量目标 2(即购买次数,介于 1 和 1 之间,即始终等于 1)的范围要大得多。因此,它需要“更多空间来扩大规模”:最好为衡量目标 1 分配比衡量目标 2 更多的贡献预算,以便更高效地扩大规模(请参阅“扩大规模”),从而
  12. 将 70% 的预算分配给衡量目标 1。为衡量目标 2 分配 30% 的权重。
  13. 点击“模拟”。
  14. 观察生成的模拟的噪声比。对于购买价值,现在的噪声比明显低于(优于)之前的模拟。对于购买次数,它们大致保持不变。
  15. 不断调整各指标的预算分配比例。观察这会对噪声产生什么影响。

请注意,您可以使用“添加/移除/重置”按钮设置自己的自定义衡量目标。


如果您针对转化事件衡量一个数据点(衡量目标),例如转化次数,则该数据点可以获得所有贡献预算 (65536)。如果您为某个转化事件设置了多个衡量目标(例如转化次数和购买价值),那么这些数据点将需要共享贡献预算。这意味着您在提高转化价值方面可发挥的空间较小。

因此,衡量目标越多,信噪比就越低(噪声越高)。

在确定效果衡量目标时,您还需要决定预算分配。如果您将贡献预算平均分配给两个数据点,则每个数据点获得的预算为 65536/2 = 32768。这可能不是最佳值,具体取决于每个数据点的最大可能值。例如,如果您要衡量购买次数(最大值为 1)和购买价值(最小值为 1,最大值为 120),那么购买价值将受益于“更多空间”来扩大规模,也就是说,获得贡献预算的更大比例。您会看到,在噪声影响方面,某些衡量目标是否应优先于其他衡量目标。

决策:离群值管理

在 Noise Lab 中试用

衡量目标是指在转化事件中收集的独特数据点。

  1. 前往高级模式。
  2. 在“参数”侧边栏中,找到“您的汇总策略”>“缩放”。
  3. 确保将“缩放”设置为“是”。请注意,噪声实验室会根据您为衡量目标指定的范围(平均值和最大值)自动计算要使用的缩放比例。
  4. 假设有史以来最大的购买交易金额为 2, 000 美元,但大多数购买交易的金额都在 10 美元到 120 美元之间。首先,我们来看看如果使用字面缩放方法(不推荐),会发生什么情况:输入 2000 美元作为 purchaseValue 的最大值。
  5. 点击“模拟”。
  6. 观察到噪声比很高。这是因为我们的缩放比例是根据 2, 000 美元计算的,而实际上大多数购买价值都会明显低于这个金额。
  7. 现在,我们来使用一种更实用的缩放方法。将最高购买价值更改为 120 美元。
  8. 点击“模拟”。
  9. 请注意,在第二次模拟中,信噪比更低(更好)。

若要实现缩放,您通常会根据给定转化事件的最大可能值计算缩放比例(在此示例中了解详情)。

不过,请避免使用字面最大值来计算该缩放比例,因为这会降低信噪比。而是移除离群值并使用实用的最大值。

离群值管理是一个很深奥的主题。可以考虑采用多种精细技术来提高信噪比。其中一种方法在高级离群值管理中进行了说明。

后续步骤

现在,您已针对自己的使用情形评估了各种噪声管理策略,接下来就可以开始通过源试用收集实际的衡量数据,并使用摘要报告进行实验了。查看指南和提示,试用 API

附录

Noise Lab 快速导览

Noise Lab 可帮助您快速评估和比较噪声管理策略。这种探索可用于执行以下操作:

  • 了解可能影响噪声的主要参数及其影响。
  • 模拟在不同设计决策下噪声对输出测量数据的影响。调整设计参数,直到达到适合您使用情形的信噪比。
  • 分享您对摘要报告实用性的反馈:哪些 epsilon 和噪声形参值适合您,哪些不适合?拐点在哪里?

可将其视为准备步骤。Noise Lab 会生成衡量数据,以根据您的输入模拟汇总报告输出。它不会保留或分享任何数据。

噪声实验室中有两种不同的模式:

  1. 简单模式:了解噪音控制功能的基础知识。
  2. 高级模式:测试不同的噪声管理策略,并评估哪种策略可为您的使用场景带来最佳信噪比。

点击顶部菜单中的按钮可在两种模式之间切换(以下屏幕截图中的第 1 项)。

简易模式
  • 在“简单”模式下,您可以控制参数(位于左侧,或以下屏幕截图中的 2),例如 Epsilon,并了解它们对噪声的影响。
  • 每个形参都有一个提示(一个“?”按钮)。点击这些参数即可查看每个参数的说明(以下屏幕截图中的第 3 点
  • 首先,点击“模拟”按钮,然后观察输出结果(以下屏幕截图中的第 4 步
  • 在“输出”部分,您可以查看各种详细信息。部分元素旁边带有“?”。请花点时间点击每个“?”,查看各种信息的说明。
  • 在“输出”部分中,点击“详细信息”切换开关(如果您想查看表格的展开版本,请参阅以下屏幕截图中的第 5 步
  • 输出部分中的每个数据表后面都有一个用于下载该表的选项,以便离线使用。此外,右下角还有一个用于下载所有数据表的选项(以下屏幕截图中的第 6 项
  • 在“参数”部分中测试参数的不同设置,然后点击“模拟”以查看这些设置对输出的影响:
    简单模式下的 Noise Lab 界面。
    简单模式下的 Noise Lab 界面。
高级模式
  • 在高级模式下,您可以更好地控制参数。您可以添加自定义衡量目标和维度(以下屏幕截图中的第 1 步和第 2 步
  • 在“参数”部分中进一步向下滚动,然后找到“关键策略”选项。这可用于测试不同的密钥结构(请参见以下屏幕截图中的 #3
    • 如需测试不同的键结构,请将键策略切换为“B”
    • 输入要使用的不同密钥结构的数量(默认设置为“2”)
    • 点击“生成密钥结构”
    • 点击要为每个密钥结构添加的密钥旁边的复选框,即可看到用于指定密钥结构的选项
    • 点击“模拟”以查看输出。
      高级模式提供用于设置衡量目标和要跟踪的维度的控件,这些控件在边栏中突出显示。
      高级模式的 Noise Lab 界面。
      高级模式也是边栏“参数”部分中的一个关键策略选项。
      高级模式下的 Noise Lab 界面。

噪声指标

核心概念

添加噪声是为了保护个人用户隐私。

较高的噪声值表示桶/键较为稀疏,并且包含的敏感事件贡献数量有限。Noise Lab 会自动执行此操作,以便个人“隐藏在人群中”,换句话说,通过添加大量噪声来保护这些少数个人的隐私。

较低的噪声值表示数据设置经过精心设计,已经允许个人“隐藏在人群中”。这意味着,这些分桶包含足够数量的事件贡献,可确保个人用户隐私得到保护。

此陈述对于平均百分比误差 (APE) 和 RMSRE_T(具有阈值的均方根相对误差)均成立。

APE(平均百分比误差)

APE 是噪声与信号(即真实汇总值)的比率。

APE 值越低,信噪比越好。

公式

对于给定的摘要报告,APE 的计算方式如下:

APE 的计算等式。需要绝对值,因为噪声可能为负值。
APE 的等式。必须使用绝对值,因为噪声可能为负值。

True 是真实摘要值。APE 是每个真实摘要值的噪声的平均值,再对摘要报告中的所有条目求平均值。 在噪声实验室中,该值随后会乘以 100,以得出百分比。

优点和缺点

规模较小的分桶对 APE 的最终值有不成比例的影响。在评估噪声时,这可能会产生误导。因此,我们添加了另一个指标 RMSRE_T,旨在缓解 APE 的这一局限性。如需了解详情,请参阅示例

代码

查看 APE 计算的源代码

RMSRE_T(具有阈值的均方根相对误差)

RMSRE_T(具有阈值的均方根相对误差)是另一种噪声衡量指标。

如何解读 RMSRE_T

RMSRE_T 值越低,信噪比越好。
例如,如果您的使用情形可接受的噪声比为 20%,且 RMSRE_T 为 0.2,则您可以确信噪声水平在可接受的范围内。

公式

对于给定的摘要报告,RMSRE_T 的计算方式如下:

公式
RMSRE_T 的公式。必须使用绝对值,因为噪声可能为负值。
优点和缺点

与 APE 相比,RMSRE_T 稍微复杂一些。不过,它具有以下几个优势,在某些情况下比 APE 更适合分析汇总报告中的噪声:

  • RMSRE_T 更稳定。“T”是阈值。“T”用于在 RMSRE_T 计算中为转化次数较少的分桶赋予较低的权重,因为这些分桶的规模较小,因此对噪声更敏感。使用 T 时,指标在转化次数较少的分桶中不会出现峰值。如果 T 等于 5,则转化次数为 0 的分桶上的噪声值(即使小到 1)也不会显示为远高于 1。相反,它将上限为 0.2,相当于 1/5,因为 T 等于 5。通过降低对较小分桶的权重(这些分桶因此对噪声更敏感),此指标会更稳定,因此更易于比较两次模拟。
  • RMSRE_T 可实现直接聚合。了解多个桶的 RMSRE_T 以及它们的真实计数,有助于您计算它们的总和的 RMSRE_T。这样一来,您还可以针对这些合并值优化 RMSRE_T。

虽然可以对 APE 进行汇总,但由于它涉及拉普拉斯噪声总和的绝对值,因此公式相当复杂。这使得 APE 更难优化。

代码

查看 RMSRE_T 计算的源代码

示例

包含三个类别的摘要报告:

  • bucket_1 = noise: 10, trueSummaryValue: 100
  • bucket_2 = noise: 20, trueSummaryValue: 100
  • bucket_3 = noise: 20, trueSummaryValue: 200

APE = (0.1 + 0.2 + 0.1) / 3 = 13%

RMSRE_T = sqrt( ( (10/max(5,100))^2  + (20/max(5,100))^2 +
(20/max(5,200))^2) / 3) =  sqrt( (0.01 + 0.04 + 0.01) / 3) =  0.14

包含三个区段的摘要报告:

  • bucket_1 = noise: 10, trueSummaryValue: 100
  • bucket_2 = noise: 20, trueSummaryValue: 100
  • bucket_3 = noise: 20, trueSummaryValue: 20

APE = (0.1 + 0.2 + 1) / 3 = 43%

RMSRE_T = sqrt( ( (10/max(5,100))^2  + (20/max(5,100))^2 +
(20/max(5,20))^2) / 3)  =  sqrt( (0.01 + 0.04 + 1.0) / 3) =  0.59

包含三个区段的摘要报告:

  • bucket_1 = noise: 10, trueSummaryValue: 100
  • bucket_2 = noise: 20, trueSummaryValue: 100
  • bucket_3 = noise: 20, trueSummaryValue: 0

APE = (0.1 + 0.2 + 无限) / 3 = 无限

RMSRE_T = sqrt( ( (10/max(5,100))^2  + (20/max(5,100))^2  +
(20/max(5,0))^2) / 3) =  sqrt( (0.01 + 0.04 + 16.0) / 3) =  2.31

高级密钥管理

DSP 或广告效果衡量公司可能拥有数千个全球广告客户,这些客户分布在多个行业,使用多种货币,并且具有不同的购买价格潜力。这意味着,为每个广告客户创建一个汇总密钥并进行管理可能非常不切实际。此外,选择可限制数千名全球广告客户的噪声影响的最大可汇总值和汇总预算也将是一项挑战。我们不妨考虑以下情况:

关键策略 A

该广告技术提供商决定为所有广告客户创建一个密钥并进行管理。对于所有广告客户和所有币种,购买量从低量高端购买到高量低端购买不等。这会生成以下密钥:

密钥(多种币种)
可汇总的最大值 5000000
购买价值范围 [120 - 5000000]
关键策略 B

该广告技术提供商决定为其所有广告客户创建和管理两个密钥。他们决定按币种分隔密钥。在所有广告客户和所有币种中,购买交易的范围从低量高端购买交易到高量低端购买交易不等。按币种分隔,它们会创建 2 个密钥:

Key 1(美元) 密钥 2 (¥)
可汇总的最大值 $40000 ¥5,000,000
购买价值范围 [120 - 40,000] [15,000 - 5,000,000]

关键策略 B 的结果中的噪声会比关键策略 A 少,因为币种价值在不同币种之间并非均匀分布。例如,考虑以日元计价的购买交易与以美元计价的购买交易混合在一起时,会如何改变底层数据并导致输出结果出现噪声。

关键策略 C

广告技术提供商决定为其所有广告客户创建和管理 4 个键,并按“币种 x 广告客户行业”进行分隔:

键 1
(美元 x 高端珠宝广告客户)
键 2
(¥ x 高端珠宝广告客户)
关键 3
(美元 x 服装零售广告客户)
关键 4
(¥ x 服装零售广告客户)
可汇总的最大值 $40000 ¥5,000,000 $500 ¥65,000
购买价值范围 [10,000 - 40,000] [1,250,000 - 5,000,000] [120 - 500] [15,000 - 65,000]

关键策略 C 的结果中的噪声会比关键策略 B 少,因为广告客户购买价值在广告客户之间并非均匀分布。例如,考虑一下高端珠宝的购买与棒球帽的购买混杂在一起时,会如何改变底层数据并导致输出结果出现噪声。

考虑为多个广告客户的共同点创建共享的最大汇总值和共享的缩放比例,以减少输出中的噪声。例如,您可以针对广告客户尝试以下策略:

  • 一种策略,按币种(美元、人民币、加元等)分隔
  • 一种策略按广告客户行业(保险、汽车、零售等)划分
  • 一种策略,按类似的购买价值范围分隔([100]、[1000]、[10000] 等)

通过围绕广告客户的共同点创建关键策略,可以更轻松地管理键和相应的代码,并提高信噪比。尝试使用不同的策略(具有不同的广告客户共性),以发现在最大限度提高噪声影响与代码管理之间的拐点。


高级离群值管理

我们来考虑一下涉及两位广告客户的场景:

  • 广告客户 A:
    • 在广告客户 A 网站上的所有商品中,可能的购买价格介于 [120 美元 - 1,000 美元] 之间,范围为 880 美元。
    • 购买价格均匀分布在 880 美元的范围内,没有超出中位购买价格两个标准差的离群值。
  • 广告客户 B:
    • 在广告客户 B 网站上的所有商品中,可能的购买价格介于 [120 美元 - 1,000 美元] 之间,范围为 880 美元。
    • 购买价格严重偏向 120 美元至 500 美元的价格范围,只有 5% 的购买交易发生在 500 美元至 1,000 美元的价格范围内。

鉴于贡献预算要求以及向最终结果应用噪声的方法,广告客户 B 默认情况下会比广告客户 A 获得噪声更大的输出,因为广告客户 B 的离群值更有可能影响基础计算。

您可以通过特定的密钥设置来缓解此问题。测试有助于管理离群值数据并将购买价值更均匀地分布在关键购买范围内的关键策略。

对于广告客户 B,您可以创建两个单独的键来捕获两个不同的购买价值范围。在此示例中,广告技术平台注意到,异常值出现在 500 美元的购买价值之上。尝试为此广告客户实现两个单独的密钥:

  • 关键结构 1:仅捕获 120 美元至 500 美元范围内的购买交易(约占总购买量的 95%)。
  • 键结构 2:仅捕获高于 500 美元的购买交易的键(约占总购买量的 5%)。

实施此关键策略应能更好地管理广告客户 B 的噪声,并帮助他们最大限度地提高汇总报告的实用性。鉴于新的范围更小,与之前的单个键相比,键 A 和键 B 现在应在各自的键中具有更均匀的数据分布。这样一来,每个键的输出中受到的噪声影响都会比之前的单个键小。