效果衡量测试指南

本指南旨在提供有关运行 Privacy Sandbox Attribution Reporting API 独立测试的指导。如需了解详情,请参阅:第 12 部分

  • 相关性 API 测试指南中介绍了如何衡量 CMA 实验设计 1 和 2 中的对照组和实验组结果,因为这些实验旨在测试使用 Protected Audience 和 Topics 的效果。如需了解详情,请参阅第 11 部分

准备工作

评估目标和建议的实验设置

目标 1 - 确定 Attribution Reporting API 在报告方面的效果

我们建议采用 A/A 设置来衡量对报告的影响

  • 此提案符合 CMA 关于评估基于转化的指标的指南。如需了解详情,请参阅第 21 条第 12 条
  • 我们更倾向于使用此方法,而不是 模式 A/B,因为通过同时使用两种不同的衡量方法(第三方 Cookie + 非第三方 Cookie 数据和 ARA + 非第三方 Cookie 数据)来衡量同一组展示的转化,即可测试 Attribution Reporting API (ARA)。
  • A/A 实验还可以隔离 Attribution Reporting API 对转化衡量的影响(例如,避免因缺少第三方 Cookie 而导致转化率发生任何变化)。

建议的分析点

  • 选择足够大的流量切片,以便获得具有统计学意义的结果,并且同时包含第三方 Cookie 和 Privacy Sandbox API。理想情况下,除了模式 B(会停用第三方 Cookie)之外,所有流量都应进入 。
    • 我们建议您从 A/A 实验中排除模式 B,因为第三方 Cookie 将不可用,并且您将无法将 ARA 结果与基于第三方 Cookie 的归因结果进行比较。
    • 如果您想纳入模式 B,应考虑为模式 B 流量切片启用调试报告。调试报告可帮助您排查任何配置或实现问题。
  • 如果您计划在较小比例的流量上进行测试,我们预计您会获得比预期更嘈杂的衡量结果。我们建议您在分析中注明使用了多少比例的流量,以及您报告的结果是基于添加了噪声的报告还是未添加噪声的调试报告。
    • 对于摘要报告,您的摘要值可能会较低,并且无论摘要值是多少,汇总服务都会添加来自相同分布的噪声。
  • 针对该部分流量测试不同的衡量方法
    • 对照组 1 - 使用当前的衡量方法(第三方 Cookie + 非第三方 Cookie 数据)
    • (可选)对照组 2 - 不使用 Privacy Sandbox 和第三方 Cookie,即仅使用非第三方 Cookie 数据
      • 请注意,某些网站可能仍可使用一些第三方 Cookie - 为获得最准确的结果,请勿在 Control 2 或 Treatment 方法中使用这些第三方 Cookie 进行衡量
    • 实验组 - Privacy Sandbox API 和非第三方 Cookie 数据
      • 请注意,某些网站可能仍可使用一些第三方 Cookie - 为获得最准确的结果,请勿在 Control 2 或 Treatment 方法中使用这些第三方 Cookie 进行衡量

指标

  • 确定哪些指标适合您的企业用来衡量效果,并说明相应指标的含义以及衡量方式。
    • 建议您重点关注对广告客户重要的维度和指标。例如,如果您的广告客户侧重于购买转化,请衡量这些转化的次数和购买价值。
  • 基于数量或总和的指标(例如转化率)比基于“每”的指标(例如每次转化费用)更适合使用。对于 A/A 分析,费用指标可以完全从转化价值(数量或总和)中得出。
  • 指定指标是基于事件级报告、汇总报告还是这两种报告的组合(以及是否使用了调试报告)。
  • 如需有关如何设置定量反馈格式的指导,请参阅建议的模板表格。

分析

  • 覆盖率:
    • 与第三方 Cookie 相比,您能否衡量类似的一组用户?您是否看到覆盖面更广(例如通过应用到网站)?
    • 您是否能够衡量您或广告客户最关心的转化(以及维度或指标)?
  • 定量反馈
    • 例如,在广告客户报告中,您能够为相应广告客户报告的关键转化百分比是多少,或者有多少百分比的广告系列达到了报告质量标准(得出质量标准有助于针对转化次数较少的广告系列进行调整)
    • 按广告客户细分,例如,目前是否有某些广告客户在报告方面对第三方 Cookie 的依赖程度较高或较低?
  • 其他定性反馈:
    • ARA 对广告客户的衡量/归因设置的复杂性有何影响?
    • ARA 有助于还是阻碍广告主专注于对他们而言重要的指标和目标?

用于报告影响的建议模板表格

(报告)表 1:

向 CMA 报告实验结果的模板表格示例(摘自第 18 页,但测试人员应考虑哪些指标最有意义 / 最可行,并根据需要调整表格)

处理组与对照组 1
将建议的最终状态与当前状态进行比较
处理与控制 2
将提议的最终状态与完全没有 PS API 的状态进行比较。
对照组 2 与对照组 1
比较了使用和不使用第三方 Cookie 时的转化衡量效果,未使用任何 PS API。
衡量方法 将实验组(使用 ARA 和非第三方 Cookie 数据)的转化衡量结果与对照组 1(使用第三方 Cookie 和非第三方 Cookie 数据)的转化衡量结果进行比较 比较实验组(使用 ARA 和非第三方 Cookie 数据)与对照组 2(仅使用非第三方 Cookie 数据)的转化衡量效果 比较对照组 2(仅限非第三方 Cookie 数据)与对照组 1(第三方 Cookie 和非第三方 Cookie 数据)的转化衡量结果
单位费用带来的转化次数 效果 效果 效果
标准误差 标准误差 标准误差
95% 置信区间 95% 置信区间 95% 置信区间
总转化次数 效果 效果 效果
标准误差 标准误差 标准误差
95% 置信区间 95% 置信区间 95% 置信区间
转化率 效果 效果 效果
标准误差 标准误差 标准误差
95% 置信区间 95% 置信区间 95% 置信区间
(添加您自己的指标)
(报告)表 2:

用于报告实验组和对照组中指标的描述性统计信息的示例模板表格(取自第 20 页,但测试人员应考虑哪些指标最有意义 / 最可行,并根据需要调整表格)

指标 处理
使用 ARA 和您使用的任何非第三方 Cookie 数据来衡量转化
控制变量 1
使用第三方 Cookie 和您使用的任何非第三方 Cookie 数据来衡量转化
控制 2
仅使用非第三方 Cookie 数据来衡量转化
单位费用带来的转化次数 平均值 平均值 平均值
标准差 标准差 标准差
第 25 和第 75 百分位 第 25 和第 75 百分位 第 25 和第 75 百分位
总转化次数 平均值 平均值 平均值
标准差 标准差 标准差
第 25 和第 75 百分位 第 25 和第 75 百分位 第 25 和第 75 百分位
转化率 平均值 平均值 平均值
标准差 标准差 标准差
第 25 和第 75 百分位 第 25 和第 75 百分位 第 25 和第 75 百分位
(添加您自己的指标)

目标 2 - 确定 Attribution Reporting API 在出价优化方面的效果

我们建议采用 A/B 设置来衡量对出价优化的影响。

  • 若要衡量对出价优化的影响,您需要训练两个不同的机器学习模型,并将它们用于两个流量切片。其中一个模型基于当前的衡量方法(第三方 Cookie + 非第三方 Cookie 数据)进行训练,将应用于对照组;另一个模型基于 Attribution Reporting API + 非第三方 Cookie 数据进行训练,将应用于实验组。
  • 模型训练应基于测试人员认为可最大限度提高效果的尽可能多的流量,即使实验组的流量较少,并且训练人群之间存在重叠也是如此(例如,使用正在基于所有流量进行训练的现有第三方 Cookie 模型,并基于为目标 1 启用的所有 ARA 流量训练 ARA 模型)。
    • 如果向 CMA 提交结果,请注意用于训练不同模型的流量切片之间是否存在显著差异(例如,基于第三方 Cookie 的模型是否使用 100% 的流量进行训练,而基于 ARA 的模型是否仅使用 1% 的流量进行训练)。
  • 如果可能,处理组和对照组出价模型的训练时间应相同。
  • 考虑是否应在实验期间持续训练和更新出价模型,如果应这样做,是否应尽可能多地使用流量进行训练,还是仅使用实验组和对照组的流量进行训练。
  • 应将不同的模型用于不相交的流量切片,以进行 A/B 实验。为了在实验组和对照组之间实现用户随机化和分配,我们建议使用 Chrome 促成的标记浏览器组(模式 A),或者运行您自己的实验,其中包含随机的浏览器集。我们不建议使用模式 B,因为缺少第三方 Cookie 会导致难以报告基于转化的指标。
    • Chrome 协助创建的浏览器组会排除某些 Chrome 实例,例如企业版 Chrome 用户,而您自己的随机浏览器组可能不会排除这些 Chrome 实例。因此,您应该仅在模式 A 群组中运行实验,或者仅在非模式 A/模式 B 群组中运行实验,以避免将通过 Chrome 促成的群组获得的指标与通过非 Chrome 促成的群组获得的指标进行比较。
    • 如果未使用 Chrome 促成的带标签的浏览器组(例如,在其他流量上运行实验):
      • 验证用户在实验组和对照组之间的分配是否随机且无偏差。无论实验组如何设置,都要评估实验组和对照组的特征,以验证这两个组是否具有可比性。(请参阅:第 15 条
      • 验证实验组和对照组的用户特征和广告系列配置是否相同(例如,在实验组和对照组中使用类似的地理位置)。(请参阅:第 28 条
        • 具体示例包括:验证是否使用相同的归因天数和相同的归因逻辑来衡量类似的转化类型;广告系列是否定位到相似的受众群体、兴趣群体和地理位置;以及是否使用相似的广告文案和广告格式。
      • √ 实验组和对照组的初始规模足够大,可灵活进行出价和实验。
    • 如果使用 Chrome 促成的带标签的浏览器组(模式 A),Chrome 会负责将 Chrome 浏览器实例随机分配到各个组。建议您像之前一样检查随机化结果是否能生成无偏且可比较的组,以满足您的需求。

建议的分析点

  • 我们建议您定义对照组和实验组,并为每个组使用不同的机器学习模型进行出价优化:
    • 控制组 1 - 使用基于当前衡量方法(第三方 Cookie + 非第三方 Cookie 数据)训练的出价优化模型
    • (可选)对照组 2 - 使用在不采用 Privacy Sandbox 且不使用第三方 Cookie 的情况下训练出的出价优化模型,即仅使用非第三方 Cookie 数据
      • 请注意,某些网站可能仍可使用一些第三方 Cookie;为获得最准确的结果,请勿在 Control 2 或 Treatment 方法中使用这些第三方 Cookie 进行衡量。
    • 处理 - 使用基于 Attribution Reporting API 和非第三方 Cookie 数据训练出的出价优化模型
      • 请注意,某些网站可能仍可使用一些第三方 Cookie;为获得最准确的结果,请勿在 Control 2 或 Treatment 方法中使用这些第三方 Cookie 进行衡量。

指标

  • 确定哪些指标适合您的企业用来衡量效果,并说明相应指标的含义以及衡量方式。
    • 例如,有意义的指标可以是支出(发布商收入),这与 CMA 了解弃用第三方 Cookie 对“每次展示带来的收入”的影响的指南相符。如需了解详情,请参阅第 19 部分
  • 如果报告中包含任何基于转化的指标,您应为每个组使用相同的衡量方法,以避免进行多变量测试(在一个实验中测试对优化和报告的影响)。如需有关如何设置定量反馈格式的指导,请参阅建议的模板表格。
  • 考虑采用其他方式来收集有关出价优化效果的指标,例如使用模拟出价。是否有任何模拟指标可用于了解第三方 Cookie 和 ARA 对出价模型的影响?
  • 指定指标是基于事件级报告、汇总报告还是这两种报告的组合(以及是否使用了调试报告)。

分析

  • 覆盖率:
    • 与第三方 Cookie 相比,您能否衡量类似的一组用户?您是否发现覆盖面有任何变化(例如,应用到网站)?
    • 您是否能够衡量您或您的广告客户最关心的转化(以及维度/指标)?
  • 群组之间的差异会对以下方面产生哪些影响:
    • 广告客户报告,例如,您能够报告的关键转化次数百分比。
    • 例如,训练和优化会模拟不同的转化数据对模型效果的影响。
  • 其他定性反馈:
    • ARA 会如何影响广告客户出价优化设置的复杂程度?
    • ARA 有助于还是阻碍广告主专注于对他们而言重要的指标和目标?

建议使用的出价影响模板表格

(出价)表 1:

市场参与者应向 CMA 提交的实验结果模板表示例(摘自第 18 页,但测试人员应考虑哪些指标最有意义 / 最可行,并根据需要调整表格)

处理组与对照组 1
将建议的最终状态与当前状态进行比较
处理与控制 2
将提议的最终状态与完全没有 PS API 的状态进行比较。
对照组 2 与对照组 1
比较了在不使用任何 PS API 的情况下,使用和不使用第三方 Cookie 时出价优化的效果。
衡量方法 为避免进行多变量测试,请使用第三方 Cookie 和非第三方 Cookie 数据来衡量每个实验组中基于转化的指标。
每次展示收入 效果 效果 效果
标准误差 标准误差 标准误差
95% 置信区间 95% 置信区间 95% 置信区间
(添加您自己的指标)
(出价)表 2:

用于报告实验组和对照组中指标的描述性统计信息的示例模板表格(取自第 20 页,但测试人员应考虑哪些指标最有意义 / 最可行,并根据需要调整表格)

处理方式
使用 ARA 和您使用的任何非第三方 Cookie 数据进行出价优化
对照组 1
使用第三方 Cookie 和您使用的任何非第三方 Cookie 数据进行出价优化
对照组 2
仅使用非第三方 Cookie 数据进行出价优化
衡量方法 为避免进行多变量测试,请使用第三方 Cookie 和非第三方 Cookie 数据来衡量所有组的基于转化的指标。
每次展示收入 平均值 平均值 平均值
标准差 标准差 标准差
第 25 和第 75 百分位 第 25 和第 75 百分位 第 25 和第 75 百分位
(添加您自己的指标)

目标 3 - 对 Aggregation Service 进行负载测试

请参阅 Aggregation Service 负载测试框架