本指南旨在指导您运行 Privacy Sandbox Attribution Reporting API 的独立测试。如需了解详情,请参阅:第 12 节。
- 相关性 API 测试指南介绍了如何衡量 CMA 实验设计 1 和 2 中的对照组和实验组结果,因为这些实验的目标是测试使用 Protected Audience API 和 Topics API 的效果。如需了解详情,请参阅第 11 节。
准备工作
- 查看有关配置和设置 Attribution Reporting API 的指南。
- 查看 CMA 测试指南:实验备注(2022 年 11 月)、测试指南(2023 年 6 月)和其他测试指南(2023 年 10 月)。
评估目标和建议的实验设置
目标 1 - 确定 Attribution Reporting API 在报告方面的效果
我们建议您采用 A/A 设置来衡量对报告的影响
- 此提案符合 CMA 关于评估基于转化的指标的指南。如需了解详情,请参阅第 21 条和第 12 条。
- 我们更推荐使用此方法,而不是模式 A/B,因为您可以使用两种不同的衡量方法(第三方 Cookie + 非第三方 Cookie 数据和 ARA + 非第三方 Cookie 数据)同时衡量同一组展示的转化,从而测试 Attribution Reporting API (ARA)。
- A/B 实验还可以隔离 Attribution Reporting API 对转化衡量的影响(例如,避免因缺少第三方 Cookie 而导致转化率发生任何变化)。
建议的分析要点
- 选择一组流量,该组流量足够大,能够获得具有统计显著性的结果,并且同时使用第三方 Cookie 和 Privacy Sandbox API。理想情况下,除了模式 B(会停用第三方 Cookie)之外,所有流量都应包含在内。
- 我们建议从 A/A 实验中排除模式 B,因为第三方 Cookie 将不可用,并且您将无法将 ARA 结果与基于第三方 Cookie 的归因结果进行比较。
- 如果您想添加模式 B,则应考虑为模式 B 流量切片启用调试报告。调试报告可帮助您排查任何配置或实现问题。
- 如果您计划使用较小一部分流量进行测试,我们预计您会获得比预期更嘈杂的效果衡量结果。我们建议您在分析中记录所用流量的百分比,以及您是根据添加了噪声的报告还是未添加噪声的调试报告来报告结果。
- 对于摘要报告,摘要值可能会较低,并且无论摘要值如何,汇总服务都会添加来自同一分布的噪声。
- 针对相应流量 slice 测试不同的衡量方法
- 对照组 1 - 使用当前的衡量方法(第三方 Cookie + 非第三方 Cookie 数据)
- (可选)对照组 2 - 不使用 Privacy Sandbox 和第三方 Cookie,即仅使用非第三方 Cookie 数据
- 请注意,某些网站可能仍会使用一些第三方 Cookie。为了获得最准确的结果,请勿在“对照组 2”或“实验组”方法中使用这些第三方 Cookie 进行衡量
- 实验组 - Privacy Sandbox API 和非第三方 Cookie 数据
- 请注意,某些网站可能仍会使用一些第三方 Cookie。为了获得最准确的结果,请勿在“对照组 2”或“实验组”方法中使用这些第三方 Cookie 进行衡量
指标
- 确定哪些指标对您的业务而言有助于衡量成效,并说明该指标的含义以及衡量方式。
- 我们建议您重点关注对广告客户重要的维度和指标。例如,如果您的广告客户侧重于购买转化,请衡量购买转化次数和购买价值。
- 与每次费用(例如每次转化费用)相比,基于计数或总和的指标(例如转化率)更适合使用。对于 A/B 分析,费用指标可以完全从转化次数或转化价值总和派生得出。
- 指定指标是基于事件级报告、摘要报告还是这两种报告的组合(以及是否使用了调试报告)。
- 请参阅建议的模板表格,了解如何设置定量反馈的格式。
分析
- 覆盖率:
- 与第三方 Cookie 相比,您能否衡量一组类似的用户?覆盖面是否有所提高(例如,通过应用到网站)?
- 您是否能够衡量您或广告客户最关心的转化(以及维度或指标)?
- 定量反馈
- 例如,在广告客户报告方面,您能为该广告客户报告的关键转化占比是多少,或者有多少广告系列符合报告质量标准(推导质量标准有助于针对转化次数较少的广告系列进行调整)
- 例如,按广告客户细分,目前是否有部分广告客户在报告方面更多地依赖第三方 Cookie?
- 其他定性反馈:
- ARA 对广告客户的效果衡量/归因设置的复杂性有何影响?
- ARA 是否有助于广告客户专注于对他们重要的指标和目标?
用于报告影响的建议模板表
(报告)表 1:
用于向 CMA 报告实验结果的模板表格示例(摘自第 18 页,但测试人员应考虑提供哪些指标最有意义 / 可行,并根据需要调整表格)。
实验组与对照组 1 将拟议的结束状态与当前状态进行比较 |
实验组与对照组 2 比较建议的最终状态与完全不使用 PS API 的状态。 |
对照组 2 与对照组 1 比较在未使用任何 PS API 的情况下,使用和不使用第三方 Cookie 衡量转化情况。 |
|
衡量方法 | 将实验组(使用非第三方 Cookie 数据的 ARA)的转化衡量结果与对照组 1(使用第三方 Cookie 和非第三方 Cookie 数据)的转化衡量结果进行比较 | 将实验组(使用非第三方 Cookie 数据的 ARA)的转化衡量结果与对照组 2(仅使用非第三方 Cookie 数据)的转化衡量结果进行比较 | 将对照组 2(仅使用非第三方 Cookie 数据)的转化衡量结果与对照组 1(使用第三方 Cookie 和非第三方 Cookie 数据)的转化衡量结果进行比较 |
每一分投入带来的转化次数 | 效果 | 效果 | 效果 |
标准误差 | 标准误差 | 标准误差 | |
95% 置信区间 | 95% 置信区间 | 95% 置信区间 | |
总转化次数 | 效果 | 效果 | 效果 |
标准误差 | 标准误差 | 标准误差 | |
95% 置信区间 | 95% 置信区间 | 95% 置信区间 | |
转化率 | 效果 | 效果 | 效果 |
标准误差 | 标准误差 | 标准误差 | |
95% 置信区间 | 95% 置信区间 | 95% 置信区间 | |
(添加您自己的指标) |
(报告)表 2:
用于报告实验组和对照组中指标的描述性统计信息的模板表格示例(摘自第 20 页,但测试人员应考虑提供哪些指标最有意义 / 可行,并根据需要调整表格)。
指标 | 实验组
使用 ARA 和您使用的任何非第三方 Cookie 数据衡量转化 |
对照组 1
使用第三方 Cookie 和您使用的任何非第三方 Cookie 数据衡量转化 |
对照组 2
仅使用非第三方 Cookie 数据衡量转化 |
每次转化费用 | 平均值 | 平均值 | 平均值 |
标准差 | 标准差 | 标准差 | |
第 25 和第 75 百分位 | 第 25 和第 75 百分位 | 第 25 和第 75 百分位 | |
总转化次数 | 平均值 | 平均值 | 平均值 |
标准差 | 标准差 | 标准差 | |
第 25 和第 75 百分位 | 第 25 和第 75 百分位 | 第 25 和第 75 百分位 | |
转化率 | 平均值 | 平均值 | 平均值 |
标准差 | 标准差 | 标准差 | |
第 25 和第 75 百分位 | 第 25 和第 75 百分位 | 第 25 和第 75 百分位 | |
(添加您自己的指标) |
目标 2 - 确定 Attribution Reporting API 在出价优化方面的效果
我们建议您设置 A/B 组,以衡量对出价优化的影响。
- 如需衡量对出价优化的影响,您需要训练两个不同的机器学习模型,并将其应用于两部分流量:一个模型使用当前效果衡量方法(第三方 Cookie + 非第三方 Cookie 数据)训练,用于对照组;另一个模型使用 Attribution Reporting API + 非第三方 Cookie 数据训练,用于实验组。
- 为了最大限度地提升效果,模型训练应基于测试人员认为必要的尽可能多的数据流量,即使实验组是较小的流量 slice 且训练样本之间存在重叠(例如,使用针对所有流量进行训练的现有第三方 Cookie 模型,并针对为目标 1 启用的所有 ARA 流量训练 ARA 模型)。
- 如果向 CMA 提交结果,请注意用于训练不同模型的流量 slice 之间是否存在显著差异(例如,如果基于第三方 Cookie 的模型是基于 100% 的流量训练的,而基于 ARA 的模型仅基于 1% 的流量训练的)。
- 如果可能,对照组和实验组出价模型的训练时间应相同。
- 考虑您是否应在实验期间持续训练和更新出价模型,如果要训练,则应使用尽可能多的流量进行训练,还是仅使用实验组和对照组的流量进行训练。
- 您应将不同的模型用于不重叠的流量切片,以进行 A/B 实验。如需在实验组和对照组之间随机分配用户,我们建议您使用 Chrome 提供的标记浏览器组(模式 A),或使用随机分配的浏览器组运行您自己的实验。我们不建议使用模式 B,因为缺少第三方 Cookie 会导致基于转化的指标难以生成报告。
- Chrome 协助创建的浏览器组会排除一些 Chrome 实例(例如 Chrome 企业版用户),而您自己随机组合的浏览器组可能不会排除这些 Chrome 实例。因此,您应仅在模式 A 组或非模式 A/模式 B 组中运行实验,以免将通过 Chrome 协助组获得的指标与通过非 Chrome 协助组获得的指标进行比较。
- 如果未使用 Chrome 提供的标记式浏览器组(例如,在其他流量上运行实验):
- 如果使用 Chrome 提供的标记浏览器组(模式 A),Chrome 会负责将 Chrome 浏览器实例随机分配到组。建议您像之前一样检查随机化结果,确保所得组不存在偏差 / 可与您的目标组进行比较。
建议的分析要点
- 我们建议您定义对照组和实验组,并为每个组使用不同的机器学习模型来优化出价:
- 对照组 1 - 使用根据当前衡量方法(第三方 Cookie + 非第三方 Cookie 数据)训练的出价优化模型
- (可选)对照组 2 - 使用未使用 Privacy Sandbox 和第三方 Cookie(即仅使用非第三方 Cookie 数据)训练出的出价优化模型
- 请注意,某些网站可能仍会使用一些第三方 Cookie。为了获得最准确的结果,请勿在“对照组 2”或“实验组”方法中使用这些第三方 Cookie 进行衡量。
- 实验组 - 使用基于 Attribution Reporting API 和非第三方 Cookie 数据训练的出价优化模型
- 请注意,某些网站可能仍会使用一些第三方 Cookie。为了获得最准确的结果,请勿在“对照组 2”或“实验组”方法中使用这些第三方 Cookie 进行衡量。
指标
- 确定哪些指标对您的业务而言有助于衡量成效,并说明该指标的含义以及衡量方式。
- 例如,有意义的指标可以是支出(发布商收入),这与 CMA 的指南保持一致,可用于了解弃用第三方 Cookie 对“每次展示收入”的影响。如需了解详情,请参阅第 19 节。
- 如果要针对任何基于转化的指标生成报告,您应对每个组使用相同的衡量方法,以避免进行多变量测试(在一个实验中测试对优化和报告的影响)。请参阅建议的模板表格,了解如何设置定量反馈的格式。
- 考虑使用其他方法来收集有关出价优化影响的指标,例如使用出价模拟功能。有没有任何模拟指标有助于了解第三方 Cookie 和 ARA 对出价模型的影响?
- 指定指标是基于事件级报告、摘要报告还是这两种报告的组合(以及是否使用了调试报告)。
分析
- 覆盖率:
- 与第三方 Cookie 相比,您能否衡量一组类似的用户?覆盖率是否发生了任何变化(例如,应用到网站的覆盖率)?
- 您是否能够衡量您或广告客户最关心的转化(以及维度/指标)?
- 这些组之间的差异会对以下方面产生哪些影响:
- 例如,广告客户报告。您能报告关键转化的百分比是多少?
- 例如,训练和优化会模拟不同转化数据对模型性能的影响。
- 其他定性反馈:
- ARA 对广告客户出价优化设置的复杂性有何影响?
- ARA 是否有助于广告客户专注于对他们重要的指标和目标?
建议的出价影响模板表
(出价)表 1:
市场参与者应向 CMA 提交的实验结果模板表格示例(摘自第 18 页,但测试人员应考虑提供哪些指标最有意义 / 可行,并根据需要调整表格)。
实验组与对照组 1 将拟议的结束状态与当前状态进行比较 |
实验组与对照组 2 比较建议的最终状态与完全不使用 PS API 的状态。 |
对照组 2 与对照组 1 比较在未使用任何 PS API 的情况下,启用和停用第三方 Cookie 对出价优化的影响。 |
|
衡量方法 | 为避免进行多变量测试,请使用第三方 Cookie 和非第三方 Cookie 数据来衡量每个实验中两个组的基于转化的指标。 | ||
每次展示带来的收入 | 效果 | 效果 | 效果 |
标准误差 | 标准误差 | 标准误差 | |
95% 置信区间 | 95% 置信区间 | 95% 置信区间 | |
(添加您自己的指标) |
(出价)表 2:
用于报告实验组和对照组中指标的描述性统计信息的模板表格示例(摘自第 20 页,但测试人员应考虑提供哪些指标最有意义 / 可行,并根据需要调整表格)。
实验组 使用 ARA 和您使用的任何非第三方 Cookie 数据进行出价优化 |
对照组 1 使用第三方 Cookie 和您使用的任何非第三方 Cookie 数据进行出价优化 |
对照组 2 仅使用非第三方 Cookie 数据进行出价优化 |
|
衡量方法 | 为避免进行多变量测试,请使用第三方 Cookie 和非第三方 Cookie 数据衡量所有组的基于转化的指标。 | ||
每次展示带来的收入 | 平均值 | 平均值 | 平均值 |
标准差 | 标准差 | 标准差 | |
第 25 和第 75 个百分位 | 第 25 和第 75 个百分位 | 第 25 和第 75 个百分位 | |
(添加您自己的指标) |
目标 3 - 对 Aggregation Service 进行负载测试
请参阅 Aggregation Service 负载测试框架。