本指南旨在說明如何獨立測試 Privacy Sandbox Attribution Reporting API。詳情請參閱第 12 節。
- 在 CMA 的實驗設計 1 和 2 中,控制組和實驗組的成效評估涵蓋在相關性 API 測試指南中,因為這些實驗的目標是測試使用 Protected Audience 和 Topics 的成效。詳情請參閱第 11 節。
事前準備
- 如需設定 Attribution Reporting API 的指南,請參閱這篇文章。
- 請參閱英國競爭及市場管理局 (CMA) 的測試指南:實驗注意事項 (2022 年 11 月)、測試指南 (2023 年 6 月) 和其他測試指南 (2023 年 10 月)。
評估目標和建議的實驗設定
目標 1 - 判斷 Attribution Reporting API 是否適用於報表
我們建議採用 A/A 設定,評估對報表的影響
- 這項提案符合英國競爭及市場管理局 (CMA) 對於評估以轉換為依據的指標所發布的指引。詳情請參閱第 21 節和第 12 節。
- 我們偏好使用這種方法,而非模式 A/B,因為測試 Attribution Reporting API (ARA) 時,可使用兩種不同的評估方法 (第三方 Cookie + 非第三方 Cookie 資料,以及 ARA + 非第三方 Cookie 資料),同時評估同一組曝光的轉換。
- 此外,A/A 實驗還會排除 Attribution Reporting API 對轉換評估的影響 (例如避免因缺少第三方 Cookie 而導致轉換率發生任何變化)。
建議的分析重點
- 選擇流量夠大,可取得統計顯著結果,且同時有第三方 Cookie 和 Privacy Sandbox API 的流量區隔。理想情況下,除了模式 B (會停用第三方 Cookie) 以外,所有流量都應納入。
- 建議您從 A/A 實驗中排除模式 B,因為系統無法使用第三方 Cookie,您也無法比較 ARA 結果與以第三方 Cookie 為準的歸因結果。
- 如要納入模式 B,建議為模式 B 的流量啟用偵錯報表。偵錯報表可協助您排解任何設定或導入問題。
- 如果您打算對較小比例的流量進行測試,預期會收到比預期更雜亂的評估結果。建議您在分析中註明使用的流量比例,以及是否根據加入雜訊的報表或未加入雜訊的偵錯報表回報結果。
- 如果是摘要報表,摘要值可能會較低,且匯總服務會從相同分布情形加入干擾,無論摘要值為何。
- 針對該部分流量測試不同的評估方法
- 控制組 1 - 使用目前的評估方法 (第三方 Cookie + 非第三方 Cookie 資料)
- (選用) 控制組 2 - 不使用 Privacy Sandbox 和第三方 Cookie,也就是只使用非第三方 Cookie 資料
- 請注意,部分網站可能仍可使用某些第三方 Cookie。如要取得最準確的結果,請勿在 Control 2 或 Treatment 方法中使用這些第三方 Cookie 進行評估
- 實驗組 - Privacy Sandbox API 和非第三方 Cookie 資料
- 請注意,部分網站可能仍可使用某些第三方 Cookie。如要取得最準確的結果,請勿在 Control 2 或 Treatment 方法中使用這些第三方 Cookie 進行評估
指標
- 定義適合貴商家用來評估成效的指標,並說明指標的意義和評估方式。
- 建議您著重於對廣告主而言重要的維度和指標。舉例來說,如果廣告主著重於購物轉換,請評估這些轉換的次數和價值。
- 相較於單次費用 (例如單次轉換費用),以計數或總和為準的指標 (例如轉換率) 更適合使用。對於 A/A 分析,費用指標可完全從轉換次數或轉換價值總和衍生而來。
- 指定指標是根據事件層級報表、摘要報表,還是兩者合併的報表 (以及是否使用偵錯報表)。
- 如要瞭解如何設定量化意見回饋的格式,請參閱建議的範本表格。
分析
- 涵蓋範圍:
- 與第三方 Cookie 相比,您是否能評估類似的一組使用者?您是否看到涵蓋範圍變廣 (例如應用程式到網站)?
- 您是否能評估您或廣告主最重視的轉換 (以及維度或指標)?
- 量化意見回饋
- 舉例來說,在廣告主報表中,您能為該廣告主產生多少百分比的重要轉換報表?或有多少百分比的廣告活動符合報表品質標準 (推導品質標準有助於調整轉換次數較少的廣告活動)
- 以廣告主為區隔,舉例來說,目前有哪些廣告主較為依賴第三方 Cookie 進行報表作業?
- 其他質性意見回饋:
- 自動建立的素材資源對廣告主評估/歸因設定的複雜度有何影響?
- ARA 有助於或阻礙廣告主專注於重要指標和目標嗎?
建議用來回報影響的範本表格
(報表) 表 1:
向英國競爭及市場管理局 (CMA) 提報實驗結果的範本表格 (取自第 18 頁,但測試人員應考量哪些指標最能提供有意義 / 可行的資訊,並視需要調整表格)。
|
實驗組與控制組 1 比較建議的結束狀態與目前狀態 |
治療組與對照組 2 比較建議的最終狀態與完全沒有 PS API 的狀態。 |
控制組 2 與控制組 1 比較 比較有和沒有第三方 Cookie 的轉換評估結果,但不使用任何 PS API。 |
|
| 評估方法 | 比較「處理」組 (使用 ARA 和非第三方 Cookie 資料) 與「控制項 1」組 (使用第三方 Cookie 和非第三方 Cookie 資料) 的轉換評估結果 | 比較「處理組」(使用 ARA 和非第三方 Cookie 資料) 與「對照組 2」(僅使用非第三方 Cookie 資料) 的轉換評估結果 | 比較控制組 2 (僅限非第三方 Cookie 資料) 和控制組 1 (第三方 Cookie 和非第三方 Cookie 資料) 的轉換評估結果 |
| 每一美元所帶來的轉換量 | 效果 | 效果 | 效果 |
| 標準誤差 | 標準誤差 | 標準誤差 | |
| 95% 信賴區間 | 95% 信賴區間 | 95% 信賴區間 | |
| 轉換總數 | 效果 | 效果 | 效果 |
| 標準誤差 | 標準誤差 | 標準誤差 | |
| 95% 信賴區間 | 95% 信賴區間 | 95% 信賴區間 | |
| 轉換率 | 效果 | 效果 | 效果 |
| 標準誤差 | 標準誤差 | 標準誤差 | |
| 95% 信賴區間 | 95% 信賴區間 | 95% 信賴區間 | |
| (新增您自己的指標) |
(報表) 表 2:
範本表格,用於回報實驗組和控制組指標的描述性統計資料 (取自第 20 頁,但測試人員應考量哪些指標最有意義 / 可行,並視需要調整表格)。
| 指標 | 處理方式
使用 ARA 和您使用的任何非第三方 Cookie 資料評估轉換 |
控制項 1
使用第三方 Cookie 和您使用的任何非第三方 Cookie 資料評估轉換 |
控制項 2
只使用非第三方 Cookie 資料評估轉換 |
| 每 1 美元的轉換次數 | 平均值 | 平均值 | 平均值 |
| 標準差 | 標準差 | 標準差 | |
| 第 25 和 75 個百分位數 | 第 25 和 75 個百分位數 | 第 25 和 75 個百分位數 | |
| 轉換總數 | 平均值 | 平均值 | 平均值 |
| 標準差 | 標準差 | 標準差 | |
| 第 25 和 75 個百分位數 | 第 25 和 75 個百分位數 | 第 25 和 75 個百分位數 | |
| 轉換率 | 平均值 | 平均值 | 平均值 |
| 標準差 | 標準差 | 標準差 | |
| 第 25 和 75 個百分位數 | 第 25 和 75 個百分位數 | 第 25 和 75 個百分位數 | |
| (新增您自己的指標) |
目標 2:判斷 Attribution Reporting API 是否適用於出價最佳化
我們建議進行 A/B 測試,評估出價最佳化帶來的影響。
- 如要評估對出價最佳化的影響,您需要訓練兩種不同的機器學習模型,並將這些模型用於兩個流量區隔:一個模型是根據目前的評估方法 (第三方 Cookie + 非第三方 Cookie 資料) 訓練而成,適用於控制組;另一個模型是根據 Attribution Reporting API + 非第三方 Cookie 資料訓練而成,適用於實驗組。
- 模型訓練應盡可能以測試人員認為有助於提升成效的流量為依據,即使實驗組的流量較少,且訓練群體之間有重疊也無妨 (例如,使用現有的第三方 Cookie 模型訓練所有流量,並使用為目標 1 啟用的所有 ARA 流量訓練 ARA 模型)。
- 如要向英國競爭及市場管理局 (CMA) 提交結果,請注意用於訓練不同模型的流量切片之間是否有顯著差異 (例如,如果第三方 Cookie 型模型是根據 100% 的流量訓練,但 ARA 型模型只根據 1% 的流量訓練)。
- 如有可能,實驗組和控制組出價模型的訓練時間應相同。
- 請考慮是否要在實驗期間持續訓練及更新出價模型,如果決定這麼做,請考慮是否要盡可能使用大量流量進行訓練,或只使用實驗組和控制組的流量。
- 您應在不相交的流量切片上使用不同模型,進行 A/B 實驗。如要隨機指派使用者到實驗組和控制組,建議使用 Chrome 提供的標籤瀏覽器群組 (模式 A),或使用隨機瀏覽器組合自行進行實驗。我們不建議使用模式 B,因為缺少第三方 Cookie 會導致難以回報以轉換為準的指標。
- 由 Chrome 協助建立的瀏覽器群組會排除部分 Chrome 執行個體,例如 Enterprise Chrome 使用者,但您自行隨機建立的瀏覽器組合可能不會排除這些 Chrome 執行個體。因此,您應只在模式 A 群組或非模式 A/模式 B 群組中執行實驗,以免比較在 Chrome 輔助群組中取得的指標與在非 Chrome 輔助群組中取得的指標。
- 如果未使用 Chrome 輔助的標籤瀏覽器群組 (例如在其他流量上執行實驗):
- 如果使用 Chrome 輔助的標籤瀏覽器群組 (模式 A),Chrome 會負責將 Chrome 瀏覽器執行個體隨機分配到群組。建議您像以往一樣檢查隨機化結果,確保群組無偏誤 / 可比較,符合您的用途。
建議的分析重點
- 建議您定義控制組和實驗組,並為各組使用不同的機器學習模型來最佳化出價:
- 控制組 1 - 使用根據現行評估方法 (第三方 Cookie + 非第三方 Cookie 資料) 訓練的出價最佳化模型
- (選用) 控制組 2:使用未經 Privacy Sandbox 和第三方 Cookie 訓練的出價最佳化模型,也就是只使用非第三方 Cookie 資料
- 請注意,部分網站可能仍可使用某些第三方 Cookie。為確保結果最準確,請勿在 Control 2 或 Treatment 方法中使用這些第三方 Cookie 進行評估。
- 處理方式 - 使用根據 Attribution Reporting API 和非第三方 Cookie 資料訓練的出價最佳化模型
- 請注意,部分網站可能仍可使用某些第三方 Cookie。為確保結果最準確,請勿在 Control 2 或 Treatment 方法中使用這些第三方 Cookie 進行評估。
指標
- 定義適合貴商家用來評估成效的指標,並說明指標的意義和評估方式。
- 舉例來說,有意義的指標可能是支出 (發布商收益),這與 CMA 的指引一致,可瞭解淘汰第三方 Cookie 對「每千次曝光收益」的影響。詳情請參閱第 19 節。
- 如要回報任何以轉換為準的指標,請為每個組別採用相同的評估方法,避免進行多變數測試 (在同一項實驗中測試對最佳化和報表的影響)。如要瞭解如何設定量化意見回饋的格式,請參閱建議的範本表格。
- 請考慮使用其他方式收集出價最佳化影響的指標,例如模擬出價。是否有任何模擬指標,有助於瞭解第三方 Cookie 和 ARA 對出價模式的影響?
- 指定指標是根據事件層級報表、摘要報表,還是兩者合併的報表 (以及是否使用偵錯報表)。
分析
- 涵蓋範圍:
- 與第三方 Cookie 相比,您是否能評估類似的一組使用者?您是否發現涵蓋範圍有任何變化 (例如應用程式到網站)?
- 您是否能評估您或廣告主最重視的轉換 (和維度/指標)?
- 這兩類群組的差異會對下列項目造成哪些影響:
- 廣告主報表,例如:您可以回報多少百分比的重要轉換。
- 例如,訓練和最佳化功能會模擬不同轉換資料對模型成效的影響。
- 其他質性意見回饋:
- 自動建立的素材資源會如何影響廣告主出價最佳化設定的複雜程度?
- ARA 是否有助於廣告主專注於重要指標和目標?
出價影響的建議範本表格
(出價) 表 1:
市場參與者應向 CMA 提交的實驗結果範本表格 (取自第 18 頁,但測試人員應考量哪些指標最能提供有意義 / 可行的資訊,並視需要調整表格)。
|
實驗組與控制組 1 比較建議的結束狀態與目前狀態 |
治療組與對照組 2 比較建議的最終狀態與完全沒有 PS API 的狀態。 |
控制組 2 與控制組 1 比較 比較有和沒有第三方 Cookie 的出價最佳化成效,不使用任何 PS API。 |
|
| 評估方法 | 為避免進行多變數測試,請使用第三方 Cookie 和非第三方 Cookie 資料,評估每個實驗中兩個實驗組的轉換相關指標。 | ||
| 單次曝光收益 | 效果 | 效果 | 效果 |
| 標準誤差 | 標準誤差 | 標準誤差 | |
| 95% 信賴區間 | 95% 信賴區間 | 95% 信賴區間 | |
| (新增自己的指標) | |||
(出價) 表格 2:
範本表格,用於回報實驗組和控制組指標的描述性統計資料 (取自第 20 頁,但測試人員應考量哪些指標最有意義 / 可行,並視需要調整表格)。
|
做法 使用 ARA 和您使用的任何非第三方 Cookie 資料,最佳化出價 |
控制組 1 使用第三方 Cookie 和您使用的任何非第三方 Cookie 資料,進行出價最佳化 |
控制組 2 僅使用非第三方 Cookie 資料進行出價最佳化 |
|
| 評估方法 | 為避免進行多變數測試,請使用第三方 Cookie 和非第三方 Cookie 資料,評估所有組別的轉換相關指標。 | ||
| 單次曝光收益 | 平均值 | 平均值 | 平均值 |
| 標準差 | 標準差 | 標準差 | |
| 第 25 和 75 個百分位數 | 第 25 和 75 個百分位數 | 第 25 和 75 個百分位數 | |
| (新增您自己的指標) | |||
目標 3 - 對匯總服務進行負載測試
請參閱「匯總服務負載測試架構」。