評估測試指南

本指南旨在說明如何獨立測試 Privacy Sandbox Attribution Reporting API。詳情請參閱第 12 節

  • 在 CMA 的實驗設計 1 和 2 中,控制組和實驗組的成效評估涵蓋在相關性 API 測試指南中,因為這些實驗的目標是測試使用 Protected Audience 和 Topics 的成效。詳情請參閱第 11 節

事前準備

  • 如需設定 Attribution Reporting API 的指南,請參閱這篇文章。
  • 請參閱英國競爭及市場管理局 (CMA) 的測試指南:實驗注意事項 (2022 年 11 月)、測試指南 (2023 年 6 月) 和其他測試指南 (2023 年 10 月)。

評估目標和建議的實驗設定

目標 1 - 判斷 Attribution Reporting API 是否適用於報表

我們建議採用 A/A 設定,評估對報表的影響

  • 這項提案符合英國競爭及市場管理局 (CMA) 對於評估以轉換為依據的指標所發布的指引。詳情請參閱第 21 節第 12 節
  • 我們偏好使用這種方法,而非模式 A/B,因為測試 Attribution Reporting API (ARA) 時,可使用兩種不同的評估方法 (第三方 Cookie + 非第三方 Cookie 資料,以及 ARA + 非第三方 Cookie 資料),同時評估同一組曝光的轉換。
  • 此外,A/A 實驗還會排除 Attribution Reporting API 對轉換評估的影響 (例如避免因缺少第三方 Cookie 而導致轉換率發生任何變化)。

建議的分析重點

  • 選擇流量夠大,可取得統計顯著結果,且同時有第三方 Cookie 和 Privacy Sandbox API 的流量區隔。理想情況下,除了模式 B (會停用第三方 Cookie) 以外,所有流量都應納入。
    • 建議您從 A/A 實驗中排除模式 B,因為系統無法使用第三方 Cookie,您也無法比較 ARA 結果與以第三方 Cookie 為準的歸因結果。
    • 如要納入模式 B,建議為模式 B 的流量啟用偵錯報表。偵錯報表可協助您排解任何設定或導入問題。
  • 如果您打算對較小比例的流量進行測試,預期會收到比預期更雜亂的評估結果。建議您在分析中註明使用的流量比例,以及是否根據加入雜訊的報表或未加入雜訊的偵錯報表回報結果。
    • 如果是摘要報表,摘要值可能會較低,且匯總服務會從相同分布情形加入干擾,無論摘要值為何。
  • 針對該部分流量測試不同的評估方法
    • 控制組 1 - 使用目前的評估方法 (第三方 Cookie + 非第三方 Cookie 資料)
    • (選用) 控制組 2 - 不使用 Privacy Sandbox 和第三方 Cookie,也就是只使用非第三方 Cookie 資料
      • 請注意,部分網站可能仍可使用某些第三方 Cookie。如要取得最準確的結果,請勿在 Control 2 或 Treatment 方法中使用這些第三方 Cookie 進行評估
    • 實驗組 - Privacy Sandbox API 和非第三方 Cookie 資料
      • 請注意,部分網站可能仍可使用某些第三方 Cookie。如要取得最準確的結果,請勿在 Control 2 或 Treatment 方法中使用這些第三方 Cookie 進行評估

指標

  • 定義適合貴商家用來評估成效的指標,並說明指標的意義和評估方式。
    • 建議您著重於對廣告主而言重要的維度和指標。舉例來說,如果廣告主著重於購物轉換,請評估這些轉換的次數和價值。
  • 相較於單次費用 (例如單次轉換費用),以計數或總和為準的指標 (例如轉換率) 更適合使用。對於 A/A 分析,費用指標可完全從轉換次數或轉換價值總和衍生而來。
  • 指定指標是根據事件層級報表、摘要報表,還是兩者合併的報表 (以及是否使用偵錯報表)。
  • 如要瞭解如何設定量化意見回饋的格式,請參閱建議的範本表格。

分析

  • 涵蓋範圍:
    • 與第三方 Cookie 相比,您是否能評估類似的一組使用者?您是否看到涵蓋範圍變廣 (例如應用程式到網站)?
    • 您是否能評估您或廣告主最重視的轉換 (以及維度或指標)?
  • 量化意見回饋
    • 舉例來說,在廣告主報表中,您能為該廣告主產生多少百分比的重要轉換報表?或有多少百分比的廣告活動符合報表品質標準 (推導品質標準有助於調整轉換次數較少的廣告活動)
    • 以廣告主為區隔,舉例來說,目前有哪些廣告主較為依賴第三方 Cookie 進行報表作業?
  • 其他質性意見回饋:
    • 自動建立的素材資源對廣告主評估/歸因設定的複雜度有何影響?
    • ARA 有助於或阻礙廣告主專注於重要指標和目標嗎?

建議用來回報影響的範本表格

(報表) 表 1:

向英國競爭及市場管理局 (CMA) 提報實驗結果的範本表格 (取自第 18 頁,但測試人員應考量哪些指標最能提供有意義 / 可行的資訊,並視需要調整表格)。

實驗組與控制組 1
比較建議的結束狀態與目前狀態
治療組與對照組 2
比較建議的最終狀態與完全沒有 PS API 的狀態。
控制組 2 與控制組 1 比較
比較有和沒有第三方 Cookie 的轉換評估結果,但不使用任何 PS API。
評估方法 比較「處理」組 (使用 ARA 和非第三方 Cookie 資料) 與「控制項 1」組 (使用第三方 Cookie 和非第三方 Cookie 資料) 的轉換評估結果 比較「處理組」(使用 ARA 和非第三方 Cookie 資料) 與「對照組 2」(僅使用非第三方 Cookie 資料) 的轉換評估結果 比較控制組 2 (僅限非第三方 Cookie 資料) 和控制組 1 (第三方 Cookie 和非第三方 Cookie 資料) 的轉換評估結果
每一美元所帶來的轉換量 效果 效果 效果
標準誤差 標準誤差 標準誤差
95% 信賴區間 95% 信賴區間 95% 信賴區間
轉換總數 效果 效果 效果
標準誤差 標準誤差 標準誤差
95% 信賴區間 95% 信賴區間 95% 信賴區間
轉換率 效果 效果 效果
標準誤差 標準誤差 標準誤差
95% 信賴區間 95% 信賴區間 95% 信賴區間
(新增您自己的指標)
(報表) 表 2:

範本表格,用於回報實驗組和控制組指標的描述性統計資料 (取自第 20 頁,但測試人員應考量哪些指標最有意義 / 可行,並視需要調整表格)

指標 處理方式
使用 ARA 和您使用的任何非第三方 Cookie 資料評估轉換
控制項 1
使用第三方 Cookie 和您使用的任何非第三方 Cookie 資料評估轉換
控制項 2
只使用非第三方 Cookie 資料評估轉換
每 1 美元的轉換次數 平均值 平均值 平均值
標準差 標準差 標準差
第 25 和 75 個百分位數 第 25 和 75 個百分位數 第 25 和 75 個百分位數
轉換總數 平均值 平均值 平均值
標準差 標準差 標準差
第 25 和 75 個百分位數 第 25 和 75 個百分位數 第 25 和 75 個百分位數
轉換率 平均值 平均值 平均值
標準差 標準差 標準差
第 25 和 75 個百分位數 第 25 和 75 個百分位數 第 25 和 75 個百分位數
(新增您自己的指標)

目標 2:判斷 Attribution Reporting API 是否適用於出價最佳化

我們建議進行 A/B 測試,評估出價最佳化帶來的影響。

  • 如要評估對出價最佳化的影響,您需要訓練兩種不同的機器學習模型,並將這些模型用於兩個流量區隔:一個模型是根據目前的評估方法 (第三方 Cookie + 非第三方 Cookie 資料) 訓練而成,適用於控制組;另一個模型是根據 Attribution Reporting API + 非第三方 Cookie 資料訓練而成,適用於實驗組。
  • 模型訓練應盡可能以測試人員認為有助於提升成效的流量為依據,即使實驗組的流量較少,且訓練群體之間有重疊也無妨 (例如,使用現有的第三方 Cookie 模型訓練所有流量,並使用為目標 1 啟用的所有 ARA 流量訓練 ARA 模型)。
    • 如要向英國競爭及市場管理局 (CMA) 提交結果,請注意用於訓練不同模型的流量切片之間是否有顯著差異 (例如,如果第三方 Cookie 型模型是根據 100% 的流量訓練,但 ARA 型模型只根據 1% 的流量訓練)。
  • 如有可能,實驗組和控制組出價模型的訓練時間應相同。
  • 請考慮是否要在實驗期間持續訓練及更新出價模型,如果決定這麼做,請考慮是否要盡可能使用大量流量進行訓練,或只使用實驗組和控制組的流量。
  • 您應在不相交的流量切片上使用不同模型,進行 A/B 實驗。如要隨機指派使用者到實驗組和控制組,建議使用 Chrome 提供的標籤瀏覽器群組 (模式 A),或使用隨機瀏覽器組合自行進行實驗。我們不建議使用模式 B,因為缺少第三方 Cookie 會導致難以回報以轉換為準的指標。
    • 由 Chrome 協助建立的瀏覽器群組會排除部分 Chrome 執行個體,例如 Enterprise Chrome 使用者,但您自行隨機建立的瀏覽器組合可能不會排除這些 Chrome 執行個體。因此,您應只在模式 A 群組或非模式 A/模式 B 群組中執行實驗,以免比較在 Chrome 輔助群組中取得的指標與在非 Chrome 輔助群組中取得的指標。
    • 如果未使用 Chrome 輔助的標籤瀏覽器群組 (例如在其他流量上執行實驗):
      • 確認使用者在實驗組和對照組的分配方式是隨機且公正的。無論實驗組設定為何,請評估實驗組和控制組的特徵,確認兩組條件相當。(請參閱:第 15 節)
      • 確認實驗組和控制組的使用者特徵和廣告活動設定相同 (例如,實驗組和控制組都使用類似的地理位置)。(請參閱:第 28 節)
        • 具體來說,請確認您使用相同的歸因時間範圍和歸因邏輯評估類似的轉換類型,廣告活動指定類似的目標對象、興趣群組和地理位置,並使用類似的廣告文案和廣告格式。
      • √ 實驗組和控制組的初始母體規模夠大,可彈性出價和進行實驗。
    • 如果使用 Chrome 輔助的標籤瀏覽器群組 (模式 A),Chrome 會負責將 Chrome 瀏覽器執行個體隨機分配到群組。建議您像以往一樣檢查隨機化結果,確保群組無偏誤 / 可比較,符合您的用途。

建議的分析重點

  • 建議您定義控制組和實驗組,並為各組使用不同的機器學習模型來最佳化出價:
    • 控制組 1 - 使用根據現行評估方法 (第三方 Cookie + 非第三方 Cookie 資料) 訓練的出價最佳化模型
    • (選用) 控制組 2:使用未經 Privacy Sandbox 和第三方 Cookie 訓練的出價最佳化模型,也就是只使用非第三方 Cookie 資料
      • 請注意,部分網站可能仍可使用某些第三方 Cookie。為確保結果最準確,請勿在 Control 2 或 Treatment 方法中使用這些第三方 Cookie 進行評估。
    • 處理方式 - 使用根據 Attribution Reporting API 和非第三方 Cookie 資料訓練的出價最佳化模型
      • 請注意,部分網站可能仍可使用某些第三方 Cookie。為確保結果最準確,請勿在 Control 2 或 Treatment 方法中使用這些第三方 Cookie 進行評估。

指標

  • 定義適合貴商家用來評估成效的指標,並說明指標的意義和評估方式。
    • 舉例來說,有意義的指標可能是支出 (發布商收益),這與 CMA 的指引一致,可瞭解淘汰第三方 Cookie 對「每千次曝光收益」的影響。詳情請參閱第 19 節
  • 如要回報任何以轉換為準的指標,請為每個組別採用相同的評估方法,避免進行多變數測試 (在同一項實驗中測試對最佳化和報表的影響)。如要瞭解如何設定量化意見回饋的格式,請參閱建議的範本表格。
  • 請考慮使用其他方式收集出價最佳化影響的指標,例如模擬出價。是否有任何模擬指標,有助於瞭解第三方 Cookie 和 ARA 對出價模式的影響?
  • 指定指標是根據事件層級報表、摘要報表,還是兩者合併的報表 (以及是否使用偵錯報表)。

分析

  • 涵蓋範圍:
    • 與第三方 Cookie 相比,您是否能評估類似的一組使用者?您是否發現涵蓋範圍有任何變化 (例如應用程式到網站)?
    • 您是否能評估您或廣告主最重視的轉換 (和維度/指標)?
  • 這兩類群組的差異會對下列項目造成哪些影響:
    • 廣告主報表,例如:您可以回報多少百分比的重要轉換。
    • 例如,訓練和最佳化功能會模擬不同轉換資料對模型成效的影響。
  • 其他質性意見回饋:
    • 自動建立的素材資源會如何影響廣告主出價最佳化設定的複雜程度?
    • ARA 是否有助於廣告主專注於重要指標和目標?

出價影響的建議範本表格

(出價) 表 1:

市場參與者應向 CMA 提交的實驗結果範本表格 (取自第 18 頁,但測試人員應考量哪些指標最能提供有意義 / 可行的資訊,並視需要調整表格)

實驗組與控制組 1
比較建議的結束狀態與目前狀態
治療組與對照組 2
比較建議的最終狀態與完全沒有 PS API 的狀態。
控制組 2 與控制組 1 比較
比較有和沒有第三方 Cookie 的出價最佳化成效,不使用任何 PS API。
評估方法 為避免進行多變數測試,請使用第三方 Cookie 和非第三方 Cookie 資料,評估每個實驗中兩個實驗組的轉換相關指標。
單次曝光收益 效果 效果 效果
標準誤差 標準誤差 標準誤差
95% 信賴區間 95% 信賴區間 95% 信賴區間
(新增自己的指標)
(出價) 表格 2:

範本表格,用於回報實驗組和控制組指標的描述性統計資料 (取自第 20 頁,但測試人員應考量哪些指標最有意義 / 可行,並視需要調整表格)

做法
使用 ARA 和您使用的任何非第三方 Cookie 資料,最佳化出價
控制組 1
使用第三方 Cookie 和您使用的任何非第三方 Cookie 資料,進行出價最佳化
控制組 2
僅使用非第三方 Cookie 資料進行出價最佳化
評估方法 為避免進行多變數測試,請使用第三方 Cookie 和非第三方 Cookie 資料,評估所有組別的轉換相關指標。
單次曝光收益 平均值 平均值 平均值
標準差 標準差 標準差
第 25 和 75 個百分位數 第 25 和 75 個百分位數 第 25 和 75 個百分位數
(新增您自己的指標)

目標 3 - 對匯總服務進行負載測試

請參閱「匯總服務負載測試架構」。