評估測試指南

本指南旨在提供指引,說明如何執行 Privacy Sandbox Attribution Reporting API 的獨立測試。詳情請參閱第 12 節

  • 相關性 API 測試指南會說明如何評估 CMA 實驗設計 1 和 2 的控制組和實驗組結果,因為這些實驗的目標是測試使用 Protected Audience 和 Topics 的效能。詳情請參閱「第 11 節」。

事前準備

評估目標和建議的實驗設定

目標 1:判斷 Attribution Reporting API 是否適合用於報表

我們建議您採用 A/A 設定,以便評估報表的影響

  • 這項提案符合評估以轉換為基礎的指標的 CMA 指南。詳情請參閱「第 21 節」和「第 12 節」。
  • 我們偏好這個方法,而非 模式 A/B,因為測試 Attribution Reporting API (ARA) 時,可以使用兩種不同的評估方法 (第三方 Cookie + 非第三方 Cookie 資料和 ARA + 非第三方 Cookie 資料),同時評估同一組曝光的轉換。
  • A/A 實驗也會將 Attribution Reporting API 對轉換評估的影響區隔開來 (例如,避免因缺少第三方 Cookie 而導致轉換率出現變化)。

建議的分析重點

  • 請選取足以取得統計顯著性結果,且含有第三方 Cookie 和 Privacy Sandbox API 的流量區隔。理想情況下,除了模式 B (停用第三方 Cookie) 以外,所有流量都應納入其中。
    • 建議您在 A/A 實驗中排除模式 B,因為第三方 Cookie 無法使用,您也無法將 ARA 結果與第三方 Cookie 的歸因結果進行比較。
    • 如果您想納入模式 B,建議您為模式 B 的流量片段啟用偵錯報表。偵錯報表可協助您排解任何設定或導入問題。
  • 如果您打算在較小流量區間進行測試,則測量結果可能會比預期更不穩定。建議您在分析中記下所使用的流量比例,以及您是根據雜訊報表還是未雜訊偵錯報表回報結果。
    • 就摘要報表而言,摘要值可能會較低,而匯總服務會根據相同的發布方式加入雜訊,無論摘要值為何。
  • 針對該流量區塊測試不同的評估方法
    • 控制組 1 - 使用目前的評估方法 (第三方 Cookie + 非第三方 Cookie 資料)
    • (選用) 控制組 2:沒有 Privacy Sandbox 和第三方 Cookie,也就是只有非第三方 Cookie 資料
      • 請注意,部分網站仍可能使用第三方 Cookie。為獲得最準確的結果,請勿在控制組 2 或實驗方法中使用這些第三方 Cookie 進行評估
    • 實驗組 - Privacy Sandbox API 和非第三方 Cookie 資料
      • 請注意,部分網站仍可能使用第三方 Cookie。為獲得最準確的結果,請勿在控制組 2 或實驗方法中使用這些第三方 Cookie 進行評估

指標

  • 定義貴商家用來評估成效的指標,並說明指標的含義和評估方式。
    • 建議您著重於廣告客戶重視的維度和指標。舉例來說,如果廣告客戶著重於購物轉換,請評估這類轉換次數和購物價值。
  • 相較於「單次」指標 (例如單次轉換出價),以計數或加總為基礎的指標 (例如轉換率) 更適合用於這項功能。在 A/A 分析中,費用指標可以完全從計數或總和轉換價值衍生而來。
  • 指定指標是根據事件層級報表、摘要報表,還是兩者皆是根據這兩種報表 (以及是否使用偵錯報表)。
  • 請參閱建議的範本表格,瞭解如何設定定量意見的格式。

分析

  • 涵蓋率:
    • 您是否可以針對與第三方 Cookie 類似的使用者群組進行評估?您是否看到更高的涵蓋率 (例如透過應用程式到網頁)?
    • 您或廣告客戶最重視的轉換 (以及維度或指標) 是否已納入評估範圍?
  • 量化意見回饋
    • 舉例來說,廣告主報表可記錄多少百分比的重要轉換,或是有多少百分比的廣告活動符合報表品質標準 (衍生品質標準有助於調整轉換次數較少的廣告活動)
    • 例如,依廣告主劃分,是否有部分廣告主目前依賴第三方 Cookie 來製作報表?
  • 其他質性意見回饋:
    • ARA 對廣告主的成效評估/歸因設定有何影響?
    • ARA 是否有助於廣告主專注於重視的指標和目標?

報表影響力時建議使用的範本表格

(報表) 表格 1:

向 CMA 回報實驗結果的範本表格示例(摘自第 18 頁,但測試人員應考量提供哪些指標最有意義 / 可行,並視需要調整表格)

實驗組與控制組 1
比較建議的結束狀態與目前狀態
實驗組與對照組 2
比較建議的最終狀態,以及完全沒有 PS API 的狀態。
控制組 2 與控制組 1
比較有無第三方 Cookie 的轉換評估,不使用任何 PS API。
評估方法 比較實驗組 (使用非第三方 Cookie 資料的 ARA) 和控制組 1 (使用第三方 Cookie 和非第三方 Cookie 資料) 的轉換評估 比較實驗組 (使用非第三方 Cookie 資料的 ARA) 和控制組 2 (僅使用非第三方 Cookie 資料) 的轉換評估 比較控制組 2 (僅限非第三方 Cookie 資料) 和控制組 1 (第三方 Cookie 和非第三方 Cookie 資料) 的轉換評估結果
轉換次數/美元 效果 效果 效果
標準誤差 標準誤差 標準誤差
95% 信賴區間 95% 信賴區間 95% 信賴區間
轉換總數 效果 效果 效果
標準誤差 標準誤差 標準誤差
95% 信賴區間 95% 信賴區間 95% 信賴區間
轉換率 效果 效果 效果
標準誤差 標準誤差 標準誤差
95% 信賴區間 95% 信賴區間 95% 信賴區間
(新增您自己的指標)
(報表) 表格 2:

範例模板表格,用於回報實驗組和控制組的指標描述性統計資料(摘自 第 20 頁,但測試人員應考量提供哪些指標最有意義 / 可行,並視需要調整表格)

指標 處置
使用 ARA 和您使用的任何非第三方 Cookie 資料評估轉換
控制組 1
使用第三方 Cookie 和您使用的任何非第三方 Cookie 資料評估轉換
對照組 2
僅使用非第三方 Cookie 資料評估轉換
轉換次數/美元 平均值 平均值 平均值
標準差 標準差 標準差
第 25 和第 75 個百分位數 第 25 和第 75 個百分位數 第 25 和第 75 個百分位數
轉換總數 平均值 平均值 平均值
標準差 標準差 標準差
第 25 和第 75 個百分位數 第 25 和第 75 個百分位數 第 25 和第 75 個百分位數
轉換率 平均值 平均值 平均值
標準差 標準差 標準差
第 25 和第 75 個百分位數 第 25 和第 75 個百分位數 第 25 和第 75 個百分位數
(新增您自己的指標)

目標 2:判斷 Attribution Reporting API 是否適用於出價最佳化

我們建議採用 A/B 設定,以評估出價最佳化功能的影響。

  • 如要評估對出價最佳化成效的影響,您需要訓練兩種不同的機器學習模型,並將這些模型套用至兩個流量區隔:一種模型採用目前的評估方法 (第三方 Cookie + 非第三方 Cookie 資料) 訓練,用於控制組;另一種模型則採用 Attribution Reporting API + 非第三方 Cookie 資料訓練,用於實驗組。
  • 模型訓練應以測試人員認為必要的流量為基礎,以便盡可能提高成效,即使實驗組的流量較小,且訓練群組之間存在重疊 (例如,使用針對所有流量訓練的現有第三方 Cookie 模型,並針對啟用目標 1 的所有 ARA 流量訓練 ARA 模型)。
    • 如果您要將結果提交給 CMA,請注意訓練不同模型時所使用的流量區隔是否有顯著差異 (例如,如果第三方 Cookie 模型是使用 100% 的流量進行訓練,但 ARA 模型只使用 1% 的流量進行訓練)。
  • 如有可能,請同時訓練實驗組和控制組出價模型,且訓練時間相同。
  • 請考慮是否要在實驗期間持續訓練及更新出價模型,如果要這麼做,請考慮是否要訓練盡可能多的流量,或是只訓練實驗組和控制組的流量。
  • 您應將不同的模型用於流量不相交的區塊,以進行 A/B 實驗。如要針對實驗組和控制組進行使用者隨機分配,建議您使用 Chrome 提供的標記瀏覽器群組 (模式 A),或是使用隨機分配的瀏覽器組進行實驗。我們不建議使用模式 B,因為缺少第三方 Cookie 會導致無法回報以轉換為準的指標。
    • Chrome 協助建立的瀏覽器群組會排除部分 Chrome 例項,例如 Chrome Enterprise 使用者,而您自行隨機產生的瀏覽器組合可能不會排除這些 Chrome 例項。因此,您應只在模式 A 群組或非模式 A/模式 B 群組中執行實驗,以免將 Chrome 輔助群組和非 Chrome 輔助群組的指標進行比較。
    • 如果您未使用 Chrome 提供的標記瀏覽器群組 (例如在其他流量上執行實驗):
      • 確認實驗組和控制組使用者的分配方式是否隨機且公正。無論實驗組設定為何,請評估實驗組和控制組的特性,確認實驗組和控制組可相互比較。(請參閱「第 15 節」)。
      • 請確認實驗組和控制組的使用者特徵和廣告活動設定相同 (例如,實驗組和控制組使用類似的地理區域)。(請參閱「第 28 節」)
        • 具體範例包括:確認類似的轉換類型使用相同的歸因時間窗和歸因邏輯進行評估,廣告活動指定類似的目標對象、興趣相似目標對象和地理區域,以及使用類似的廣告文案和廣告格式。
      • √ 實驗組和控制組的初始樣本群組規模足夠大,可靈活進行出價和實驗。
    • 如果使用 Chrome 提供的標記瀏覽器群組 (模式 A),Chrome 會負責將 Chrome 瀏覽器例項隨機分配至群組。建議您如同先前一樣,檢查隨機化結果是否能為您提供不偏頗 / 可比較的群組。

建議的分析重點

  • 建議您定義控制組和實驗組,並使用不同的機器學習模型,為各組進行出價最佳化:
    • 對照組 1:使用以目前評估方法訓練的出價最佳化模型 (第三方 Cookie + 非第三方 Cookie 資料)
    • (選用) 控制組 2:使用在沒有 Privacy Sandbox 和第三方 Cookie 的情況下訓練的出價最佳化模型,也就是只使用非第三方 Cookie 資料
      • 請注意,部分網站可能仍會使用第三方 Cookie。為獲得最準確的結果,請勿在控制組 2 或實驗組方法中使用這些第三方 Cookie 進行評估。
    • 處理方式:使用以 Attribution Reporting API 和非第三方 Cookie 資料訓練的出價最佳化模型
      • 請注意,部分網站可能仍會使用第三方 Cookie。為獲得最準確的結果,請勿在控制組 2 或實驗組方法中使用這些第三方 Cookie 進行評估。

指標

  • 定義貴商家用來評估成效的指標,並說明指標的含義和評估方式。
    • 舉例來說,支出 (發布商收益) 可能就是有意義的指標,這與 CMA 的指導方針一致,可瞭解淘汰第三方 Cookie 對「每曝光次收益」的影響。詳情請參閱第 19 節
  • 如果要回報任何以轉換為準的指標,請為每個組別使用相同的評估方法,以免進行多變量測試 (在單一實驗中測試最佳化和回報的影響)。請參閱建議的範本表格,瞭解如何設定定量意見的格式。
  • 您可以考慮使用其他方式收集出價最佳化成效的指標,例如使用模擬出價。是否有任何模擬指標可用於瞭解第三方 Cookie 和 ARA 對出價模型的影響?
  • 指定指標是根據事件層級報表、摘要報表,還是兩者皆是根據這兩種報表 (以及是否使用偵錯報表)。

分析

  • 涵蓋率:
    • 您是否可以針對與第三方 Cookie 類似的使用者群組進行評估?您是否發現涵蓋率有任何變化 (例如 app-to-web)?
    • 您或廣告客戶最重視的轉換 (以及維度/指標) 是否能進行評估?
  • 群組之間的差異會如何影響下列項目:
    • 廣告客戶報表,例如:您能記錄多少百分比的重要轉換。
    • 舉例來說,訓練和最佳化功能會模擬不同轉換資料對模型效能造成的影響。
  • 其他質性意見回饋:
    • ARA 對廣告客戶出價最佳化設定的複雜度有何影響?
    • ARA 是否有助於廣告主專注於重要的指標和目標?

建議的出價影響範本表格

(出價) 表格 1:

市場參與者應提交給 CMA 的實驗結果範例表格(摘自第 18 頁,但測試人員應考量提供哪些指標最有意義 / 可行,並視需要調整表格)

實驗組與控制組 1
比較建議的結束狀態與目前狀態
實驗組與對照組 2
比較建議的最終狀態,以及完全沒有 PS API 的狀態。
控制組 2 與控制組 1
比較出價最佳化功能在有無第三方 Cookie 的情況下,與未使用任何 PS API 的情況。
評估方法 為避免多變量測試,請使用第三方 Cookie 和非第三方 Cookie 資料,為每個實驗的兩個實驗組評估以轉換為依據的指標。
每曝光收益 效果 效果 效果
標準誤差 標準誤差 標準誤差
95% 信賴區間 95% 信賴區間 95% 信賴區間
(新增您自己的指標)
(出價) 表格 2:

範例模板表格,用於回報實驗組和控制組的指標描述性統計資料(摘自 第 20 頁,但測試人員應考量提供哪些指標最有意義 / 可行,並視需要調整表格)

處理方式
使用 ARA 和您使用的任何非第三方 Cookie 資料進行出價最佳化
控制組 1
使用第三方 Cookie 和您使用的任何非第三方 Cookie 資料進行出價最佳化
控制組 2
僅使用非第三方 Cookie 資料進行出價最佳化
評估方法 為了避免多變量測試,請使用第三方 Cookie 和非第三方 Cookie 資料,針對所有測試組評估以轉換為準的指標。
每曝光收益 平均值 平均值 平均值
標準差 標準差 標準差
第 25 和 75 個百分位數 第 25 和 75 個百分位數 第 25 和 75 個百分位數
(新增您自己的指標)

目標 3:對匯總服務進行負載測試

請參閱匯總服務負載測試架構