測定テストガイド

このガイドの目的は、プライバシー サンドボックスの Attribution Reporting API のスタンドアロン テストを実行するためのガイダンスを提供することです。詳しくは、セクション 12 をご覧ください。

  • CMA のテスト設計 1 と 2 における対照群とテスト群の結果の測定は、関連性 API のテストガイダンスで説明されています。これらのテストの目的は、Protected Audience と Topics の使用の有効性をテストすることであるためです。詳しくは、セクション 11 をご覧ください。

始める前に

評価目標とテストの設定案

目標 1 - レポート作成における Attribution Reporting API の有効性を判断する

レポートへの影響を測定するための A/A 設定を提案します

  • この提案は、コンバージョン ベースの指標の評価に関する CMA のガイダンスに沿ったものです。詳しくは、セクション 21セクション 12 をご覧ください。
  • モード A/B よりもこの方法が推奨されるのは、Attribution Reporting API(ARA)のテストでは、2 つの異なる測定方法(サードパーティ Cookie + サードパーティ Cookie 以外のデータと ARA + サードパーティ Cookie 以外のデータ)を使用して、同じインプレッション セットのコンバージョンを同時に測定できるためです。
  • A/A テストでは、Attribution Reporting API がコンバージョンの測定に与える影響も分離されます(たとえば、サードパーティ Cookie の欠如によるコンバージョン率の変化を回避できます)。

分析のポイントの候補

  • 統計的に有意な結果が得られるほど大きく、サードパーティ Cookie とプライバシー サンドボックス API の両方を含むトラフィックのセグメントを選択します。理想的には、モード B(サードパーティ Cookie を無効にする)を除くすべてのトラフィックです。
    • サードパーティ Cookie が利用できず、ARA の結果をサードパーティ Cookie ベースのアトリビューションの結果と比較できないため、A/A テストからモード B を除外することをおすすめします。
    • モード B を含める場合は、モード B のトラフィック スライスのデバッグ レポートを有効にすることを検討してください。デバッグ レポートは、設定や実装に関する問題のトラブルシューティングに役立ちます。
  • トラフィックの小さいスライスでテストを実施する場合は、測定結果に予想よりも多くのノイズが含まれることが予想されます。分析では、トラフィックのどの程度の割合が使用されたか、ノイズ処理されたレポートとノイズ処理されていないデバッグ レポートのどちらに基づいて結果を報告しているかを記録することをおすすめします。
    • 概要レポートの場合、概要の値は低くなる可能性が高く、集計サービスは概要の値に関係なく同じ分布からノイズを追加します。
  • そのトラフィックの一部でさまざまな測定方法をテストする
    • コントロール グループ 1 - 現在の測定方法を使用する(サードパーティ Cookie + サードパーティ Cookie 以外のデータ)
    • (省略可)コントロール グループ 2 - プライバシー サンドボックスなし、サードパーティ Cookie なし(つまり、サードパーティ Cookie 以外のデータのみ)
      • 一部のサイトでは、サードパーティ Cookie がまだ利用できる可能性があります。最も正確な結果を得るには、コントロール 2 またはトリートメントの測定方法でこれらのサードパーティ Cookie を使用しないでください。
    • トリートメント - プライバシー サンドボックス API とサードパーティ Cookie 以外のデータ
      • 一部のサイトでは、サードパーティ Cookie がまだ利用できる可能性があります。最も正確な結果を得るには、コントロール 2 またはトリートメントの測定方法でこれらのサードパーティ Cookie を使用しないでください。

指標

  • ビジネスの成果を測定するうえで適切な指標を定義し、その指標の意味と測定方法の説明を含めます。
    • 広告主にとって重要なディメンションと指標に焦点を当てることをおすすめします。たとえば、購入コンバージョンを重視している広告主様の場合は、購入コンバージョン数と購入額を測定します。
  • カウントまたは合計に基づく指標(コンバージョン率など)は、単価(コンバージョン単価など)よりも扱いやすい指標です。A/A 分析では、費用指標はコンバージョン値の数または合計から完全に導き出すことができます。
  • 指標がイベントレベル レポート、概要レポート、または両方のレポートの組み合わせに基づいているかどうか(およびデバッグ レポートが使用されたかどうか)を指定します。
  • 定量的なフィードバックの形式については、推奨されるテンプレートの表をご覧ください。

分析

  • カバレッジ:
    • サードパーティ Cookie と比較して、同様のユーザーセット全体を測定できますか?カバレッジは増えていますか(アプリからウェブへのリンクなど)。
    • 広告主様やご自身が最も重視するコンバージョン(およびディメンションや指標)を測定できますか?
  • 定量的なフィードバック
    • たとえば、広告主様のレポートで、主要なコンバージョンのうち何パーセントをレポートできるか、またはレポートの品質基準を満たすキャンペーンの割合はどのくらいか(品質基準を導き出すことで、コンバージョン数が少ないキャンペーンを調整できます)。
    • たとえば、広告主別に見た場合、レポートでサードパーティ Cookie への依存度が高い広告主と低い広告主はいますか?
  • その他の定性的なフィードバック:
    • ARA は広告主様の測定/アトリビューション設定の複雑さにどのような影響を与えますか?
    • ARA は、広告主様が重要な指標や目標に集中するうえで役立ちますか、それとも妨げになりますか?

影響を報告するための推奨テンプレート テーブル

(レポート)表 1:

CMA にテスト結果を報告するためのテンプレート表の例18 ページから引用。ただし、テスト担当者は、提供するうえで最も有意義で実現可能な指標を検討し、必要に応じて表を調整する必要があります)

介入群と対照群 1
提案された最終状態と現在の状態を比較します。
介入と対照 2
提案された最終状態と PS API がまったくない状態を比較します。
コントロール グループ 2 とコントロール グループ 1
PS API を使用せずに、サードパーティ Cookie を使用した場合と使用しない場合のコンバージョン測定を比較します。
測定方法 トリートメント(サードパーティ Cookie 以外のデータを含む ARA)のコンバージョン測定と、コントロール 1(サードパーティ Cookie とサードパーティ Cookie 以外のデータ)のコンバージョン測定を比較する トリートメント(サードパーティ Cookie 以外のデータを含む ARA)のコンバージョン測定と、コントロール 2(サードパーティ Cookie 以外のデータのみ)のコンバージョン測定を比較する コントロール 2(サードパーティ Cookie 以外のデータのみ)とコントロール 1(サードパーティ Cookie とサードパーティ Cookie 以外のデータ)のコンバージョン測定を比較する
1 ドルあたりのコンバージョン数 効果 効果 効果
標準誤差 標準誤差 標準誤差
95% の信頼区間 95% の信頼区間 95% の信頼区間
合計コンバージョン数 効果 効果 効果
標準誤差 標準誤差 標準誤差
95% の信頼区間 95% の信頼区間 95% の信頼区間
コンバージョン率 効果 効果 効果
標準誤差 標準誤差 標準誤差
95% の信頼区間 95% の信頼区間 95% の信頼区間
(独自の指標を追加)
(レポート)表 2:

トリートメント グループとコントロール グループの指標の記述統計をレポートするためのテンプレート テーブルの例20 ページから引用。ただし、テスト担当者は、提供するうえで最も意味があり、実現可能な指標を検討し、必要に応じてテーブルを調整する必要があります)

指標 処理
ARA と、お客様が使用するサードパーティ Cookie 以外のデータを使用したコンバージョン測定
コントロール 1
サードパーティ Cookie と、使用するサードパーティ Cookie 以外のデータを使用したコンバージョン測定
コントロール 2
サードパーティ Cookie 以外のデータのみを使用したコンバージョン測定
1 ドルあたりのコンバージョン数 平均 平均 平均
標準偏差 標準偏差 標準偏差
25 パーセンタイルと 75 パーセンタイル 25 パーセンタイルと 75 パーセンタイル 25 パーセンタイルと 75 パーセンタイル
合計コンバージョン数 平均 平均 平均
標準偏差 標準偏差 標準偏差
25 パーセンタイルと 75 パーセンタイル 25 パーセンタイルと 75 パーセンタイル 25 パーセンタイルと 75 パーセンタイル
コンバージョン率 平均 平均 平均
標準偏差 標準偏差 標準偏差
25 パーセンタイルと 75 パーセンタイル 25 パーセンタイルと 75 パーセンタイル 25 パーセンタイルと 75 パーセンタイル
(独自の指標を追加)

目標 2 - 入札単価の最適化における Attribution Reporting API の有効性を判断する

入札単価の最適化への影響を測定するための A/B テストの設定をご提案します。

  • 入札の最適化への影響を測定するには、2 つの異なる ML モデルをトレーニングし、トラフィックの 2 つのスライスで使用する必要があります。1 つのモデルは現在の測定方法(サードパーティ Cookie + サードパーティ Cookie 以外のデータ)でトレーニングし、コントロール群に適用します。もう 1 つのモデルは Attribution Reporting API + サードパーティ Cookie 以外のデータでトレーニングし、テスト群に適用します。
  • モデルのトレーニングは、テスト群のトラフィックが小さく、トレーニング対象のユーザーに重複がある場合でも、パフォーマンスを最大化するために必要なトラフィックに基づいて行う必要があります(たとえば、すべてのトラフィックでトレーニングされている既存のサードパーティ Cookie モデルを使用し、目標 1 で有効になっているすべての ARA トラフィックで ARA モデルをトレーニングします)。
    • CMA に結果を提出する場合は、異なるモデルのトレーニングに使用されるトラフィック スライス間に大きな違いがあるかどうか(たとえば、サードパーティ Cookie ベースのモデルがトラフィックの 100% でトレーニングされるのに対し、ARA ベースのモデルはトラフィックの 1% でのみトレーニングされる場合など)をメモします。
  • 可能であれば、トリートメント ビッダーとコントロール ビッダーの両方のトレーニングを同じ期間実施する必要があります。
  • テスト中に継続的に入札モデルをトレーニングして更新する必要があるかどうか、また、その場合は、可能な限り多くのトラフィックでトレーニングするか、介入群と対照群のトラフィックのみでトレーニングするかを検討します。
  • 異なるモデルは、A/B テストとしてトラフィックの重複しないスライスで使用する必要があります。トリートメント群とコントロール群全体でユーザーをランダム化して割り当てるには、Chrome が提供するラベル付きブラウザ グループ(モード A)を使用するか、ブラウザのランダム化されたセットを使用して独自のテストを実施することをおすすめします。モード B は、サードパーティの Cookie がないため、コンバージョン ベースの指標のレポートが困難になるため、使用することをおすすめしません。
    • Chrome を利用したブラウザ グループでは、Enterprise Chrome ユーザーなど一部の Chrome インスタンスが除外されますが、独自のランダム化されたブラウザのセットでは、これらの Chrome インスタンスが除外されない場合があります。そのため、Chrome でグループ化されたグループで取得した指標と、Chrome でグループ化されていないグループで取得した指標を比較しないように、テストはモード A グループのみ、またはモード A/モード B 以外のグループのみで実施する必要があります。
    • Chrome で作成したラベル付きブラウザ グループを使用していない場合(たとえば、他のトラフィックでテストを実施している場合):
      • ユーザーのトリートメントとコントロールの分割がランダムで偏りがないことを確認します。テストグループの設定に関係なく、トリートメント群とコントロール群の特性を評価して、トリートメント グループとコントロール グループが同等であることを確認します。(セクション 15 を参照)
      • 介入群と対照群のユーザー特性とキャンペーン設定が同じであることを確認します(たとえば、介入群と対照群の両方で類似する地域を使用します)。(セクション 28 を参照)
        • 具体的には、同じアトリビューション ウィンドウとアトリビューション ロジックを使用して類似したコンバージョン タイプが測定されていること、キャンペーンで類似したユーザー、インタレスト グループ、地域がターゲットに設定され、類似した広告コピーと広告フォーマットが使用されていることなどを確認します。
      • √ トリートメント グループとコントロール グループの初期の母集団のサイズが、入札とテストに柔軟に対応できるほど十分に大きいこと。
    • Chrome でラベル付きブラウザ グループ(モード A)を使用している場合、Chrome ブラウザ インスタンスのグループへのランダム化は Chrome によって処理されます。以前と同様に、ランダム化によって目的のバイアスなしの比較可能なグループが作成されることを確認することをおすすめします。

分析のポイントの候補

  • 対照群と介入群を定義し、各群の入札単価の最適化に異なる機械学習モデルを使用することをおすすめします。
    • コントロール 1 - 現在の測定方法(サードパーティ Cookie + サードパーティ Cookie 以外のデータ)でトレーニングされた入札単価最適化モデルを使用する
    • (省略可)コントロール グループ 2 - プライバシー サンドボックスとサードパーティ Cookie を使用せずにトレーニングされた入札単価最適化モデルを使用します。つまり、サードパーティ Cookie 以外のデータのみを使用します。
      • 一部のサイトでは、サードパーティ Cookie がまだ利用できる可能性があります。最も正確な結果を得るには、コントロール 2 またはトリートメントの測定にこれらのサードパーティ Cookie を使用しないでください。
    • トリートメント - Attribution Reporting API とサードパーティ Cookie 以外のデータでトレーニングされた入札単価最適化モデルを使用します。
      • 一部のサイトでは、サードパーティ Cookie がまだ利用できる可能性があります。最も正確な結果を得るには、コントロール 2 またはトリートメントの測定にこれらのサードパーティ Cookie を使用しないでください。

指標

  • ビジネスの成果を測定するうえで適切な指標を定義し、その指標の意味と測定方法の説明を含めます。
    • たとえば、有意義な指標として費用(パブリッシャーの収益)が考えられます。これは、サードパーティ Cookie の廃止が「インプレッションあたりの収益」に与える影響を把握するという CMA のガイダンスに沿ったものです。詳しくは、セクション 19 をご覧ください。
  • コンバージョン ベースの指標をレポートする場合は、多変量テスト(1 つのテストで最適化とレポートへの影響をテストする)を避けるため、各テスト群で同じ測定方法を使用する必要があります。定量的なフィードバックの形式については、推奨されるテンプレートの表をご覧ください。
  • 入札単価の最適化の影響に関する指標を収集する他の方法(入札単価のシミュレーションなど)も検討してください。入札モデルに対するサードパーティ Cookie と ARA の影響を把握するうえで役立つシミュレートされた指標はありますか?
  • 指標がイベントレベル レポート、概要レポート、または両方のレポートの組み合わせに基づいているかどうか(およびデバッグ レポートが使用されたかどうか)を指定します。

分析

  • カバレッジ:
    • サードパーティ Cookie と比較して、同様のユーザーセット全体を測定できますか?カバレッジに変化(アプリからウェブへのリンクなど)はありますか?
    • 自分や広告主様が最も重視するコンバージョン(およびディメンション/指標)を測定できますか?
  • グループ間の違いは、次の項目にどのような影響を与えますか?
    • 広告主様のレポート(たとえば、主要なコンバージョンのうちレポートできる割合など)。
    • トレーニングと最適化では、たとえば、さまざまなコンバージョン データがモデルのパフォーマンスに与える影響をシミュレートします。
  • その他の定性的なフィードバック:
    • ARA は広告主様の入札単価最適化設定の複雑さにどのような影響を与えますか?
    • ARA は、広告主様が重要な指標と目標に集中するうえで役立ちますか、それとも妨げになりますか?

入札の影響に関する推奨テンプレート テーブル

(入札)表 1:

市場参加者が CMA に提出する必要があるテスト結果のテンプレート表の例18 ページから引用。ただし、テスト担当者は、提供するうえで最も有意義で実現可能な指標を検討し、必要に応じて表を調整する必要があります)

介入群と対照群 1
提案された最終状態と現在の状態を比較します。
介入と対照 2
提案された最終状態と PS API がまったくない状態を比較します。
コントロール グループ 2 とコントロール グループ 1
プライバシー サンドボックス API を使用せずに、サードパーティ Cookie を使用した場合と使用しない場合で入札単価の最適化を比較します。
測定方法 多変量テストを回避するには、サードパーティ Cookie と非サードパーティ Cookie のデータを使用して、各テストの各テスト群のコンバージョン ベースの指標を測定します。
インプレッションあたりの収益 効果 効果 効果
標準誤差 標準誤差 標準誤差
95% の信頼区間 95% の信頼区間 95% の信頼区間
(独自の指標を追加)
(入札)表 2:

トリートメント グループとコントロール グループの指標の記述統計をレポートするためのテンプレート テーブルの例20 ページから引用。ただし、テスト担当者は、提供するうえで最も意味があり、実現可能な指標を検討し、必要に応じてテーブルを調整する必要があります)

トリートメント
ARA と使用するサードパーティ Cookie 以外のデータを使用した入札単価の最適化
コントロール グループ 1
サードパーティ Cookie と、使用するサードパーティ Cookie 以外のデータを使用した入札単価の最適化
コントロール グループ 2
サードパーティ Cookie 以外のデータのみを使用した入札単価の最適化
測定方法 多変量テストを回避するには、サードパーティ Cookie と非サードパーティ Cookie のデータを使用して、すべてのグループでコンバージョン ベースの指標を測定します。
インプレッションあたりの収益 平均 平均 平均
標準偏差 標準偏差 標準偏差
25 パーセンタイルと 75 パーセンタイル 25 パーセンタイルと 75 パーセンタイル 25 パーセンタイルと 75 パーセンタイル
(独自の指標を追加)

目標 3 - Aggregation Service の負荷テスト

Aggregation Service Load Testing Framework をご覧ください。