測定テストガイド

このガイドでは、プライバシー サンドボックス Attribution Reporting API のスタンドアロン テストを実行する方法について説明します。詳しくは、第 12 条をご覧ください。

  • CMA のテスト設計 1 と 2 での対照群とテスト群の結果の測定については、Relevance API のテストガイダンスで説明しています。これらのテストの目的は、Protected Audience と Topics の使用効果をテストすることであるためです。詳しくは、第 11 条をご覧ください。

始める前に

評価目標と提案されたテスト設定

目標 1 - レポート作成における Attribution Reporting API の有効性を判断する

レポートへの影響を測定するための A/A 設定を提案します

  • この提案は、コンバージョン ベースの指標の評価に関する CMA のガイダンスに沿っています。詳しくは、第 21 条第 12 条をご覧ください。
  • モード A/B よりもこの方法をおすすめする理由は、Attribution Reporting API(ARA)をテストするには、2 つの異なる測定方法(サードパーティ Cookie とサードパーティ Cookie 以外のデータ、ARA とサードパーティ Cookie 以外のデータ)を使用して、同じインプレッション セットのコンバージョンを同時に測定できるためです。
  • A/A テストでは、Attribution Reporting API がコンバージョン測定に与える影響を分離することもできます(たとえば、サードパーティ Cookie がないためコンバージョン率が変化することを回避できます)。

推奨される分析ポイント

  • 統計的に有意な結果が得られる十分な規模で、サードパーティ Cookie とプライバシー サンドボックス API の両方を含むトラフィックのスライスを選択します。理想的には、サードパーティ Cookie が無効になるモード B を除くすべてのトラフィックに適用されます。
    • サードパーティ Cookie を使用できないため、ARA の結果をサードパーティ Cookie ベースのアトリビューションの結果と比較することはできません。そのため、モード B は A/A テストから除外することをおすすめします。
    • モード B を含める場合は、トラフィックのモード B スライスのデバッグ レポートを有効にすることを検討してください。デバッグ レポートは、設定や実装に関する問題のトラブルシューティングに役立ちます。
  • トラフィックの小さい部分でテストする場合、測定結果は想定よりもノイズが多いことが予想されます。分析では、使用されたトラフィックの割合と、ノイズが追加されたレポートとノイズが追加されていないデバッグ レポートのどちらに基づいて結果を報告しているかを記録することをおすすめします。
    • 概要レポートでは概要値が低くなる傾向があり、集計サービスは概要値に関係なく同じ分布からノイズを追加します。
  • そのトラフィックのスライスに対してさまざまな測定方法をテストします。
    • コントロール グループ 1 - 現在の測定手法(サードパーティ Cookie とサードパーティ Cookie 以外のデータ)を使用する
    • (省略可)コントロール グループ 2 - プライバシー サンドボックスとサードパーティ Cookie なし。サードパーティ Cookie 以外のデータのみを使用。
      • 一部のサイトでは、引き続きサードパーティ Cookie が使用されている場合があります。最も正確な結果を得るには、コントロール 2 または治療方法の測定でこれらのサードパーティ Cookie を使用しないでください。
    • トリートメント - プライバシー サンドボックス API とサードパーティ Cookie 以外のデータ
      • 一部のサイトでは、サードパーティ Cookie が引き続き使用されている場合があります。最も正確な結果を得るには、コントロール 2 または治療方法の測定にこれらのサードパーティ Cookie を使用しないでください。

指標

  • ビジネスの成果を測定するために適切な指標を定義し、その指標の意味と測定方法を説明します。
    • 広告主様にとって重要なディメンションと指標に重点を置くことをおすすめします。たとえば、購入コンバージョンを重視している広告主様は、購入コンバージョン数と購入値を測定します。
  • 単価(コンバージョン単価など)ではなく、数値や合計に基づく指標(コンバージョン率など)を使用することをおすすめします。テスト グループ間の比較分析では、費用指標はコンバージョン値のカウントまたは合計から完全に導き出されます。
  • 指標がイベントレベル レポート、概要レポート、または両方のレポートの組み合わせに基づいているかどうか(およびデバッグ レポートが使用されたかどうか)を指定します。
  • 定量的なフィードバックの形式設定方法については、推奨されるテンプレート テーブルをご覧ください。

分析

  • カバレッジ:
    • サードパーティ Cookie と同様に、類似したユーザーセット全体を測定できますか?カバレッジは高くなりますか(アプリからウェブなど)?
    • 貴社または広告主様が最も重視するコンバージョン(およびディメンションや指標)を測定できていますか?
  • 定量的なフィードバック
    • 広告主レポートでは、その広告主について報告できる主要コンバージョンの割合や、レポートの品質基準を満たすキャンペーンの割合などを確認できます(品質基準を導き出すと、コンバージョン数が少ないキャンペーンを調整できます)。
    • たとえば、広告主様ごとに、レポート作成にサードパーティ Cookie に依存している広告主様はどの程度いらっしゃいますか?
  • その他の定性的なフィードバック:
    • ARA は広告主様の測定/アトリビューションの設定の複雑さにどのように影響しますか?
    • ARA は、広告主様が重要な指標と目標に集中するのを助け、または妨げますか?

影響の報告に推奨されるテンプレート テーブル

(報告)表 1:

テスト結果を CMA に報告するためのテンプレート テーブルの例18 ページから抜粋。テスト担当者は、最も有意義で実現可能な指標を検討し、必要に応じて表を調整する必要があります)

介入群と対照群 1
提案された最終状態と現在の状態を比較
介入とコントロール 2
提案された最終状態と、PS API がまったくない最終状態を比較します。
コントロール グループ 2 とコントロール グループ 1
サードパーティ Cookie を使用した場合と使用しない場合のコンバージョン測定を比較します。PS API は使用しません。
測定方法 テスト群(サードパーティ Cookie 以外のデータを含む ARA)のコンバージョン測定結果を、コントロール グループ 1(サードパーティ Cookie とサードパーティ Cookie 以外のデータ)と比較する テスト群(サードパーティ Cookie 以外のデータを含む ARA)とコントロール群 2(サードパーティ Cookie 以外のデータのみ)のコンバージョン測定を比較する コントロール グループ 2(サードパーティ Cookie 以外のデータのみ)のコンバージョン測定結果と、コントロール グループ 1(サードパーティ Cookie とサードパーティ Cookie 以外のデータ)のコンバージョン測定結果を比較する
1 ドルあたりのコンバージョン数 効果 効果 効果
標準誤差 標準誤差 標準誤差
95% の信頼区間 95% の信頼区間 95% の信頼区間
合計コンバージョン数 効果 効果 効果
標準誤差 標準誤差 標準誤差
95% の信頼区間 95% の信頼区間 95% の信頼区間
コンバージョン率 効果 効果 効果
標準誤差 標準誤差 標準誤差
95% の信頼区間 95% の信頼区間 95% の信頼区間
(独自の指標を追加)
(レポート)表 2:

20 ページから引用。ただし、テスターは、最も有意義または実現可能な指標を検討し、必要に応じて表を調整する必要があります)トリートメント グループとコントロール グループの指標の記述統計情報を報告するためのテンプレート テーブルの例。

指標 対応
ARA とサードパーティ Cookie 以外のデータを使用してコンバージョンを測定する
コントロール 1
サードパーティ Cookie と、使用しているサードパーティ Cookie 以外のデータを使用してコンバージョンを測定
コントロール 2
サードパーティ Cookie 以外のデータのみを使用したコンバージョン測定
1 ドルあたりのコンバージョン数 平均 平均 平均
標準偏差 標準偏差 標準偏差
25 パーセンタイルおよび 75 パーセンタイル 25 パーセンタイルおよび 75 パーセンタイル 25 パーセンタイルおよび 75 パーセンタイル
合計コンバージョン数 平均 平均 平均
標準偏差 標準偏差 標準偏差
25 パーセンタイルおよび 75 パーセンタイル 25 パーセンタイルおよび 75 パーセンタイル 25 パーセンタイルおよび 75 パーセンタイル
コンバージョン率 平均 平均 平均
標準偏差 標準偏差 標準偏差
25 パーセンタイルおよび 75 パーセンタイル 25 パーセンタイルおよび 75 パーセンタイル 25 パーセンタイルおよび 75 パーセンタイル
(独自の指標を追加)

目標 2 - 入札の最適化における Attribution Reporting API の有効性を判断する

入札単価の最適化への影響を測定するための A/B テストの設定を提案します。

  • 入札単価の最適化への影響を測定するには、2 つの異なる ML モデルをトレーニングし、2 つのトラフィック スライスに使用する必要があります。1 つは現在の測定方法(サードパーティ Cookie とサードパーティ Cookie 以外のデータ)でトレーニングされたモデルで、コントロール群に適用します。もう 1 つは Attribution Reporting API とサードパーティ Cookie 以外のデータでトレーニングされたモデルで、テスト群に適用します。
  • モデルのトレーニングは、パフォーマンスを最大化するためにテスターが必要と判断するトラフィック量に基づいて行う必要があります。ただし、テスト群がトラフィックの一部で、トレーニング サンプルに重複がある場合でも同様です(たとえば、すべてのトラフィックでトレーニングされている既存のサードパーティ Cookie モデルを使用し、目標 1 で有効になっているすべての ARA トラフィックで ARA モデルをトレーニングします)。
    • CMA に結果を送信する場合は、異なるモデルのトレーニングに使用されるトラフィック スライスの間に大きな違いがあるかどうかを確認します(たとえば、サードパーティ Cookie ベースのモデルがトラフィックの 100% でトレーニングされているが、ARA ベースのモデルがトラフィックの 1% でのみトレーニングされている場合など)。
  • 可能であれば、テスト群とコントロール群の両方の入札モデルのトレーニングは同じ時間に行う必要があります。
  • テスト中に入札モデルを継続的にトレーニングして更新するかどうかを検討します。更新する場合は、できるだけ多くのトラフィックでトレーニングするか、介入群と対照群のトラフィックでのみトレーニングするかを検討します。
  • 異なるモデルは、A/B テストとしてトラフィックの重複しないスライスに使用する必要があります。トリートメント グループとコントロール グループにユーザーをランダムに割り当てるには、Chrome でラベル付けされたブラウザ グループ(モード A)を使用するか、ランダムに選ばれたブラウザセットで独自のテストを行うことをおすすめします。サードパーティ Cookie がないため、コンバージョン ベースの指標のレポート作成が困難になるため、モード B の使用はおすすめしません。
    • Chrome を利用したブラウザ グループでは、Enterprise Chrome ユーザーなど、一部の Chrome インスタンスが除外されます。一方、独自のランダム化されたブラウザ セットでは、これらの Chrome インスタンスが除外されない場合があります。そのため、Chrome を介したグループで得られた指標と Chrome を介さないグループで得られた指標を比較しないように、テストはモード A グループのみ、またはモード A 以外のグループのみで実施する必要があります。
    • Chrome でラベル付けされたブラウザ グループを使用していない場合(他のトラフィックでテストを実施している場合など):
      • ユーザーの治療群とコントロール群の分割がランダムで偏りのない方法で行われていることを確認します。テストグループの設定にかかわらず、トリートメント グループとコントロール グループの特性を評価して、トリートメント グループとコントロール グループが同等であることを確認します。(セクション 15 を参照)。
      • トライアル グループとコントロール グループのユーザー特性とキャンペーン設定が同じであることを確認します(たとえば、トライアル グループとコントロール グループの両方で類似する地域を使用します)。(参照: 第 28 条
        • 具体的には、同じアトリビューション ウィンドウとアトリビューション ロジックを使用して、類似のコンバージョン タイプが測定されていること、キャンペーンで類似のオーディエンス、インタレスト グループ、地域がターゲティングされ、類似の広告コピーと広告フォーマットが使用されていることを確認します。
      • √ トリートメント グループとコントロール グループの初期母集団のサイズが、入札とテストに柔軟に対応できるほど十分に大きいこと。
    • Chrome が提供するラベル付きブラウザ グループ(モード A)を使用する場合、Chrome ブラウザ インスタンスのグループへのランダム化は Chrome によって処理されます。前述のように、ランダム化の結果、目的に沿って偏りのない比較可能なグループが得られることをおすすめします。

推奨される分析ポイント

  • 対照群と介入群を定義し、各群の入札単価の最適化に異なる機械学習モデルを使用することをおすすめします。
    • コントロール 1 - 現在の測定手法(サードパーティ Cookie とサードパーティ Cookie 以外のデータ)でトレーニングされた入札最適化モデルを使用
    • (省略可)コントロール グループ 2 - プライバシー サンドボックスとサードパーティ Cookie なし(サードパーティ Cookie 以外のデータのみ)でトレーニングされた入札最適化モデルを使用。
      • 一部のサイトでは、サードパーティ Cookie が引き続き使用されている場合があります。最も正確な結果を得るには、コントロール 2 または治療方法の測定でこれらのサードパーティ Cookie を使用しないでください。
    • 治療群 - Attribution Reporting API とサードパーティ Cookie 以外のデータでトレーニングされた入札単価最適化モデルを使用。
      • 一部のサイトでは、サードパーティ Cookie が引き続き使用されている場合があります。最も正確な結果を得るには、コントロール 2 または治療方法の測定でこれらのサードパーティ Cookie を使用しないでください。

指標

  • ビジネスの成果を測定するために適切な指標を定義し、その指標の意味と測定方法を説明します。
    • たとえば、有意な指標として費用(パブリッシャー収益)を挙げることができます。これは、サードパーティ Cookie の廃止が「インプレッションあたりの収益」に与える影響を把握するための CMA のガイダンスに沿っています。詳しくは、第 19 条をご覧ください。
  • コンバージョン ベースの指標をレポートする場合は、多変量テスト(1 つのテストで最適化とレポートへの影響をテストする)を避けるため、各テスト群で同じ測定方法を使用する必要があります。定量的なフィードバックの形式設定方法については、推奨されるテンプレート テーブルをご覧ください。
  • 入札単価の最適化の影響に関する指標を収集する他の方法(入札単価のシミュレーションなど)を検討してください。サードパーティ Cookie と ARA が入札モデルに与える影響を把握するのに役立つシミュレートされた指標はありますか?
  • 指標がイベントレベル レポート、概要レポート、または両方のレポートの組み合わせに基づいているかどうか(およびデバッグ レポートが使用されたかどうか)を指定します。

分析

  • カバレッジ:
    • サードパーティ Cookie と同様に、類似したユーザーセット全体を測定できますか?カバレッジに変更はありましたか(アプリからウェブなど)?
    • 貴社または広告主様が最も重視するコンバージョン(およびディメンション/指標)を測定できていますか?
  • グループ間の違いが次にどのように影響するか。
    • 広告主レポート(主要なコンバージョンの何% をレポートできるかなど)。
    • トレーニングと最適化では、さまざまなコンバージョン データがモデルのパフォーマンスに与える影響をシミュレートします。
  • その他の定性的なフィードバック:
    • ARA は、広告主様の入札単価の最適化の設定の複雑さにどのような影響がありますか?
    • ARA は、広告主様が重要な指標と目標に集中するのを助け、または妨げますか?

入札への影響に関する推奨テンプレート テーブル

(入札)表 1:

市場参加者が CMA に提出する必要があるテスト結果のテンプレート テーブルの例18 ページから抜粋。ただし、テスト担当者は、最も有意義または実現可能な指標を検討し、必要に応じて表を調整する必要があります)

介入群と対照群 1
提案された最終状態と現在の状態を比較
介入とコントロール 2
提案された最終状態と、PS API がまったくない最終状態を比較します。
コントロール グループ 2 とコントロール グループ 1
サードパーティ Cookie ありとサードパーティ Cookie なしで、PS API を使用せずに入札の最適化を比較します。
測定方法 多変量テストを回避するには、サードパーティ Cookie とサードパーティ Cookie 以外のデータを使用して、各テストの両方のテスト群でコンバージョン ベースの指標を測定します。
インプレッションあたりの収益 効果 効果 効果
標準誤差 標準誤差 標準誤差
95% の信頼区間 95% の信頼区間 95% の信頼区間
(独自の指標を追加)
(入札)表 2:

20 ページから引用。ただし、テスターは、最も有意義または実現可能な指標を検討し、必要に応じて表を調整する必要があります)トリートメント グループとコントロール グループの指標の記述統計情報を報告するためのテンプレート テーブルの例。

対応
ARA と、使用しているサードパーティ Cookie 以外のデータを使用して入札単価を最適化する
コントロール グループ 1
サードパーティ Cookie と、使用しているサードパーティ Cookie 以外のデータを使用して入札単価を最適化する
コントロール グループ 2
サードパーティ Cookie 以外のデータのみを使用した入札単価の最適化
測定方法 多変量テストを回避するには、サードパーティ Cookie とサードパーティ以外の Cookie のデータを使用して、すべてのパターンでコンバージョンベースの指標を測定します。
インプレッションあたりの収益 平均 平均 平均
標準偏差 標準偏差 標準偏差
25 パーセンタイルおよび 75 パーセンタイル 25 パーセンタイルおよび 75 パーセンタイル 25 パーセンタイルおよび 75 パーセンタイル
(独自の指標を追加)

目標 3 - Aggregation Service の負荷テスト

Aggregation Service の負荷テスト フレームワークをご覧ください。