ノイズの取り扱い

集計可能レポートでノイズを処理し、ノイズの影響を考慮して軽減する方法について説明します。

始める前に

続行する前に、ノイズとは何か、その影響について詳しくは、概要レポートのノイズについて理解するをご覧ください。

ノイズ コントロール

集計可能レポートに追加されるノイズを直接制御することはできませんが、その影響を最小限に抑えるための対策を講じることはできます。以降のセクションでは、これらの戦略について説明します。

貢献度予算までスケールアップ

ノイズの概要で説明したように、各キーの概要の値に適用されるノイズは、0 ~ 65,536 のスケール(0 ~CONTRIBUTION_BUDGET)に基づいています。

ノイズ分布は予算に基づいています。
ノイズ分布は予算に基づいています。

そのため、ノイズに対するシグナルを最大化するには、集計可能な値として設定する前に各値をスケールアップする必要があります。つまり、各値を特定の係数(スケーリング係数)で乗算し、貢献予算内に収まることを確認します。

スケーリングありとなしの相対ノイズ。
スケーリングありとなしの相対ノイズ。

スケーリング ファクタの計算

スケーリング ファクタは、特定の集計可能な値をどの程度スケーリングするかを表します。この値は、特定のキーの最大集計可能値を貢献予算で割った値にする必要があります。

貢献予算に基づいてスケーリング ファクタを決定する。
貢献度予算に基づいてスケーリング ファクタを決定します。

たとえば、広告主様が購入額の合計を知りたいとします。個々の購入の最大予想購入額は $2,000 であることがわかっています。ただし、無視することにしたいくつかの外れ値を除きます。

  • スケーリング ファクタを計算する:
    • 信号対雑音比を最大化するには、この値を 65,536(貢献予算)にスケーリングする必要があります。
    • これにより、スケーリング係数は 65,536 / 2,000 で、約 32x になります。実際には、この係数を切り上げたり切り下げたりすることがあります。
  • 集計前に値をスケールアップします。購入額が $1 増えるごとに、トラッキング対象の指標を 32 ずつ増やします。たとえば、$120 の購入の場合、集計可能な値を 120*32 = 3,840 に設定します。
  • 集計後に値をスケールダウンする。複数のユーザーの購入額の合計を含む概要レポートを受け取ったら、集計前に使用したスケーリング係数を使用して概要値をスケールダウンします。この例では、集計前のスケーリング係数として 32 を使用しているため、概要レポートで受け取った概要値を 32 で割る必要があります。したがって、概要レポートの特定のキーの概要の購入額が 76,800 の場合、概要の購入額(ノイズあり)は 76,800/32 = $2,400 になります。

予算を分割する

測定目標が複数ある場合(購入数と購入額など)、これらの目標に予算を割り振ることをおすすめします。

この場合、スケーリング係数は、特定の集計可能な値の想定される最大値に応じて、集計可能な値ごとに異なります。

詳しくは、集計キーについてをご覧ください。

たとえば、購入数と購入額の両方をトラッキングしていて、予算を均等に割り当てることにしたとします。

測定の種類とソースごとに 65,536 / 2 = 32,768 を割り当てることができます。

  • 購入数:
    • トラッキングしている購入は 1 回のみであるため、特定のコンバージョンの購入の最大数は 1 です。
    • したがって、購入数の倍率を 32,768 / 1 = 32,768 に設定することにします。
  • 購入額:
    • たとえば、個々の購入の最大見込み購入額が $2,000 であるとします。
    • したがって、購入額の倍率を 32,768 / 2,000 = 16.384、つまり約 16 に設定することにします。

粗い集計キーで信号対雑音比を改善

粗いキーは粒度の細かいキーよりも多くのコンバージョン イベントをキャッチするため、一般的に粗いキーのほうが合計値が高くなります。

概要の値が高いほど、ノイズの影響は小さくなります。この値に対するノイズは小さくなる傾向があります。

粗いキーで収集された値は、より細かいキーで収集された値よりもノイズが少ない傾向があります。

他の条件が同じであれば、購入額をグローバルに(すべての国で合計して)トラッキングするキーは、国レベルでコンバージョンをトラッキングするキーよりも、購入額の合計(およびコンバージョン数の合計)が高くなります。

したがって、特定の国の合計購入額の相対ノイズは、すべての国の合計購入額の相対ノイズよりも大きくなります。

同様に、他の条件がすべて同じ場合、靴の合計購入額は、すべての商品(靴を含む)の合計購入額よりも低くなります。

したがって、靴の合計購入額の相対ノイズは、すべてのアイテムの合計購入額の相対ノイズよりも大きくなります。

粒度の細かいキーと粗いキーによるノイズの影響。
粒度の細かいキーと粗いキーによるノイズの影響。

概要値の合計(ロールアップ)では、ノイズも合計される

概要レポートの概要値を合計して上位レベルのデータにアクセスすると、これらの概要値のノイズも合計されます。

ロールアップありの粒度の細かいキーとロールアップなしの粒度の粗いキーのノイズの程度。
ロールアップありの粒度の細かいキーと、ロールアップなしの粒度の粗いキーのノイズの程度。

2 つのアプローチを見てみましょう。

  • アプローチ A: キーに地域 ID を含めます。概要レポートには、地域 ID レベルのキーが表示されます。各キーは、特定の地域 ID レベルの購入額の合計に関連付けられています。
  • アプローチ B: 鍵に地域 ID を含めません。概要レポートには、すべての地域 ID / 地域の購入額の概要が直接表示されます。

国別の購入額にアクセスするには:

  • アプローチ A では、地域 ID レベルの要約値を合計するため、ノイズも合計されます。これにより、最終的な地域 ID レベルの購入額にノイズが追加される可能性が高くなります。
  • アプローチ B では、要約レポートで公開されたデータを直接確認します。ノイズがそのデータに 1 回だけ追加されている。

したがって、特定の地域 ID の購入額の概要値は、アプローチ A の方がノイズが多くなる可能性があります。

同様に、キーに郵便番号レベルのディメンションを含めると、地域レベルのディメンションを含む粗いキーを使用するよりもノイズの多い結果になる可能性があります。

集計期間を長くすると、シグナル対ノイズ比が向上する

サマリー レポートのリクエスト頻度を減らすと、各サマリー値はリクエスト頻度を増やした場合よりも高くなる可能性があります。これは、長い期間でコンバージョンが発生する可能性が高くなるためです。

前述したように、概要の値が高いほど、相対的なノイズは小さくなる傾向があります。したがって、要約レポートのリクエスト頻度を減らすと、信号雑音比が向上します。

サマリー レポートのリクエスト頻度を減らすと、SN 比が高くなります。
概要レポートのリクエスト頻度を減らすと、SN 比が高くなります。

次に例を示します。

  • 24 時間にわたって 1 時間ごとの概要レポートをリクエストし、各 1 時間ごとのレポートの概要値を合計して日単位のデータにアクセスする場合、ノイズは 24 回追加されます。
  • 1 つの日次概要レポートでノイズが付加されるのは 1 回のみです。

イプシロンが大きいほどノイズが小さくなる

イプシロン値が大きいほど、ノイズは小さくなり、プライバシー保護は弱くなります。

フィルタリングと重複除去の活用

さまざまなキー間で予算を割り当てるうえで重要なのは、特定のイベントが何回発生するかを把握することです。たとえば、広告主様はクリック 1 回あたりの購入 1 回のみを重視しているが、「商品ページ閲覧」コンバージョンは 3 回まで重視している、といった場合です。これらのユースケースをサポートするために、生成されるレポートの数とカウントされるコンバージョンを制御できる次の API 機能を使用することもできます。

イプシロンをテストする

広告テクノロジー企業は、イプシロンを 0 より大きく 64 以下の値に設定できます。この範囲では、柔軟なテストが可能です。イプシロンの値が小さいほど、プライバシー保護が強化されます。epsilon=10 から始めることをおすすめします。

テストに関する推奨事項

次のようにすることをおすすめします。

  • epsilon = 10 から始めます。
  • これによりユーティリティに大きな問題が発生する場合は、イプシロンを段階的に増やします。
  • データのユーザビリティに関して見つかった特定の変曲点について、フィードバックを共有します。

意見交換とフィードバックの提供

この API に関するディスカッションとテスト

次のステップ