요약 보고서의 노이즈 이해하기

노이즈의 의미, 노이즈가 추가되는 위치, 노이즈가 측정 노력에 미치는 영향을 알아보세요.

요약 보고서는 집계 가능한 보고서를 집계한 결과입니다. 수집기가 집계 가능한 보고서를 일괄 처리하고 집계 서비스가 이를 처리하면 결과 요약 보고서에 무작위 데이터 양인 노이즈가 추가됩니다. 사용자 개인 정보를 보호하기 위해 노이즈가 추가됩니다. 이 메커니즘의 목표는 개인 정보 차등 보호 측정을 지원할 수 있는 프레임워크를 보유하는 것입니다.

최종 요약 보고서에 노이즈가 추가됩니다.
최종 요약 보고서에 노이즈가 추가됩니다.

요약 보고서의 노이즈 소개

오늘날 광고 측정에는 일반적으로 노이즈 추가가 포함되지 않지만, 추가된 노이즈가 결과 해석에 미치는 영향은 크지 않은 경우가 많습니다.

다음과 같이 생각해 보면 도움이 될 수 있습니다. 특정 데이터가 노이즈가 아닌 경우 해당 데이터를 기반으로 결정을 내릴 수 있나요?

예를 들어 캠페인 A의 전환수가 15이고 캠페인 B의 전환수가 16이라는 사실을 바탕으로 광고주가 캠페인 전략이나 예산을 변경할 수 있을까요?

답이 '아니요'인 경우 소음은 관련이 없습니다.

다음과 같은 방식으로 API 사용량을 구성해야 합니다.

  1. 질문에 대한 답은 '예'입니다.
  2. 노이즈는 특정 데이터를 기반으로 결정을 내리는 기능에 큰 영향을 미치지 않는 방식으로 관리됩니다. 예상되는 최소 전환수에 대해 수집된 측정항목의 노이즈를 특정 비율 미만으로 유지하는 것이 좋습니다.

이 섹션과 다음 섹션에서는 2를 달성하기 위한 전략을 간략하게 설명합니다.

핵심 개념

집계 서비스는 요약 보고서가 요청될 때마다 각 요약 값(즉, 키당 한 번)에 노이즈를 한 번 추가합니다.

이러한 노이즈 값은 다음과 같이 특정 확률 분포에서 무작위로 추출됩니다.

소음에 영향을 미치는 모든 요소는 두 가지 기본 개념에 의존합니다.

  1. 요약 값(낮음 또는 높음)과 관계없이 노이즈 분포(아래 세부정보)는 동일합니다. 따라서 요약 값이 클수록 이 값에 비해 노이즈가 미치는 영향이 적을 가능성이 높습니다.

    예를 들어 총 집계 구매 가치가 20,000달러와 200달러인 경우 모두 동일한 분포에서 선택된 노이즈가 적용된다고 가정해 보겠습니다.

    이 분포의 노이즈는 대략 -100~+100 사이에서 변한다고 가정해 보겠습니다.

    • 요약 구매 금액이 20,000달러인 경우 노이즈는 0~100/20,000=0.5% 사이에서 변동됩니다.
    • 요약 구매 금액이 200달러인 경우 노이즈는 0~100/200=50% 사이에서 변동합니다.

    따라서 노이즈는 $200 값보다 $20,000 집계 구매 값에 미치는 영향이 적을 가능성이 높습니다. 상대적으로 20,000달러가 노이즈가 적을 가능성이 높습니다. 즉, 신호 대 노이즈 비율이 높을 가능성이 높습니다.

    집계된 값이 높을수록 노이즈의 영향이 상대적으로 낮습니다.
    집계된 값이 높을수록 노이즈의 영향이 상대적으로 낮습니다.

    여기에는 다음 섹션에 설명된 몇 가지 중요한 실제적 의미가 있습니다. 이 메커니즘은 API 설계의 일부이며 실제 영향은 장기적입니다. 광고 기술이 다양한 집계 전략을 설계하고 평가할 때 계속해서 중요한 역할을 할 것입니다.

  2. 요약 값과 관계없이 동일한 분포에서 노이즈가 추출되지만 이 분포는 여러 매개변수에 따라 달라집니다. 이러한 매개변수 중 하나인 epsilon은 종료된 오리진 트라이얼 중에 광고 기술에 의해 변경되어 다양한 유틸리티/개인 정보 보호 조정이 평가될 수 있습니다. 하지만 입실론을 조정하는 기능은 임시로 간주하세요. 사용 사례와 잘 작동하는 입실론 값에 관한 의견을 보내주시기 바랍니다.

광고 기술 회사는 노이즈가 추가되는 방식을 직접 제어하지는 않지만 측정 데이터에 대한 노이즈의 영향을 줄일 수는 있습니다. 다음 섹션에서는 실제로 노이즈에 영향을 미치는 방법을 자세히 살펴보겠습니다.

그 전에 노이즈가 적용되는 방식을 자세히 살펴보겠습니다.

확대: 노이즈가 적용되는 방식

하나의 노이즈 분포

노이즈는 다음 매개변수를 사용하여 라플라스 분포에서 추출됩니다.

  • 평균 (μ)이 0입니다. 이는 가장 가능성이 높은 노이즈 값이 0 (노이즈가 추가되지 않음)이며 노이즈 값이 원본보다 작을 가능성이 클 가능성과 같다는 것을 의미합니다 (이를 편향되지 않음이라고도 함).
  • b = CONTRIBUTION_BUDGET / epsilon규모 매개변수
    • CONTRIBUTION_BUDGET은 브라우저에 정의되어 있습니다.
    • epsilon는 집계 서비스에서 사용됩니다.

다음 다이어그램은 μ=0, b = 20인 라플라스 분포의 확률 밀도 함수를 보여줍니다.

μ=0, b = 20인 라플라스 분포의 확률 밀도 함수
μ=0, b = 20인 라플라스 분포의 확률 밀도 함수

무작위 노이즈 값, 하나의 노이즈 분포

광고 기술이 두 개의 집계 키(key1 및 key2)에 대한 요약 보고서를 요청한다고 가정해 보겠습니다.

집계 서비스는 동일한 노이즈 분포에 따라 두 개의 노이즈 값 x1과 x2를 선택합니다. x1은 key1의 요약 값에 추가되고 x2는 key2의 요약 값에 추가됩니다.

다이어그램에서 노이즈 값은 동일한 것으로 표시됩니다. 이는 단순화된 것입니다. 실제로는 분포에서 무작위로 추출되므로 노이즈 값이 달라집니다.

이는 노이즈 값이 모두 동일한 분포에서 가져오며 적용되는 요약 값과 독립적임을 보여줍니다.

소음의 기타 속성

노이즈는 빈 값 (0)을 포함한 모든 요약 값에 적용됩니다.

빈 요약 값에도 노이즈가 적용됩니다.
빈 요약 값에도 노이즈가 적용됩니다.

예를 들어 특정 키의 실제 요약 값이 0인 경우에도 이 키의 요약 보고서에 표시되는 노이즈가 추가된 요약 값은 0이 아닐 가능성이 높습니다.

노이즈는 양수 또는 음수일 수 있습니다.

긍정적 노이즈와 부정적 노이즈의 예
긍정적 노이즈와 부정적 노이즈의 예.

예를 들어 노이즈가 적용되기 전 구매 금액이 327,000인 경우 노이즈는 +6,000 또는 -6,000일 수 있습니다 (임의의 예시 값임).

노이즈 평가

노이즈의 표준 편차 계산

노이즈의 표준 편차는 다음과 같습니다.

b*sqrt(2) = (CONTRIBUTION_BUDGET / epsilon)*sqrt(2)

ε = 10인 경우 노이즈의 표준 편차는 다음과 같습니다.

b*sqrt(2) = (CONTRIBUTION_BUDGET / epsilon)*sqrt(2) = (65,536/10)*sqrt(2) = 9,267

측정 차이가 유의미한 경우 평가

집계 서비스에서 각 값에 추가된 노이즈의 표준 편차를 알 수 있으므로 비교를 위한 적절한 기준점을 정하여 관찰된 차이가 노이즈로 인한 것인지 확인할 수 있습니다.

예를 들어 값에 추가된 노이즈가 약 +/- 10 (확장 고려)이고 두 캠페인 간 값의 차이가 100을 초과하는 경우 각 캠페인 간에 측정된 값의 차이가 노이즈로만 인한 것이 아닐 가능성이 높습니다.

참여 및 의견 공유

이 API에 참여하고 실험할 수 있습니다.

다음 단계