측정 테스트 가이드

이 가이드의 목표는 개인 정보 보호 샌드박스 Attribution Reporting API의 독립형 테스트를 실행하는 방법을 안내하는 것입니다. 자세한 내용은 섹션 12를 참고하세요.

  • 이러한 실험의 목표는 Protected Audience 및 Topics 사용의 효과를 테스트하는 것이므로 CMA의 실험 설계 1과 2에서 관리 및 처리 그룹 결과의 측정은 관련성 API 테스트 안내에 설명되어 있습니다. 자세한 내용은 섹션 11을 참고하세요.

시작하기 전에

평가 목표 및 제안된 실험 설정

목표 1 - 보고를 위한 Attribution Reporting API의 효과 결정

보고에 미치는 영향을 측정하기 위해 A/A 설정을 제안합니다.

  • 이 제안은 전환 기반 측정항목 평가에 관한 CMA 지침과 일치합니다. 자세한 내용은 섹션 21섹션 12를 참고하세요.
  • Attribution Reporting API (ARA) 테스트는 두 가지 다른 측정 방법 (서드 파티 쿠키 + 비서드 파티 쿠키 데이터 및 ARA + 비서드 파티 쿠키 데이터)을 사용하여 동일한 노출 세트에서 전환을 동시에 측정하여 수행할 수 있으므로 모드 A/B보다 이 방법을 선호합니다.
  • A/A 실험은 전환 측정에 대한 Attribution Reporting API의 영향을 격리하기도 합니다 (예: 서드 파티 쿠키 부족으로 인한 전환율 변경 방지).

추천 분석 포인트

  • 통계적으로 유의미한 결과를 얻을 수 있을 만큼 크고 서드 파티 쿠키와 개인 정보 보호 샌드박스 API가 모두 있는 트래픽을 선택합니다. 이상적으로는 서드 파티 쿠키를 사용 중지하는 모드 B를 제외한 모든 트래픽입니다.
    • 서드 파티 쿠키를 사용할 수 없으며 ARA 결과를 서드 파티 쿠키 기반 기여 분석 결과와 비교할 수 없으므로 A/A 실험에서 모드 B를 제외하는 것이 좋습니다.
    • 모드 B를 포함하려면 모드 B 트래픽 슬라이스의 디버그 보고서를 사용 설정하는 것이 좋습니다. 디버그 보고서는 구성 또는 구현 문제를 해결하는 데 도움이 됩니다.
  • 더 적은 트래픽으로 테스트할 계획이라면 예상보다 더 많은 노이즈가 포함된 측정 결과를 받게 될 것입니다. 분석에서 사용된 트래픽의 비율과 노이즈 처리된 보고서 또는 노이즈 처리되지 않은 디버그 보고서를 기반으로 결과를 보고하는지 여부를 기록하는 것이 좋습니다.
    • 요약 보고서의 경우 요약 값이 낮을 수 있으며 집계 서비스는 요약 값과 관계없이 동일한 분포에서 노이즈를 추가합니다.
  • 해당 트래픽 슬라이스에서 다양한 측정 방법론을 테스트합니다.
    • 대조군 1 - 현재 측정 방법 사용 (서드 파티 쿠키 + 서드 파티 쿠키 외 데이터)
    • (선택사항) 대조군 2 - 개인 정보 보호 샌드박스 및 서드 파티 쿠키 없음, 즉 서드 파티 쿠키가 아닌 데이터만 사용
      • 일부 사이트에서 여전히 사용할 수 있는 서드 파티 쿠키가 있을 수 있습니다. 가장 정확한 결과를 얻으려면 Control 2 또는 Treatment 방법론에서 측정에 이러한 서드 파티 쿠키를 사용하지 마세요.
    • 실험군 - 개인 정보 보호 샌드박스 API 및 서드 파티 쿠키가 아닌 데이터
      • 일부 사이트에서 여전히 사용할 수 있는 서드 파티 쿠키가 있을 수 있습니다. 가장 정확한 결과를 얻으려면 Control 2 또는 Treatment 방법론에서 측정에 이러한 서드 파티 쿠키를 사용하지 마세요.

측정항목

  • 비즈니스에서 결과를 측정하는 데 적합한 측정항목을 정의하고 측정항목의 의미와 측정 방법을 설명합니다.
    • 광고주에게 중요한 측정기준과 측정항목에 집중하는 것이 좋습니다. 예를 들어 광고주가 구매 전환에 중점을 두는 경우 해당 전환수와 구매 가치를 측정합니다.
  • 개수 또는 합계 기반 측정항목 (예: 전환율)은 '비용/개수'(예: 전환당비용)보다 더 적합합니다. A/A 분석의 경우 비용 측정항목은 전환수 또는 전환 가치 합계에서 완전히 파생될 수 있습니다.
  • 측정항목이 이벤트 수준 보고서, 요약 보고서 또는 두 보고서의 조합을 기반으로 하는지 (그리고 디버그 보고서가 사용되었는지) 지정합니다.
  • 정량적 의견의 형식을 지정하는 방법에 관한 안내는 추천 템플릿 표를 참고하세요.

분석

  • 커버리지:
    • 서드 파티 쿠키와 유사한 사용자 집단을 측정할 수 있나요? 앱-웹과 같은 더 높은 노출 범위가 표시되나요?
    • 나 또는 광고주가 가장 중요하게 생각하는 전환 (및 측정기준 또는 측정항목)을 측정할 수 있나요?
  • 정량적 의견
    • 예를 들어 광고주 보고에서 해당 광고주에 대해 보고할 수 있는 주요 전환의 비율은 얼마인가요? 또는 보고 품질 기준을 충족하는 캠페인의 비율은 얼마인가요? (품질 기준을 도출하면 전환수가 적은 캠페인을 조정하는 데 도움이 됩니다.)
    • 예를 들어 광고주별로 분류했을 때 오늘날 보고에 서드 파티 쿠키를 더 많이 또는 더 적게 사용하는 광고주가 있나요?
  • 기타 정성적 의견:
    • ARA는 광고주의 측정/기여 분석 설정의 복잡성에 어떤 영향을 미치나요?
    • ARA는 광고주가 중요한 측정항목과 목표에 집중하는 데 도움이 되나요, 아니면 방해가 되나요?

영향 보고를 위한 추천 템플릿 표

(보고) 표 1:

CMA에 실험 결과를 보고하기 위한 템플릿 표의 예 (18페이지에서 가져옴. 테스터는 제공하기에 가장 의미 있고 실현 가능한 측정항목을 고려하여 필요에 따라 표를 조정해야 함)

처리 vs 관리 1
제안된 최종 상태와 현재 상태를 비교합니다.
Treatment vs Control 2
제안된 최종 상태를 PS API가 전혀 없는 상태와 비교합니다.
대조군 2 대 대조군 1
개인 정보 보호 샌드박스 API 없이 서드 파티 쿠키를 사용한 경우와 사용하지 않은 경우의 전환 측정을 비교합니다.
측정 방법 처리 (서드 파티 쿠키가 아닌 데이터가 포함된 ARA)의 전환 측정과 대조군 1 (서드 파티 쿠키 및 서드 파티 쿠키가 아닌 데이터)의 전환 측정 비교 실험군 (서드 파티 쿠키가 아닌 데이터가 포함된 ARA)과 대조군 2 (서드 파티 쿠키가 아닌 데이터만 포함)의 전환 측정 비교 대조군 2 (서드 파티 쿠키가 아닌 데이터만 해당)와 대조군 1 (서드 파티 쿠키 및 서드 파티 쿠키가 아닌 데이터)의 전환 측정 비교
1달러당 전환수 효과 효과 효과
표준 오류 표준 오류 표준 오류
95% 신뢰 구간 95% 신뢰 구간 95% 신뢰 구간
총 전환수 효과 효과 효과
표준 오류 표준 오류 표준 오류
95% 신뢰 구간 95% 신뢰 구간 95% 신뢰 구간
전환율 효과 효과 효과
표준 오류 표준 오류 표준 오류
95% 신뢰 구간 95% 신뢰 구간 95% 신뢰 구간
(자체 측정항목 추가)
(보고) 표 2:

실험 대상 및 통제 그룹의 측정항목에 대한 기술 통계를 보고하는 템플릿 표의 예시입니다(20페이지에서 가져옴. 테스터는 제공하기에 가장 의미 있고 실현 가능한 측정항목을 고려하고 필요에 따라 표를 조정해야 함).

측정항목 처리
ARA 및 사용하는 모든 비서드 파티 쿠키 데이터를 사용한 전환 측정
관리 1
서드 파티 쿠키 및 사용자가 사용하는 서드 파티 쿠키가 아닌 데이터를 사용한 전환 측정
관리 2
서드 파티 쿠키가 아닌 데이터만 사용한 전환 측정
1달러당 전환수 평균 평균 평균
표준 편차 표준 편차 표준 편차
25번째 및 75번째 백분위수 25번째 및 75번째 백분위수 25번째 및 75번째 백분위수
총 전환수 평균 평균 평균
표준 편차 표준 편차 표준 편차
25번째 및 75번째 백분위수 25번째 및 75번째 백분위수 25번째 및 75번째 백분위수
전환율 평균 평균 평균
표준 편차 표준 편차 표준 편차
25번째 및 75번째 백분위수 25번째 및 75번째 백분위수 25번째 및 75번째 백분위수
(자체 측정항목 추가)

목표 2 - 입찰 최적화를 위한 Attribution Reporting API의 효과 결정

입찰 최적화에 미치는 영향을 측정하기 위해 A/B 설정을 제안합니다.

  • 입찰 최적화에 미치는 영향을 측정하려면 서로 다른 두 개의 머신러닝 모델을 학습시키고 두 개의 트래픽 슬라이스에서 사용해야 합니다. 하나는 현재 측정 방법론 (서드 파티 쿠키 + 서드 파티 쿠키가 아닌 데이터)으로 학습된 모델로 관리 그룹에 적용하고, 다른 하나는 Attribution Reporting API + 서드 파티 쿠키가 아닌 데이터로 학습된 모델로 실험 그룹에 적용합니다.
  • 모델 학습은 처리 그룹이 트래픽의 작은 부분이고 학습 인구 간에 중복이 있더라도 (예: 모든 트래픽에서 학습하는 기존 서드 파티 쿠키 모델을 사용하고 목표 1에 대해 사용 설정된 모든 ARA 트래픽에서 ARA 모델을 학습) 테스터가 성능을 극대화하는 데 필요하다고 간주하는 만큼의 트래픽을 기반으로 해야 합니다.
    • CMA에 결과를 제출하는 경우 다양한 모델을 학습하는 데 사용된 트래픽 슬라이스 간에 상당한 차이가 있는지 (예: 서드 파티 쿠키 기반 모델은 트래픽의 100% 로 학습되지만 ARA 기반 모델은 트래픽의 1% 로만 학습됨) 명시하세요.
  • 가능하다면 처리 및 대조 입찰 모델의 학습은 동일한 시간 동안 진행해야 합니다.
  • 실험 중에 입찰 모델을 지속적으로 학습시키고 업데이트해야 하는지, 학습시킨다면 가능한 한 많은 트래픽을 대상으로 학습시켜야 하는지 아니면 실험 대상 및 대조 부문의 트래픽만 대상으로 학습시켜야 하는지 고려합니다.
  • 다양한 모델은 트래픽의 분리된 슬라이스에서 A/B 실험으로 사용해야 합니다. 실험 대상 그룹과 통제 그룹 간의 사용자 무작위화 및 할당의 경우 Chrome에서 제공하는 라벨이 지정된 브라우저 그룹 (모드 A)을 사용하거나 무작위 브라우저 세트로 자체 실험을 실행하는 것이 좋습니다. 서드 파티 쿠키가 없으면 전환 기반 측정항목을 보고하기 어려우므로 모드 B를 사용하는 것은 권장하지 않습니다.
    • Chrome에서 지원하는 브라우저 그룹은 Enterprise Chrome 사용자와 같은 일부 Chrome 인스턴스를 제외합니다. 자체 무작위 브라우저 세트에서는 이러한 Chrome 인스턴스를 제외하지 않을 수 있습니다. 따라서 Chrome 지원 그룹에서 획득한 측정항목과 Chrome 지원 그룹 외부에서 획득한 측정항목을 비교하지 않으려면 모드 A 그룹에서만 또는 모드 A/모드 B가 아닌 그룹에서만 실험을 실행해야 합니다.
    • Chrome에서 제공하는 라벨이 지정된 브라우저 그룹을 사용하지 않는 경우 (예: 다른 트래픽에서 실험을 실행하는 경우):
      • 사용자의 실험 대상 그룹과 통제 그룹 분할이 무작위로 이루어지며 편향되지 않는지 확인합니다. 실험 그룹 설정과 관계없이 실험군과 통제군의 특성을 평가하여 실험 그룹과 통제 그룹이 비교 가능한지 확인합니다. (섹션 15 참고)
      • 전체 실험 대상 그룹과 통제 그룹의 사용자 특성과 캠페인 구성이 동일한지 확인합니다 (예: 전체 실험 대상 그룹과 통제 그룹 모두에서 유사한 지역 사용). (섹션 28 참고)
        • 구체적인 예로는 유사한 전환 유형이 동일한 기여 분석 기간 및 동일한 기여 분석 로직을 사용하여 측정되고, 캠페인이 유사한 잠재고객, 관심분야 그룹, 지역을 타겟팅하며 유사한 광고 문구 및 광고 형식을 사용하는지 확인하는 것이 있습니다.
      • √ 전체 실험 대상 및 통제 그룹의 초기 인구수가 입찰 및 실험을 유연하게 진행할 수 있을 만큼 충분히 큽니다.
    • Chrome에서 지원하는 라벨이 지정된 브라우저 그룹 (모드 A)을 사용하는 경우 Chrome에서 Chrome 브라우저 인스턴스를 그룹에 무작위로 할당합니다. 이전과 마찬가지로 무작위화 결과가 목적에 맞는 편향되지 않은 비교 가능한 그룹을 생성하는지 확인하는 것이 좋습니다.

추천 분석 포인트

  • 대조군과 실험군을 정의하고 각 군의 입찰 최적화에 다른 머신러닝 모델을 사용하는 것이 좋습니다.
    • 관리 1 - 현재 측정 방법 (서드 파티 쿠키 + 서드 파티 쿠키가 아닌 데이터)으로 학습된 입찰 최적화 모델 사용
    • (선택사항) 대조군 2 - 개인 정보 보호 샌드박스 및 서드 파티 쿠키 없이 학습된 입찰 최적화 모델 사용(즉, 서드 파티 쿠키가 아닌 데이터만 사용)
      • 일부 사이트에서 여전히 사용할 수 있는 서드 파티 쿠키가 있을 수 있습니다. 가장 정확한 결과를 얻으려면 Control 2 또는 Treatment 방법론에서 측정에 이러한 서드 파티 쿠키를 사용하지 마세요.
    • 처리 - Attribution Reporting API 및 서드 파티 쿠키가 아닌 데이터로 학습된 입찰 최적화 모델을 사용합니다.
      • 일부 사이트에서 여전히 사용할 수 있는 서드 파티 쿠키가 있을 수 있습니다. 가장 정확한 결과를 얻으려면 Control 2 또는 Treatment 방법론에서 측정에 이러한 서드 파티 쿠키를 사용하지 마세요.

측정항목

  • 비즈니스에서 결과를 측정하는 데 적합한 측정항목을 정의하고 측정항목의 의미와 측정 방법을 설명합니다.
    • 예를 들어 의미 있는 측정항목은 '노출당 수익'에 대한 서드 파티 쿠키 지원 중단의 영향을 파악하라는 CMA의 안내에 부합하는 지출 (게시자 수익)일 수 있습니다. 자세한 내용은 섹션 19를 참고하세요.
  • 전환 기반 측정항목을 보고하는 경우 다변량 테스트 (하나의 실험에서 최적화 및 보고에 미치는 영향을 테스트)를 피하기 위해 각 그룹에 동일한 측정 방법론을 사용해야 합니다. 정량적 의견의 형식을 지정하는 방법에 관한 안내는 추천 템플릿 표를 참고하세요.
  • 입찰 최적화 영향에 대한 측정항목을 수집하는 다른 방법(예: 시뮬레이션 입찰 사용)을 고려하세요. 입찰 모델에 대한 서드 파티 쿠키 및 ARA의 영향을 파악하는 데 유용한 시뮬레이션된 측정항목이 있나요?
  • 측정항목이 이벤트 수준 보고서, 요약 보고서 또는 두 보고서의 조합을 기반으로 하는지 (그리고 디버그 보고서가 사용되었는지) 지정합니다.

분석

  • 커버리지:
    • 서드 파티 쿠키와 유사한 사용자 집단을 측정할 수 있나요? 커버리지에 변경사항이 있나요 (예: 앱-웹)?
    • 나 또는 광고주가 가장 중요하게 생각하는 전환 (및 측정기준/측정항목)을 측정할 수 있나요?
  • 그룹 간의 차이점이 다음에 어떤 영향을 미치나요?
    • 광고주 보고(예: 보고할 수 있는 주요 전환의 비율)
    • 학습 및 최적화: 예를 들어 다양한 전환 데이터가 모델 성능에 미치는 영향을 시뮬레이션합니다.
  • 기타 정성적 의견:
    • ARA는 광고주의 입찰 최적화 설정의 복잡성에 어떤 영향을 미치나요?
    • ARA는 광고주가 중요한 측정항목과 목표에 집중하는 데 도움이 되나요, 아니면 방해가 되나요?

입찰 영향에 대한 추천 템플릿 표

(입찰) 표 1:

시장 참여자가 CMA에 제출해야 하는 실험 결과의 템플릿 표 예시(18페이지에서 가져옴. 테스터는 제공하기에 가장 의미 있고 실현 가능한 측정항목을 고려하여 필요에 따라 표를 조정해야 함)

처리 vs 관리 1
제안된 최종 상태와 현재 상태를 비교합니다.
Treatment vs Control 2
제안된 최종 상태를 PS API가 전혀 없는 상태와 비교합니다.
대조군 2 대 대조군 1
PS API 없이 서드 파티 쿠키를 사용한 경우와 사용하지 않은 경우의 입찰 최적화를 비교합니다.
측정 방법 다변량 테스트를 방지하려면 서드 파티 쿠키 및 비서드 파티 쿠키 데이터를 사용하여 각 실험의 두 부문 모두에 대해 전환 기반 측정항목을 측정하세요.
노출당 수익 효과 효과 효과
표준 오류 표준 오류 표준 오류
95% 신뢰 구간 95% 신뢰 구간 95% 신뢰 구간
(자체 측정항목 추가)
(입찰) 표 2:

실험 대상 및 통제 그룹의 측정항목에 대한 기술 통계를 보고하는 템플릿 표의 예시입니다(20페이지에서 가져옴. 테스터는 제공하기에 가장 의미 있고 실현 가능한 측정항목을 고려하고 필요에 따라 표를 조정해야 함).

처리
ARA 및 사용 중인 서드 파티 쿠키가 아닌 데이터를 사용한 입찰 최적화
대조군 1
서드 파티 쿠키 및 사용하는 모든 비서드 파티 쿠키 데이터를 사용한 입찰 최적화
대조군 2
서드 파티 쿠키가 아닌 데이터만 사용하여 입찰 최적화
측정 방법 다변량 테스트를 방지하려면 서드 파티 쿠키 및 서드 파티 쿠키가 아닌 데이터를 사용하여 모든 그룹에서 전환 기반 측정항목을 측정하세요.
노출당 수익 평균 평균 평균
표준 편차 표준 편차 표준 편차
25번째 및 75번째 백분위수 25번째 및 75번째 백분위수 25번째 및 75번째 백분위수
(자체 측정항목 추가)

목표 3 - 집계 서비스 부하 테스트

집계 서비스 부하 테스트 프레임워크를 참고하세요.