Руководство по измерительному тестированию

Целью данного руководства является предоставление рекомендаций по запуску автономного теста Privacy Sandbox Attribution Reporting API. Более подробную информацию см. в разделе 12 .

  • Измерение результатов контрольной и лечебной групп в экспериментальных проектах CMA 1 и 2 рассматривается в руководстве по тестированию API релевантности , поскольку целью этих экспериментов является проверка эффективности использования защищенной аудитории и тем. Более подробную информацию см. в разделе 11 .

Прежде чем начать

Цели оценки и предлагаемая постановка эксперимента

Цель 1 — Определение эффективности API Attribution Reporting для создания отчетов

Мы предлагаем настройку A/A для измерения влияния на отчетность

  • Это предложение соответствует руководству CMA по оценке показателей на основе конверсий. Более подробную информацию см. в разделе 21 и разделе 12 .
  • Мы предпочитаем этот метод режиму A/B , поскольку тестирование API отчетов об атрибуции (ARA) можно выполнять путем одновременного измерения конверсий в одном и том же наборе показов с использованием двух разных методологий измерения (сторонние файлы cookie + данные сторонних файлов cookie и ARA + данные сторонних файлов cookie).
  • Эксперимент A/A также изолирует влияние API Attribution Reporting на измерение конверсии (например, он позволяет избежать любых изменений коэффициентов конверсии из-за отсутствия сторонних файлов cookie).

Предлагаемые точки анализа

  • Выберите часть трафика, которая достаточно велика для получения статистически значимых результатов и имеет как сторонние файлы cookie, так и API Privacy Sandbox. В идеале это весь трафик, за исключением режима B (который отключает сторонние файлы cookie).
    • Мы рекомендуем исключить режим B из эксперимента A/A, поскольку сторонние файлы cookie будут недоступны, и вы не сможете сравнивать результаты ARA с результатами атрибуции на основе сторонних файлов cookie.
    • Если вы хотите включить режим B, вам следует рассмотреть возможность включения отладочных отчетов для сегмента трафика режима B. Отладочные отчеты помогут вам устранить любые неполадки конфигурации или реализации.
  • Если вы планируете тестировать меньший объем трафика, мы ожидаем, что вы получите результаты измерений с большим количеством шума, чем ожидалось. Мы рекомендуем отметить в своем анализе, какая часть трафика была использована и на основе каких отчетов вы предоставляете результаты — зашумленных или незашумленных.
    • Для сводных отчетов ваши сводные значения, скорее всего, будут ниже, а служба агрегации добавит шум из того же распределения независимо от сводного значения.
  • Протестируйте различные методики измерения на этом сегменте трафика.
    • Элемент управления 1 — использование текущих методик измерения (сторонние файлы cookie + данные сторонних файлов cookie)
    • (необязательно) Элемент управления 2 — без Privacy Sandbox и сторонних файлов cookie, то есть только данные сторонних файлов cookie
      • Обратите внимание, что на некоторых сайтах могут быть доступны некоторые сторонние файлы cookie. Для получения наиболее точных результатов не используйте эти сторонние файлы cookie для измерений в методологиях Control 2 или Treatment.
    • Обработка - API Privacy Sandbox и данные сторонних файлов cookie
      • Обратите внимание, что на некоторых сайтах могут быть доступны некоторые сторонние файлы cookie. Для получения наиболее точных результатов не используйте эти сторонние файлы cookie для измерений в методологиях Control 2 или Treatment.

Метрики

  • Определите, какие показатели имеют смысл использовать для измерения результатов вашего бизнеса, и включите описание того, что означает показатель и как он измеряется.
    • Мы предлагаем сосредоточиться на измерениях и показателях, которые важны для ваших рекламодателей. Например, если ваши рекламодатели сосредоточены на конверсиях покупок, измеряйте количество конверсий для них и ценность покупки.
  • Метрики, основанные на количестве или сумме (например, коэффициент конверсии), более идеальны для работы, чем стоимость за (например, стоимость за конверсию). Для анализа A/A метрики стоимости могут быть полностью выведены из значений количества или суммы конверсии.
  • Укажите, основаны ли метрики на отчетах уровня событий, сводных отчетах или на комбинации обоих отчетов (и использовались ли отчеты об отладке).
  • Ознакомьтесь с предлагаемыми шаблонами таблиц для получения рекомендаций по форматированию количественной обратной связи.

Анализ

  • Охват:
    • Можете ли вы проводить измерения по аналогичному набору пользователей по сравнению со сторонними файлами cookie? Видите ли вы более высокий охват (например, с app-to-web)?
    • Можете ли вы измерить конверсии (а также параметры или показатели), которые больше всего интересуют вас или ваших рекламодателей?
  • Количественная обратная связь
    • Например, в отчетах по рекламодателям: какой процент ключевых конверсий вы сможете включить в отчет для этого рекламодателя или какой процент кампаний соответствует планке качества отчетности (выведение планки качества помогает вносить коррективы для кампаний с небольшим количеством конверсий)
    • Например, если разбить данные по рекламодателям, есть ли рекламодатели, которые в большей или меньшей степени зависят от сторонних файлов cookie для предоставления отчетов сегодня?
  • Другие качественные отзывы:
    • Как ARA влияет на сложность настройки измерений/атрибуции рекламодателей?
    • Помогает ли ARA рекламодателям сосредоточиться на важных для них показателях и целях или мешает?

Предлагаемые шаблоны таблиц для отчетности о влиянии

(Отчетность) Таблица 1:

Пример шаблона таблицы для представления результатов эксперимента в CMA (взято со страницы 18 , но тестировщики должны подумать, какие показатели наиболее значимы/целесообразны для предоставления, и адаптировать таблицу по мере необходимости) .

Лечение против контроля 1
Сравнивает предлагаемое конечное состояние с текущим состоянием
Лечение против контроля 2
Сравнивает предлагаемое конечное состояние с полным отсутствием API PS.
Контроль 2 против Контроля 1
Сравнивает показатели конверсии с использованием и без использования сторонних файлов cookie, без каких-либо API PS.
Методология измерения Сравните измерение конверсии для обработки (ARA с данными сторонних файлов cookie) с контролем 1 (данные сторонних файлов cookie и сторонних файлов cookie) Сравните измерение конверсии для обработки (ARA с данными сторонних файлов cookie) с контролем 2 (только данные сторонних файлов cookie) Сравните показатели конверсий для Control 2 (только данные сторонних файлов cookie) с Control 1 (данные сторонних файлов cookie и сторонних файлов cookie)
Конверсии на доллар Эффект Эффект Эффект
Стандартная ошибка Стандартная ошибка Стандартная ошибка
95% доверительный интервал 95% доверительный интервал 95% доверительный интервал
Всего конверсий Эффект Эффект Эффект
Стандартная ошибка Стандартная ошибка Стандартная ошибка
95% доверительный интервал 95% доверительный интервал 95% доверительный интервал
Коэффициент конверсии Эффект Эффект Эффект
Стандартная ошибка Стандартная ошибка Стандартная ошибка
95% доверительный интервал 95% доверительный интервал 95% доверительный интервал
(добавьте свои собственные показатели)
(Отчетность) Таблица 2:

Пример шаблона таблицы для представления описательной статистики по показателям в экспериментальной и контрольной группах (взято со страницы 20 , но тестировщики должны подумать, какие показатели наиболее значимы/целесообразны для предоставления, и адаптировать таблицу по мере необходимости) .

Метрическая Уход
Измерение конверсии с использованием ARA и любых сторонних данных cookie, которые вы используете
Контроль 1
Измерение конверсии с использованием сторонних файлов cookie и любых несторонних данных файлов cookie, которые вы используете
Контроль 2
Измерение конверсии с использованием только данных сторонних файлов cookie
Конверсии на доллар Иметь в виду Иметь в виду Иметь в виду
Стандартное отклонение Стандартное отклонение Стандартное отклонение
25-й и 75-й процентиль 25-й и 75-й процентиль 25-й и 75-й процентиль
Всего конверсий Иметь в виду Иметь в виду Иметь в виду
Стандартное отклонение Стандартное отклонение Стандартное отклонение
25-й и 75-й процентиль 25-й и 75-й процентиль 25-й и 75-й процентиль
Коэффициент конверсии Иметь в виду Иметь в виду Иметь в виду
Стандартное отклонение Стандартное отклонение Стандартное отклонение
25-й и 75-й процентиль 25-й и 75-й процентиль 25-й и 75-й процентиль
(добавьте свои собственные показатели)

Цель 2 — Определение эффективности API Attribution Reporting для оптимизации торгов

Мы предлагаем настройку A/B для измерения влияния на оптимизацию торгов.

  • Чтобы измерить влияние на оптимизацию торгов, вам необходимо обучить две разные модели машинного обучения и использовать их на двух срезах трафика: одну модель, обученную на текущих методологиях измерения (сторонние файлы cookie + данные сторонних файлов cookie), для применения к контрольной группе, и одну модель, обученную на API Attribution Reporting + данные сторонних файлов cookie, для применения к экспериментальной группе.
  • Обучение модели должно основываться на таком объеме трафика, который тестировщик сочтет необходимым для максимизации производительности, даже если группа тестирования представляет собой меньший объем трафика и между обучающими популяциями есть перекрытие (например, используйте существующую стороннюю модель cookie, которая обучается на всем трафике, и обучайте модель ARA на всем трафике ARA, включенном для цели 1).
    • При отправке результатов в CMA обратите внимание, есть ли существенная разница между фрагментами трафика, используемыми для обучения разных моделей (например, если сторонние модели на основе файлов cookie обучаются на 100% трафика, а модели на основе ARA обучаются только на 1% трафика).
  • По возможности обучение по моделям ставок для лечения и контроля должно проводиться в течение одинакового периода времени.
  • Подумайте, следует ли вам постоянно обучать и обновлять модели торгов во время эксперимента, и если да, то следует ли обучать их на максимально возможном объеме трафика или только на трафике из экспериментальной и контрольной групп.
  • Различные модели следует использовать на непересекающихся срезах трафика в качестве эксперимента A/B. Для рандомизации пользователей и распределения по группам лечения и контроля мы рекомендуем использовать маркированные группы браузеров с поддержкой Chrome ( режим A ) или проводить собственный эксперимент со случайными наборами браузеров. Мы не рекомендуем использовать режим B, так как отсутствие сторонних файлов cookie затруднит составление отчетов по метрикам на основе конверсий.
    • Группы браузеров, поддерживаемые Chrome, исключат некоторые экземпляры Chrome, такие как пользователи Enterprise Chrome, где ваши собственные рандомизированные наборы браузеров могут не исключать эти экземпляры Chrome. Поэтому вам следует проводить эксперимент только в группах Mode A или только в группах non-Mode A/Mode B, чтобы избежать сравнения метрик, полученных в группах, поддерживаемых Chrome, с метриками, полученными за пределами групп, поддерживаемых Chrome.
    • Если не используются маркированные группы браузеров, поддерживаемые Chrome (например, при проведении эксперимента с другим трафиком):
      • Убедитесь, что разделение пользователей на группы лечения и контроля является рандомизированным и непредвзятым. Независимо от настройки экспериментальной группы, оцените характеристики групп лечения и контроля, чтобы убедиться, что группы лечения и контроля сопоставимы. (См.: Раздел 15 )
      • Убедитесь, что характеристики пользователя и конфигурации кампании в группах лечения и контроля одинаковы (например, используйте схожие геоданные в группах лечения и контроля). (См.: Раздел 28 )
        • Конкретные примеры включают: убедитесь, что аналогичные типы конверсий измеряются с использованием одного и того же окна атрибуции и одной и той же логики атрибуции, кампании нацелены на схожие аудитории, группы интересов и географические регионы и используют схожие рекламные тексты и форматы объявлений.
      • √ что начальные размеры популяции для экспериментальной и контрольной групп достаточно велики, чтобы обеспечить гибкость для торгов и экспериментов.
    • Если используются маркированные группы браузеров, поддерживаемые Chrome ( режим A ), рандомизация экземпляров браузера Chrome в группы выполняется Chrome. Рекомендуется, как и прежде, проверить, что в результате рандомизации получаются непредвзятые/сравнимые группы для ваших целей.

Предлагаемые точки анализа

  • Мы рекомендуем определить контрольную и лечебную группы и использовать разные модели машинного обучения для оптимизации ставок для каждой группы:
    • Элемент управления 1. Использование модели оптимизации торгов, обученной на текущих методологиях измерения (сторонние файлы cookie + данные сторонних файлов cookie)
    • (необязательно) Элемент управления 2 — использование модели оптимизации торгов, обученной без Privacy Sandbox и сторонних файлов cookie, то есть только с использованием данных сторонних файлов cookie
      • Обратите внимание, что на некоторых сайтах могут быть доступны некоторые сторонние файлы cookie. Для получения наиболее точных результатов не используйте эти сторонние файлы cookie для измерений в методологиях Control 2 или Treatment.
    • Лечение — используйте модель оптимизации торгов, обученную на API Attribution Reporting и данных сторонних файлов cookie.
      • Обратите внимание, что на некоторых сайтах могут быть доступны некоторые сторонние файлы cookie. Для получения наиболее точных результатов не используйте эти сторонние файлы cookie для измерений в методологиях Control 2 или Treatment.

Метрики

  • Определите, какие показатели имеют смысл использовать для измерения результатов вашего бизнеса, и включите описание того, что означает показатель и как он измеряется.
    • Например, значимым показателем могут быть расходы (доход издателя), что соответствует рекомендациям CMA по пониманию влияния отмены поддержки сторонних файлов cookie на «Доходы за показ». Подробнее см. в разделе 19 .
  • При составлении отчетов по любым показателям, основанным на конверсии, следует использовать одну и ту же методологию измерения для каждой группы, чтобы избежать многовариантного тестирования (тестирования влияния на оптимизацию и составления отчетов в одном эксперименте). Ознакомьтесь с предлагаемыми таблицами шаблонов для получения рекомендаций по форматированию количественной обратной связи.
  • Рассмотрите другие способы сбора метрик по влиянию оптимизации ставок — например, с помощью имитации ставок. Существуют ли какие-либо имитационные метрики, которые были бы полезны для понимания влияния сторонних файлов cookie и ARA на ваши модели ставок?
  • Укажите, основаны ли метрики на отчетах уровня событий, сводных отчетах или на комбинации обоих отчетов (и использовались ли отчеты об отладке).

Анализ

  • Охват:
    • Можете ли вы провести измерение по аналогичному набору пользователей по сравнению со сторонними файлами cookie? Видите ли вы какие-либо изменения в охвате (например, с app-to-web)?
    • Можете ли вы измерить конверсии (и параметры/показатели), которые больше всего интересуют вас или ваших рекламодателей?
  • Как различия между группами повлияют на следующее:
    • Например, отчетность рекламодателя о том, какой процент ключевых конверсий вы сможете включить в отчет.
    • Например, обучение и оптимизация моделируют влияние различных данных о конверсии на производительность модели.
  • Другие качественные отзывы:
    • Как ARA влияет на сложность настройки оптимизации ставок рекламодателей?
    • Помогает ли ARA рекламодателям сосредоточиться на важных для них показателях и целях или мешает?

Предлагаемые шаблоны таблиц для оценки влияния торгов

(Торги) Таблица 1:

Пример шаблона таблицы экспериментальных результатов, которую участники рынка должны предоставить в CMA (взято со страницы 18 , но тестировщики должны подумать, какие показатели наиболее значимы/целесообразны для предоставления, и адаптировать таблицу по мере необходимости) .

Лечение против контроля 1
Сравнивает предлагаемое конечное состояние с текущим состоянием
Лечение против контроля 2
Сравнивает предлагаемое конечное состояние с полным отсутствием API PS.
Контроль 2 против Контроля 1
Сравнивает оптимизацию торгов с использованием и без использования сторонних файлов cookie, без каких-либо API PS.
Методология измерения Чтобы избежать многовариантного тестирования, используйте данные сторонних и несторонних файлов cookie для измерения показателей конверсии для обеих групп в каждом эксперименте.
Доходы за показ Эффект Эффект Эффект
Стандартная ошибка Стандартная ошибка Стандартная ошибка
95% доверительный интервал 95% доверительный интервал 95% доверительный интервал
(Добавьте свои собственные показатели)
(Торги) Таблица 2:

Пример шаблона таблицы для представления описательной статистики по показателям в экспериментальной и контрольной группах (взято со страницы 20 , но тестировщики должны подумать, какие показатели наиболее значимы/целесообразны для предоставления, и адаптировать таблицу по мере необходимости) .

Уход
Оптимизация торгов с использованием ARA и любых сторонних данных cookie, которые вы используете
Контроль 1
Оптимизация ставок с использованием сторонних файлов cookie и любых несторонних данных файлов cookie, которые вы используете
Контроль 2
Оптимизация торгов с использованием только сторонних данных cookie
Методология измерения Чтобы избежать многовариантного тестирования, используйте данные сторонних и несторонних файлов cookie для измерения показателей конверсии по всем направлениям.
Доходы за показ Иметь в виду Иметь в виду Иметь в виду
Стандартное отклонение Стандартное отклонение Стандартное отклонение
25-й и 75-й процентиль 25-й и 75-й процентиль 25-й и 75-й процентиль
(добавьте свои собственные показатели)

Цель 3 — Нагрузочное тестирование службы агрегации

См. раздел «Структура нагрузочного тестирования сервиса агрегации» .