Нойзелаб

Об этом документе

Прочитав этот документ, вы:

  • Поймите, какие стратегии следует разработать, прежде чем составлять сводные отчеты.
  • Познакомьтесь с Noise Lab — инструментом, который помогает понять влияние различных параметров шума и позволяет быстро исследовать и оценивать различные стратегии управления шумом.
Скриншот Noise Lab.
Шумовая лаборатория

Поделитесь своим мнением

Хотя в этом документе кратко изложены некоторые принципы работы со сводными отчётами, существует множество подходов к управлению шумом, которые могут быть здесь не отражены. Мы будем рады вашим предложениям, дополнениям и вопросам!

Прежде чем начать

  1. Для ознакомления прочтите разделы Отчетность по атрибуции: сводные отчеты и полный обзор системы отчетности по атрибуции .
  2. Чтобы максимально эффективно использовать это руководство, просмотрите разделы «Понимание шума» и «Понимание ключей агрегации» .

Проектные решения

Основной принцип дизайна

Существуют фундаментальные различия между работой сторонних файлов cookie и сводных отчётов. Одно из ключевых различий заключается в добавлении шумов к данным измерений в сводных отчётах. Другое отличие — в порядке планирования отчётов.

Чтобы получить доступ к данным измерений в сводных отчётах с более высоким соотношением сигнал/шум, платформам управления рекламой (DSP) и поставщикам услуг измерения рекламы необходимо совместно со своими рекламодателями разработать стратегии управления шумом. Для разработки этих стратегий DSP и поставщикам услуг измерения необходимо принять решения по проектированию. Эти решения основаны на одной важной концепции:

Хотя значения шума распределения, строго говоря, зависят только от двух параметров: эпсилон и бюджета вклада , в вашем распоряжении имеется ряд других элементов управления, которые повлияют на соотношение сигнал/шум ваших выходных данных измерений.

Хотя мы ожидаем, что итеративный процесс приведет к лучшим решениям, каждое изменение этих решений приведет к немного иной реализации, поэтому эти решения должны приниматься перед написанием каждой итерации кода (и перед запуском рекламы).

Решение: Детализация измерений

Попробуйте в Noise Lab

  1. Перейдите в расширенный режим.
  2. На боковой панели «Параметры» найдите Данные о ваших конверсиях.
  3. Обратите внимание на параметры по умолчанию. По умолчанию ОБЩЕЕ количество атрибутируемых конверсий в день составляет 1000. В среднем это составляет примерно 40 на сегмент при использовании настроек по умолчанию (параметры по умолчанию, количество возможных значений по умолчанию для каждого параметра, ключевая стратегия A). Обратите внимание, что значение «Среднее количество атрибутируемых конверсий в день в сегменте» равно 40.
  4. Нажмите кнопку «Симулировать», чтобы запустить симуляцию с параметрами по умолчанию.
  5. На боковой панели «Параметры» найдите раздел «Измерения». Переименуйте «География» в «Город» и измените количество возможных значений на 50.
  6. Обратите внимание, как это влияет на среднесуточное количество атрибутируемых конверсий в каждом сегменте. Теперь оно значительно ниже. Это связано с тем, что при увеличении количества возможных значений в этом измерении без каких-либо других изменений увеличивается общее количество сегментов, при этом количество событий конверсии в каждом сегменте не меняется.
  7. Нажмите «Симулировать».
  8. Обратите внимание на коэффициенты шума полученной симуляции: теперь коэффициенты шума выше, чем для предыдущей симуляции.

Учитывая основной принцип проектирования , небольшие сводные значения, вероятно, будут более шумными, чем большие. Следовательно, выбранная конфигурация влияет на количество атрибутированных событий-конверсий, попадающих в каждую ячейку (иначе называемую ключом агрегации), а это количество влияет на уровень шума в итоговых сводных отчётах.

Одним из проектных решений, влияющих на количество атрибутированных событий-конверсий в одном сегменте, является детализация измерений. Рассмотрим следующие примеры ключей агрегации и их измерений:

  • Подход 1: одна ключевая структура с грубыми измерениями: Страна x Рекламная кампания (или самая большая группа агрегации кампаний) x Тип продукта (из 10 возможных типов продукта)
  • Подход 2: одна ключевая структура с детализированными параметрами: Город x Идентификатор креатива x Продукт (из 100 возможных продуктов)

Город — более детальное измерение, чем Страна ; Идентификатор креатива — более детальное, чем Кампания ; а Продукт — более детальное, чем Тип продукта . Следовательно, Подход 2 будет иметь меньшее количество событий (конверсий) на сегмент (= на ключ) в итоговом отчёте, чем Подход 1. Учитывая, что шум, добавляемый к выходным данным, не зависит от количества событий в сегменте, данные измерений в итоговых отчётах будут более зашумлёнными при Подходе 2. Для каждого рекламодателя поэкспериментируйте с различными компромиссами детализации при разработке ключа, чтобы получить максимальную полезность результатов.

Решение: Ключевые структуры

Попробуйте в Noise Lab

В простом режиме используется структура ключа по умолчанию. В расширенном режиме вы можете экспериментировать с различными структурами ключей. Включены некоторые примеры размеров, которые вы также можете изменить.

  1. Перейдите в расширенный режим.
  2. На боковой панели «Параметры» найдите раздел «Ключевая стратегия». Обратите внимание, что стратегия по умолчанию, обозначенная в инструменте как A, использует одну детальную структуру ключа, которая включает все измерения: «География» x «Идентификатор кампании» x «Категория продукта».
  3. Нажмите «Симулировать».
  4. Обратите внимание на уровень шума в результате моделирования.
  5. Измените стратегию ключа на B. Это отобразит дополнительные элементы управления, позволяющие настроить структуру ключа.
  6. Настройте структуру ключа, например, следующим образом:
    1. Количество ключевых сооружений: 2
    2. Ключевая структура 1 = География x Категория продукта.
    3. Структура ключа 2 = Идентификатор кампании x Категория продукта.
  7. Нажмите «Симулировать».
  8. Обратите внимание, что теперь вы получаете два сводных отчёта для каждого типа цели измерения (два для количества покупок и два для стоимости покупок), учитывая, что вы используете две разные ключевые структуры. Обратите внимание на их коэффициенты шума.
  9. Вы также можете попробовать это с вашими собственными измерениями. Для этого найдите раздел «Данные, которые вы хотите отслеживать: Измерения». Удалите примеры измерений и создайте свои собственные с помощью кнопок «Добавить», «Удалить» и «Сбросить» под последним измерением.

Ещё одним решением, которое повлияет на количество атрибутированных событий-конверсий в одном сегменте, является выбор структуры ключей . Рассмотрим следующие примеры ключей агрегации:

  • Одна ключевая структура со всеми измерениями; назовем ее Ключевой стратегией А.
  • Две ключевые структуры, каждая с подмножеством измерений; назовем это ключевой стратегией B.
Разделы для ключевых стратегий A и B.
Разделы для ключевых стратегий A и B.

Стратегия A проще, но для доступа к определённой информации может потребоваться свернуть (просуммировать) зашумлённые сводные значения, включённые в сводные отчёты. Суммируя эти значения, вы также суммируете шум. При использовании стратегии B сводные значения, представленные в сводных отчётах, могут уже содержать необходимую информацию. Это означает, что стратегия B, вероятно, обеспечит лучшее соотношение сигнал/шум, чем стратегия A. Однако шум может быть приемлемым и при стратегии A, поэтому вы всё равно можете выбрать стратегию A для простоты. Подробнее см. подробный пример, описывающий эти две стратегии .

Управление ключами — обширная тема. Для улучшения соотношения сигнал/шум можно рассмотреть ряд сложных методов. Один из них описан в разделе «Расширенное управление ключами» .

Решение: Частота пакетирования

Попробуйте в Noise Lab

  1. Перейдите в простой режим (или расширенный режим — оба режима работают одинаково с точки зрения частоты пакетирования)
  2. На боковой панели «Параметры» найдите раздел «Ваша стратегия агрегации» > «Частота пакетной обработки». Это относится к частоте пакетной обработки агрегируемых отчётов, обрабатываемых службой агрегации в рамках одного задания.
  3. Обратите внимание на частоту дозирования по умолчанию: по умолчанию имитируется ежедневная частота дозирования.
  4. Нажмите «Симулировать».
  5. Обратите внимание на уровень шума в результате моделирования.
  6. Измените частоту дозирования на еженедельную.
  7. Обратите внимание на коэффициенты шума полученной симуляции: теперь коэффициенты шума ниже (лучше), чем для предыдущей симуляции.

Ещё одним решением, которое повлияет на количество атрибутированных событий-конверсий в одном сегменте, является выбранная вами частота пакетирования. Частота пакетирования определяет частоту обработки агрегированных отчётов.

В отчёте, агрегация которого запланирована чаще (например, каждый час), будет включено меньше событий конверсии, чем в том же отчёте с более редким графиком агрегации (например, каждую неделю). В результате в почасовом отчёте будет больше шума. В отчёте, агрегация которого запланирована чаще (например, каждую неделю), будет включено меньше событий конверсии, чем в том же отчёте с более редким графиком агрегации (например, каждую неделю). В результате в почасовом отчёте будет более низкое отношение сигнал/шум, чем в еженедельном отчёте, при прочих равных условиях. Поэкспериментируйте с требованиями к отчётности на разных частотах и ​​оцените отношение сигнал/шум для каждого из них.

Дополнительную информацию см. в статье Пакетирование и агрегирование за более длительные периоды времени .

Решение: переменные кампании, влияющие на атрибутируемые конверсии

Попробуйте в Noise Lab

Хотя это может быть сложно предсказать и, помимо сезонных факторов, возможны значительные колебания, попытайтесь оценить количество ежедневных конверсий, приписываемых одному касанию, до ближайшего значения степени 10: 10, 100, 1000 или 10 000.

  1. Перейдите в расширенный режим.
  2. На боковой панели «Параметры» найдите Данные о ваших конверсиях.
  3. Обратите внимание на параметры по умолчанию. По умолчанию ОБЩЕЕ количество атрибутируемых конверсий в день составляет 1000. В среднем это составляет примерно 40 на сегмент при использовании настроек по умолчанию (параметры по умолчанию, количество возможных значений по умолчанию для каждого параметра, ключевая стратегия A). Обратите внимание, что значение «Среднее количество атрибутируемых конверсий в день в сегменте» равно 40.
  4. Нажмите кнопку «Симулировать», чтобы запустить симуляцию с параметрами по умолчанию.
  5. Обратите внимание на уровень шума в результате моделирования.
  6. Теперь установите ОБЩЕЕ ежедневное количество атрибутируемых конверсий равным 100. Обратите внимание, что это снижает значение Среднее ежедневное количество атрибутируемых конверсий НА ГРУППУ.
  7. Нажмите «Симулировать».
  8. Обратите внимание, что коэффициенты шума теперь выше: это происходит потому, что при меньшем количестве конверсий на сегмент применяется больше шума для сохранения конфиденциальности.

Важное различие заключается в общем количестве возможных конверсий для рекламодателя и общем количестве возможных атрибутированных конверсий. Последнее в конечном итоге влияет на шум в сводных отчётах. Атрибутивные конверсии — это подмножество общего количества конверсий, которое подвержено влиянию переменных кампании, таких как рекламный бюджет и таргетинг рекламы. Например, можно ожидать большего количества атрибутированных конверсий для рекламной кампании стоимостью 10 миллионов долларов по сравнению с рекламной кампанией стоимостью 10 тысяч долларов, при прочих равных условиях.

Что следует учитывать:

  • Оценивайте атрибутированные конверсии с помощью модели атрибуции «в одно касание» на одном устройстве, поскольку они попадают в область сводных отчетов, собираемых с помощью API-интерфейса Attribution Reporting.
  • Рассмотрите как наихудший, так и наилучший сценарий для количества атрибутированных конверсий. Например, при прочих равных условиях рассмотрите минимальный и максимальный возможные бюджеты кампании рекламодателя, а затем спрогнозируйте количество атрибутированных конверсий для обоих вариантов в качестве входных данных для моделирования.
  • Если вы рассматриваете возможность использования Android Privacy Sandbox , учитывайте при расчете кроссплатформенные атрибутированные конверсии.

Решение: использовать масштабирование

Попробуйте в Noise Lab

  1. Перейдите в расширенный режим.
  2. На боковой панели «Параметры» найдите раздел «Ваша стратегия агрегации» > «Масштабирование». По умолчанию установлено значение «Да».
  3. Чтобы понять положительное влияние масштабирования на коэффициент шума, сначала установите для параметра «Масштабирование» значение «Нет».
  4. Нажмите «Симулировать».
  5. Обратите внимание на уровень шума в результате моделирования.
  6. Установите для параметра «Масштабирование» значение «Да». Обратите внимание, что Noise Lab автоматически рассчитывает коэффициенты масштабирования, которые будут использоваться, учитывая диапазоны (средние и максимальные значения) целей измерений для вашего сценария. В реальной системе или исходной тестовой конфигурации вам потребуется реализовать собственный расчёт коэффициентов масштабирования.
  7. Нажмите «Симулировать».
  8. Обратите внимание, что во второй симуляции коэффициент шума теперь ниже (лучше). Это связано с использованием масштабирования.

Учитывая основной принцип проектирования , добавленный шум является функцией бюджета взносов.

Таким образом, чтобы повысить соотношение сигнал/шум, можно преобразовать значения, собранные во время события конверсии, масштабируя их относительно бюджета вклада (и демасштабируя после агрегации). Используйте масштабирование для повышения соотношения сигнал/шум.

Решение: Количество целей измерения и распределение бюджета на конфиденциальность

Это относится к масштабированию; обязательно прочтите раздел Использование масштабирования .

Попробуйте в Noise Lab

Цель измерения — это отдельная точка данных, собранная в событиях конверсии.

  1. Перейдите в расширенный режим.
  2. На боковой панели «Параметры» найдите раздел «Данные, которые вы хотите отслеживать: цели измерения». По умолчанию у вас есть две цели измерения: стоимость покупки и количество покупок.
  3. Нажмите «Симулировать», чтобы запустить симуляцию с целями по умолчанию.
  4. Нажмите «Удалить». Это удалит последнюю цель измерения (в данном случае — количество покупок).
  5. Нажмите «Симулировать».
  6. Обратите внимание, что коэффициенты шума для стоимости покупки теперь ниже (лучше) для этой второй симуляции. Это связано с тем, что у вас меньше целей измерения, и теперь весь бюджет взносов приходится на одну цель измерения.
  7. Нажмите «Сброс». Теперь у вас снова есть две цели измерения: стоимость покупки и количество покупок. Обратите внимание, что Noise Lab автоматически рассчитывает коэффициенты масштабирования, которые будут использоваться, учитывая диапазоны (среднее и максимальное значения) целей измерения для вашего сценария. По умолчанию Noise Lab распределяет бюджет поровну между целями измерения.
  8. Нажмите «Симулировать».
  9. Обратите внимание на коэффициенты шума в результате моделирования. Обратите внимание на масштабные коэффициенты, отображаемые в моделировании.
  10. Теперь давайте настроим распределение бюджета конфиденциальности, чтобы добиться лучшего соотношения сигнал/шум.
  11. Настройте процент бюджета, назначенный для каждой цели измерения. При заданных по умолчанию параметрах диапазон цели измерения 1, а именно, стоимость покупки, гораздо шире (от 0 до 1000), чем диапазон цели измерения 2, а именно, количество покупок (от 1 до 1, т.е. всегда равен 1). В связи с этим ей требуется «больше пространства для масштабирования»: в идеале было бы назначить больший бюджет взносов на цель измерения 1, чем на цель измерения 2, чтобы её можно было масштабировать более эффективно (см. раздел «Масштабирование»), и, следовательно,
  12. Выделите 70% бюджета на цель измерения 1. Выделите 30% на цель измерения 2.
  13. Нажмите «Симулировать».
  14. Обратите внимание на коэффициенты шума в полученной симуляции. Для стоимости покупки коэффициенты шума теперь заметно ниже (лучше), чем в предыдущей симуляции. Для количества покупок они практически не изменились.
  15. Продолжайте корректировать распределение бюджета по метрикам. Наблюдайте, как это влияет на уровень шума.

Обратите внимание, что вы можете задать собственные цели измерений с помощью кнопок «Добавить/Удалить/Сбросить».


Если вы измеряете одну точку данных (цель измерения) для события-конверсии, например, количество конверсий, эта точка данных может получить весь бюджет вклада (65 536). Если вы устанавливаете несколько целей измерения для события-конверсии, например, количество конверсий и стоимость покупки, то эти точки данных должны будут использовать общий бюджет вклада. Это означает, что у вас меньше возможностей для масштабирования значений.

Следовательно, чем больше у вас целей измерений, тем ниже, скорее всего, будет соотношение сигнал/шум (выше уровень шума).

Ещё одно решение, которое необходимо принять в отношении целей измерения, — это распределение бюджета. Если разделить бюджет взносов поровну между двумя точками данных, каждая точка данных получит бюджет 65 536/2 = 32 768. Это может быть оптимальным или неоптимальным в зависимости от максимально возможного значения для каждой точки данных. Например, если вы измеряете количество покупок с максимальным значением 1, а также стоимость покупки с минимальным значением 1 и максимальным значением 120, стоимость покупки выиграет от «большего пространства» для масштабирования, то есть отведения большей доли бюджета взносов. Вы увидите, следует ли отдавать приоритет некоторым целям измерения по сравнению с другими в связи с влиянием шума.

Решение: Управление выбросами

Попробуйте в Noise Lab

Цель измерения — это отдельная точка данных, собранная в событиях конверсии.

  1. Перейдите в расширенный режим.
  2. На боковой панели «Параметры» найдите раздел «Ваша стратегия агрегации» > «Масштабирование».
  3. Убедитесь, что для параметра «Масштабирование» выбрано значение «Да». Обратите внимание, что Noise Lab автоматически рассчитывает коэффициенты масштабирования на основе диапазонов (средних и максимальных значений), указанных вами для целей измерения.
  4. Предположим, что самая крупная покупка в истории составила 2000 долларов, но большинство покупок совершается в диапазоне от 10 до 120 долларов. Сначала посмотрим, что произойдёт, если использовать подход буквального масштабирования (не рекомендуется): ввести 2000 долларов в качестве максимального значения для purchaseValue.
  5. Нажмите «Симулировать».
  6. Обратите внимание на высокие коэффициенты шума. Это связано с тем, что наш коэффициент масштабирования рассчитан на основе 2000 долларов, хотя в реальности стоимость большинства покупок будет значительно ниже.
  7. Теперь давайте применим более прагматичный подход к масштабированию. Изменим максимальную сумму покупки на 120 долларов.
  8. Нажмите «Симулировать».
  9. Обратите внимание, что коэффициент шума в этой второй симуляции ниже (лучше).

Для реализации масштабирования обычно рассчитывается коэффициент масштабирования на основе максимально возможного значения для заданного события конверсии ( подробнее в этом примере ).

Однако не используйте буквальное максимальное значение для расчёта коэффициента масштабирования, так как это ухудшит соотношение сигнал/шум. Вместо этого удалите выбросы и используйте прагматичное максимальное значение.

Управление выбросами — глубокая тема. Для улучшения соотношения сигнал/шум можно рассмотреть ряд сложных методов. Один из них описан в разделе «Расширенное управление выбросами» .

Следующие шаги

Теперь, когда вы оценили различные стратегии управления шумом для своего варианта использования, вы готовы начать экспериментировать со сводными отчётами, собирая данные реальных измерений с помощью пробной версии. Ознакомьтесь с руководствами и советами по использованию API .

Приложение

Краткий обзор Noise Lab

Noise Lab поможет вам быстро оценить и сравнить стратегии борьбы с шумом. Используйте его, чтобы:

  • Понять основные параметры, которые могут влиять на уровень шума, и их влияние.
  • Моделируйте влияние шума на выходные данные измерений при различных проектных решениях. Изменяйте проектные параметры, пока не достигнете соотношения сигнал/шум, подходящего для вашего варианта использования.
  • Поделитесь своим мнением о полезности сводных отчётов: какие значения параметров эпсилон и шума вам подходят, а какие — нет? Где находятся точки перегиба?

Считайте это подготовительным этапом. Noise Lab генерирует данные измерений для моделирования итоговых отчётов на основе ваших данных. Система не сохраняет и не передает данные третьим лицам.

В Noise Lab есть два разных режима:

  1. Простой режим: изучите основы управления шумом.
  2. Расширенный режим: протестируйте различные стратегии управления шумом и оцените, какая из них обеспечивает наилучшее соотношение сигнал/шум для ваших вариантов использования.

Для переключения между двумя режимами нажимайте кнопки в верхнем меню ( №1 на следующем снимке экрана ).

Простой режим
  • В простом режиме вы управляете параметрами (они находятся слева или #2 на следующем снимке экрана ), такими как Эпсилон, и видите, как они влияют на шум.
  • У каждого параметра есть подсказка (кнопка `?`). Нажмите на неё, чтобы увидеть пояснение к каждому параметру ( №3 на следующем снимке экрана ).
  • Для начала нажмите кнопку «Симулировать» и посмотрите, как выглядит результат ( №4 на следующем снимке экрана ).
  • В разделе «Выходные данные» вы можете увидеть множество подробностей. Рядом с некоторыми элементами есть значок `?`. Нажимайте на каждый значок `?`, чтобы увидеть пояснения к различным данным.
  • В разделе «Вывод» нажмите переключатель «Подробности», если вы хотите увидеть расширенную версию таблицы ( № 5 на следующем снимке экрана ).
  • После каждой таблицы данных в разделе «Вывод» есть возможность скачать её для использования офлайн. Кроме того, в правом нижнем углу есть возможность скачать все таблицы данных ( № 6 на следующем скриншоте ).
  • Протестируйте различные настройки параметров в разделе «Параметры» и нажмите «Симулировать», чтобы увидеть, как они влияют на выходные данные:
    Интерфейс Noise Lab для простого режима.
    Интерфейс Noise Lab для простого режима.
Расширенный режим
  • В расширенном режиме вы получаете больше контроля над параметрами. Вы можете добавлять пользовательские цели и параметры измерений ( № 1 и № 2 на следующем снимке экрана ).
  • Прокрутите вниз раздел «Параметры» и найдите опцию «Стратегия ключа». Её можно использовать для тестирования различных структур ключа ( №3 на следующем снимке экрана ).
    • Чтобы протестировать различные структуры ключа, переключите стратегию ключа на «B».
    • Введите количество различных ключевых структур, которые вы хотите использовать (по умолчанию установлено значение «2»).
    • Нажмите «Сгенерировать ключевые структуры».
    • Вы увидите параметры для указания ключевых структур, установив флажки рядом с ключами, которые вы хотите включить для каждой ключевой структуры.
    • Нажмите «Симулировать», чтобы увидеть результат.
      Расширенный режим предлагает элементы управления целями измерений и параметрами отслеживания, выделенными на боковой панели.
      Интерфейс Noise Lab для расширенного режима.
      Расширенный режим также является опцией ключевой стратегии в разделе «Параметры» боковой панели.
      Интерфейс Noise Lab для расширенного режима.

Метрики шума

Основная концепция

Шум добавляется для защиты конфиденциальности отдельных пользователей.

Высокое значение шума указывает на то, что сегменты/ключи разрежены и содержат вклады ограниченного числа конфиденциальных событий. Noise Lab делает это автоматически, позволяя отдельным пользователям «спрятаться в толпе», или, другими словами, защищает конфиденциальность этих ограниченных пользователей за счет большего количества добавленного шума.

Низкое значение шума указывает на то, что конфигурация данных была разработана таким образом, что позволяет отдельным пользователям «спрятаться в толпе». Это означает, что сегменты содержат данные из достаточного количества событий, чтобы убедиться в защите конфиденциальности отдельных пользователей.

Это утверждение справедливо как для средней процентной ошибки (APE), так и для RMSRE_T (среднеквадратической относительной ошибки с порогом).

APE (средняя процентная ошибка)

APE — это отношение шума к сигналу, а именно истинное суммарное значение.

Более низкие значения APE означают лучшее соотношение сигнал/шум.

Формула

Для данного сводного отчета APE рассчитывается следующим образом:

Уравнение для APE. Требуются абсолютные значения, поскольку шум может быть отрицательным.
Уравнение для APE. Требуются абсолютные значения, поскольку шум может быть отрицательным.

True — это истинное сводное значение. APE — это среднее значение шума по каждому истинному сводному значению, усреднённое по всем записям в сводном отчёте. В Noise Lab это значение затем умножается на 100 для получения процента.

Преимущества и недостатки

Бакеты меньшего размера оказывают непропорционально большое влияние на итоговое значение APE. Это может ввести в заблуждение при оценке шума. Поэтому мы добавили ещё одну метрику, RMSRE_T, которая призвана смягчить это ограничение APE. Подробности см. в примерах .

Код

Ознакомьтесь с исходным кодом для расчета APE.

RMSRE_T (среднеквадратическая относительная ошибка с порогом)

RMSRE_T (среднеквадратическая относительная ошибка с порогом) — еще одна мера шума.

Как интерпретировать RMSRE_T

Более низкие значения RMSRE_T означают лучшее соотношение сигнал/шум.
Например, если приемлемый для вашего варианта использования коэффициент шума составляет 20%, а RMSRE_T равен 0,2, вы можете быть уверены, что уровень шума попадает в приемлемый для вас диапазон.

Формула

Для данного сводного отчета RMSRE_T рассчитывается следующим образом:

Формула
Уравнение для RMSRE_T. Требуются абсолютные значения, поскольку шум может быть отрицательным.
Преимущества и недостатки

RMSRE_T немного сложнее для понимания, чем APE. Однако у него есть несколько преимуществ, которые делают его в некоторых случаях более подходящим, чем APE, для анализа шума в сводных отчётах:

  • RMSRE_T более стабилен. «T» — это пороговое значение. «T» используется для придания меньшего веса при расчёте RMSRE_T блокам с меньшим количеством конверсий, которые, следовательно, более чувствительны к шуму из-за своего малого размера. При значении T метрика не даёт резких скачков в блоках с небольшим количеством конверсий. Если T равно 5, значение шума, равное 1, в блоке с 0 конверсиями не будет отображаться как значительно больше 1. Вместо этого оно будет ограничено значением 0,2, что эквивалентно 1/5, поскольку T равно 5. Придавая меньший вес блокам меньшего размера, которые, следовательно, более чувствительны к шуму, эта метрика более стабильна и, следовательно, упрощает сравнение двух симуляций.
  • Значение RMSRE_T позволяет выполнять простую агрегацию. Зная значение RMSRE_T нескольких сегментов вместе с их истинными значениями, можно вычислить значение RMSRE_T их суммы. Это также позволяет оптимизировать значение RMSRE_T для этих объединённых значений.

Хотя агрегация возможна для APE, формула довольно сложна, поскольку использует абсолютное значение суммы шумов Лапласа. Это затрудняет оптимизацию APE.

Код

Ознакомьтесь с исходным кодом для расчета RMSRE_T.

Примеры

Сводный отчет по трем сегментам:

  • bucket_1 = шум: 10, trueSummaryValue: 100
  • bucket_2 = шум: 20, trueSummaryValue: 100
  • bucket_3 = шум: 20, trueSummaryValue: 200

АПЭ = (0,1 + 0,2 + 0,1) / 3 = 13%

RMSRE_T = sqrt( ( (10/max(5,100))^2  + (20/max(5,100))^2 +
(20/max(5,200))^2) / 3) =  sqrt( (0.01 + 0.04 + 0.01) / 3) =  0.14

Сводный отчет по трем сегментам:

  • bucket_1 = шум: 10, trueSummaryValue: 100
  • bucket_2 = шум: 20, trueSummaryValue: 100
  • bucket_3 = шум: 20, trueSummaryValue: 20

АПЭ = (0,1 + 0,2 + 1) / 3 = 43%

RMSRE_T = sqrt( ( (10/max(5,100))^2  + (20/max(5,100))^2 +
(20/max(5,20))^2) / 3)  =  sqrt( (0.01 + 0.04 + 1.0) / 3) =  0.59

Сводный отчет по трем сегментам:

  • bucket_1 = шум: 10, trueSummaryValue: 100
  • bucket_2 = шум: 20, trueSummaryValue: 100
  • bucket_3 = шум: 20, trueSummaryValue: 0

APE = (0,1 + 0,2 + Бесконечность) / 3 = Бесконечность

RMSRE_T = sqrt( ( (10/max(5,100))^2  + (20/max(5,100))^2  +
(20/max(5,0))^2) / 3) =  sqrt( (0.01 + 0.04 + 16.0) / 3) =  2.31

Расширенное управление ключами

У DSP или компании, занимающейся анализом эффективности рекламы, могут быть тысячи клиентов по всему миру, представляющих различные отрасли, валюты и потенциальные цены покупки. Это означает, что создание и управление одним ключом агрегации для каждого рекламодателя, вероятно, будет крайне непрактичным. Кроме того, будет сложно выбрать максимальное агрегируемое значение и бюджет агрегации, которые могли бы ограничить влияние шума на тысячи рекламодателей по всему миру. Вместо этого давайте рассмотрим следующие сценарии:

Ключевая стратегия А

Поставщик рекламных технологий решает создать и управлять одним ключом для всех своих клиентов. Диапазон покупок для всех рекламодателей и всех валют варьируется от небольших объёмов и дорогостоящих покупок до крупных объёмов и низкобюджетных покупок. В результате получается следующий ключ:

Ключ (несколько валют)
Максимальное агрегируемое значение 5,000,000
Диапазон стоимости покупки [120 - 5000000]
Ключевая стратегия B

Поставщик рекламных технологий решает создать и управлять двумя ключами для всех своих клиентов, предоставляющих рекламу. Они решают разделить ключи по валюте. Диапазон покупок для всех рекламодателей и всех валют варьируется от небольших объёмов и дорогостоящих покупок до крупных объёмов и дешевых покупок. Разделив их по валюте, они создают два ключа:

Ключ 1 (доллары США) Ключ 2 (¥)
Максимальное агрегируемое значение 40 000 долларов США 5 000 000 иен
Диапазон стоимости покупки [120 - 40 000] [15 000 - 5 000 000]

Ключевая стратегия B будет иметь меньше шума в результатах, чем ключевая стратегия A, поскольку валютные курсы распределены неравномерно. Например, рассмотрим, как покупки в йенах в сочетании с покупками в долларах США изменят базовые данные и приведут к зашумленности выходных данных.

Ключевая стратегия C

Поставщик рекламных технологий решает создать и управлять четырьмя ключами для всех своих рекламных клиентов и разделить их по принципу «Валюта x Отрасль рекламодателя»:

Ключ 1
(USD x Рекламодатели, рекламирующие ювелирные изделия премиум-класса)
Ключ 2
(¥ x Рекламодатели, рекламирующие ювелирные изделия высокого класса)
Ключ 3
(USD x Рекламодатели розничной торговли одеждой)
Ключ 4
(¥ x Рекламодатели розничной торговли одеждой)
Максимальное агрегируемое значение 40 000 долларов США 5 000 000 иен 500 долларов 65 000 иен
Диапазон стоимости покупки [10 000 - 40 000] [1,250,000 - 5,000,000] [120 - 500] [15 000 - 65 000]

Ключевая стратегия C будет содержать меньше шума в результатах, чем ключевая стратегия B, поскольку объёмы покупок рекламодателей распределены неравномерно. Например, рассмотрим, как покупка элитных ювелирных изделий в сочетании с покупкой бейсболок может изменить исходные данные и привести к появлению шума на выходе.

Рассмотрите возможность создания общих максимальных агрегированных значений и общих коэффициентов масштабирования для общих показателей для нескольких рекламодателей, чтобы снизить уровень шума в результатах. Например, вы можете поэкспериментировать со следующими стратегиями для своих рекламодателей:

  • Одна стратегия, разделенная по валютам (USD, ¥, CAD и т. д.)
  • Одна стратегия, разделенная по отраслям рекламодателя (страхование, авто, розничная торговля и т. д.)
  • Одна стратегия, разделенная схожими диапазонами стоимости покупки ([100], [1000], [10000] и т. д.)

Создавая ключевые стратегии на основе общих характеристик рекламодателей, вы упрощаете управление ключами и соответствующим кодом, а соотношение сигнал/шум повышается. Экспериментируйте с различными стратегиями, учитывая разные общие характеристики рекламодателей, чтобы выявить точки перегиба при максимизации воздействия шума по сравнению с управлением кодом.


Расширенное управление выбросами

Давайте рассмотрим сценарий с участием двух рекламодателей:

  • Рекламодатель А:
    • Для всех продуктов на сайте рекламодателя A возможные цены покупки находятся в диапазоне [$120 - $1000] при диапазоне $880.
    • Цены покупки равномерно распределены по всему диапазону 880 долларов США, без выбросов за пределами двух стандартных отклонений от медианной цены покупки.
  • Рекламодатель Б:
    • Для всех продуктов на сайте рекламодателя B возможные цены покупки находятся в диапазоне [$120 - $1000] при диапазоне $880.
    • Цены закупок в основном колеблются в диапазоне от 120 до 500 долларов США, и только 5% покупок совершаются в диапазоне от 500 до 1000 долларов США.

Учитывая требования к бюджету взносов и методологию применения шума к конечным результатам, Рекламодатель B по умолчанию будет иметь более шумный результат, чем Рекламодатель A, поскольку у Рекламодателя B выше вероятность того, что выбросы повлияют на основные расчеты.

Эту проблему можно решить с помощью специальной настройки ключа. Протестируйте ключевые стратегии, которые помогут управлять выбросами данных и более равномерно распределять стоимость покупок по всему диапазону ключа.

Для рекламодателя B вы можете создать два отдельных ключа для охвата двух разных диапазонов стоимости покупки. В этом примере специалист по рекламе заметил, что возникают выбросы выше стоимости покупки в 500 долларов. Попробуйте реализовать два отдельных ключа для этого рекламодателя:

  • Структура ключа 1: ключ, который охватывает только покупки в диапазоне от 120 до 500 долларов США (что составляет около 95% от общего объема покупок).
  • Структура ключа 2: ключ, который охватывает только покупки стоимостью свыше 500 долларов США (охватывающие ~5% от общего объема покупок).

Implementing this key strategy should better manage noise for Advertiser B and help to maximize utility for them from summary reports. Given the new smaller ranges, Key A and Key B should now have a more uniform distribution of data across each respective key that for the previous single key. This will result in less noise impact in each key's output that for the previous single key.