Нойзелаб

Об этом документе

Прочитав этот документ, вы:

  • Поймите, какие стратегии следует разработать, прежде чем составлять сводные отчеты.
  • Познакомьтесь с Noise Lab — инструментом, который помогает понять влияние различных параметров шума и позволяет быстро исследовать и оценивать различные стратегии управления шумом.
Скриншот Noise Lab.
Шумовая Лаборатория

Поделитесь своим отзывом

Хотя этот документ суммирует несколько принципов работы с краткими отчетами, существует множество подходов к управлению шумом, которые могут не быть здесь отражены. Ваши предложения, дополнения и вопросы приветствуются!

Прежде чем начать

  1. Для ознакомления прочтите статьи Отчетность по атрибуции: сводные отчеты и полный обзор системы отчетности по атрибуции .
  2. Чтобы максимально эффективно использовать это руководство, просмотрите разделы «Понимание шума» и «Понимание ключей агрегации» .

Проектные решения

Основной принцип дизайна

Существуют фундаментальные различия между тем, как работают сторонние файлы cookie и сводные отчеты. Одно из ключевых различий — это шум, добавляемый к данным измерений в сводных отчетах. Другое — это то, как планируются отчеты.

Чтобы получить доступ к данным измерений сводного отчета с более высоким отношением сигнал/шум, платформы спроса (DSP) и поставщики измерений рекламы должны будут работать со своими рекламодателями для разработки стратегий управления шумом. Чтобы разработать эти стратегии, DSP и поставщики измерений должны принять решения по дизайну. Эти решения вращаются вокруг одной важной концепции:

Хотя значения шума распределения, по сути, зависят только от двух параметров: эпсилона и бюджета вклада, в вашем распоряжении имеется ряд других элементов управления, которые повлияют на соотношение сигнал/шум ваших выходных данных измерений.

Хотя мы ожидаем, что итеративный процесс приведет к лучшим решениям, каждое изменение этих решений приведет к немного иной реализации — поэтому эти решения необходимо принимать перед написанием каждой итерации кода (и перед запуском рекламы).

Решение: Детализация измерений

Попробуйте в Noise Lab

  1. Перейдите в расширенный режим.
  2. На боковой панели «Параметры» найдите данные о ваших конверсиях.
  3. Обратите внимание на параметры по умолчанию. По умолчанию ОБЩЕЕ ежедневное количество атрибутивных конверсий составляет 1000. Это в среднем составляет около 40 на сегмент, если вы используете настройку по умолчанию (измерения по умолчанию, количество возможных различных значений по умолчанию для каждого измерения, ключевая стратегия A). Обратите внимание, что значение равно 40 во входном значении Среднее ежедневное количество атрибутивных конверсий НА СЕТЬ.
  4. Нажмите «Симулировать», чтобы запустить симуляцию с параметрами по умолчанию.
  5. На боковой панели «Параметры» найдите «Измерения». Переименуйте «Географию» в «Город» и измените количество возможных различных значений на 50.
  6. Посмотрите, как это меняет среднее ежедневное количество атрибутивных конверсий НА КОРЗИНУ. Теперь оно намного ниже. Это происходит потому, что если вы увеличиваете количество возможных значений в этом измерении, не меняя ничего другого, вы увеличиваете общее количество корзин, не меняя количество событий конверсии, которые попадут в каждую корзину.
  7. Нажмите «Симулировать».
  8. Обратите внимание на коэффициент шума полученной симуляции: теперь коэффициент шума выше, чем в предыдущей симуляции.

Учитывая основной принцип дизайна , небольшие сводные значения, вероятно, будут более шумными, чем большие сводные значения. Таким образом, ваш выбор конфигурации влияет на то, сколько атрибутированных событий конверсии попадет в каждую корзину (иначе называемую вашим ключом агрегации), и это количество влияет на шум в итоговых выходных сводных отчетах.

Одним из решений дизайна, которое влияет на количество атрибутированных событий конверсии в пределах одного сегмента, является гранулярность измерения. Рассмотрим следующие примеры ключей агрегации и их измерений:

  • Подход 1: одна ключевая структура с грубыми измерениями: Страна x Рекламная кампания (или самая большая группа агрегации кампаний) x Тип продукта (из 10 возможных типов продуктов)
  • Подход 2: одна ключевая структура с детализированными параметрами: Город x Идентификатор креатива x Продукт (из 100 возможных продуктов)

Город — более детальное измерение, чем Страна ; Идентификатор креатива более детальный, чем Кампания ; а Продукт более детальный, чем Тип продукта . Таким образом, Подход 2 будет иметь меньшее количество событий (конверсий) на сегмент (= на ключ) в своем сводном отчете, чем Подход 1. Учитывая, что шум, добавленный к выходным данным, не зависит от количества событий в сегменте, данные измерений в сводных отчетах будут более шумными при Подходе 2. Для каждого рекламодателя поэкспериментируйте с различными компромиссами детализации в дизайне ключа, чтобы получить максимальную полезность в результатах.

Решение: Ключевые структуры

Попробуйте в Noise Lab

В простом режиме используется структура ключа по умолчанию. В расширенном режиме вы можете экспериментировать с различными структурами ключа. Включены некоторые примеры измерений; вы также можете их изменить.

  1. Перейдите в расширенный режим.
  2. На боковой панели параметров найдите ключевую стратегию. Обратите внимание, что стратегия по умолчанию, названная в инструменте A, использует одну гранулярную ключевую структуру, которая включает все измерения: География x Идентификатор кампании x Категория продукта.
  3. Нажмите «Симулировать».
  4. Обратите внимание на коэффициенты шума полученной симуляции.
  5. Измените стратегию ключа на B. Это отобразит дополнительные элементы управления для настройки структуры ключа.
  6. Настройте структуру ключа, например, следующим образом:
    1. Количество ключевых структур: 2
    2. Структура ключа 1 = География x Категория продукта.
    3. Структура ключа 2 = Идентификатор кампании x Категория продукта.
  7. Нажмите «Симулировать».
  8. Обратите внимание, что теперь вы получаете два сводных отчета для каждого типа цели измерения (два для количества покупок, два для стоимости покупки), учитывая, что вы используете две различные ключевые структуры. Обратите внимание на их коэффициенты шума.
  9. Вы также можете попробовать это с вашими собственными пользовательскими измерениями. Для этого найдите Данные, которые вы хотите отслеживать: Измерения. Рассмотрите возможность удаления примеров измерений и создания собственных с помощью кнопок Добавить/Удалить/Сбросить под последним измерением.

Другим решением по проектированию, которое повлияет на количество атрибутированных событий конверсии в пределах одного сегмента, являются ключевые структуры, которые вы решите использовать. Рассмотрим следующие примеры ключей агрегации:

  • Одна ключевая структура со всеми измерениями; назовем ее Ключевой стратегией А.
  • Две ключевые структуры, каждая с подмножеством измерений; назовем это ключевой стратегией B.
Разделы для ключевых стратегий A и B.
Разделы для ключевых стратегий A и B.

Стратегия A проще, но вам может потребоваться свернуть (суммировать) шумные сводные значения, включенные в сводные отчеты, чтобы получить доступ к определенным идеям. Суммируя эти значения, вы также суммируете шум. При использовании стратегии B сводные значения, представленные в сводных отчетах, могут уже дать вам необходимую информацию. Это означает, что стратегия B, скорее всего, приведет к лучшим соотношениям сигнал/шум, чем стратегия A. Однако шум может быть уже приемлемым при использовании стратегии A, поэтому вы все равно можете решить отдать предпочтение стратегии A для простоты. Узнайте больше в подробном примере, описывающем эти две стратегии .

Управление ключами — глубокая тема. Можно рассмотреть ряд сложных методов для улучшения соотношения сигнал/шум. Один из них описан в разделе Расширенное управление ключами .

Решение: Частота пакетирования

Попробуйте в Noise Lab

  1. Перейдите в простой режим (или расширенный режим — оба режима работают одинаково, когда дело касается частоты пакетирования)
  2. На боковой панели «Параметры» найдите «Ваша стратегия агрегации» > «Частота пакетирования». Это относится к частоте пакетирования агрегируемых отчетов, которая обрабатывается службой агрегации в одном задании.
  3. Обратите внимание на частоту дозирования по умолчанию: по умолчанию моделируется ежедневная частота дозирования.
  4. Нажмите «Симулировать».
  5. Обратите внимание на коэффициенты шума полученной симуляции.
  6. Измените частоту дозирования на еженедельную.
  7. Обратите внимание на коэффициент шума полученной симуляции: коэффициент шума теперь ниже (лучше), чем для предыдущей симуляции.

Другим решением по проектированию, которое повлияет на количество атрибутированных событий конверсии в пределах одного сегмента, является частота пакетирования, которую вы решите использовать. Частота пакетирования — это то, как часто вы обрабатываете агрегированные отчеты.

Отчет, запланированный для агрегации чаще (например, каждый час), будет иметь меньше включенных событий конверсии, чем тот же отчет с менее частым графиком агрегации (например, каждую неделю). В результате почасовой отчет будет включать больше шума.``` иметь меньше включенных событий конверсии, чем тот же отчет с менее частым графиком агрегации (например, каждую неделю). В результате почасовой отчет будет иметь более низкое отношение сигнал/шум, чем еженедельный отчет, при прочих равных условиях. Поэкспериментируйте с требованиями к отчетности на разных частотах и ​​оцените отношения сигнал/шум для каждого.

Узнайте больше в разделе Пакетирование и агрегирование за более длительные периоды времени .

Решение: переменные кампании, влияющие на атрибутивные конверсии

Попробуйте в Noise Lab

Хотя это может быть трудно предсказать и, помимо сезонных факторов, могут быть существенные колебания, попробуйте оценить количество ежедневных конверсий, связанных с одним касанием, до ближайшей степени 10: 10, 100, 1000 или 10 000.

  1. Перейдите в расширенный режим.
  2. На боковой панели «Параметры» найдите данные о ваших конверсиях.
  3. Обратите внимание на параметры по умолчанию. По умолчанию ОБЩЕЕ ежедневное количество атрибутивных конверсий составляет 1000. Это в среднем составляет около 40 на сегмент, если вы используете настройку по умолчанию (измерения по умолчанию, количество возможных различных значений по умолчанию для каждого измерения, ключевая стратегия A). Обратите внимание, что значение равно 40 во входном значении Среднее ежедневное количество атрибутивных конверсий НА СЕТЬ.
  4. Нажмите «Симулировать», чтобы запустить симуляцию с параметрами по умолчанию.
  5. Обратите внимание на коэффициенты шума полученной симуляции.
  6. Теперь установите ОБЩЕЕ ежедневное количество атрибутивных конверсий на 100. Обратите внимание, что это снижает значение Среднее ежедневное количество атрибутивных конверсий НА ГРУППУ.
  7. Нажмите «Симулировать».
  8. Обратите внимание, что коэффициенты шума теперь выше: это связано с тем, что при меньшем количестве конверсий на сегмент применяется больше шума для сохранения конфиденциальности.

Важное различие — это общее количество возможных конверсий для рекламодателя по сравнению с общим количеством возможных атрибутированных конверсий. Последнее в конечном итоге влияет на шум в сводных отчетах. Атрибутивные конверсии — это подмножество общих конверсий, которые подвержены переменным кампании, таким как рекламный бюджет и таргетинг рекламы. Например, вы могли бы ожидать большего количества атрибутированных конверсий для рекламной кампании стоимостью 10 млн долларов по сравнению с рекламной кампанией стоимостью 10 тыс. долларов, при прочих равных условиях.

Что следует учитывать:

  • Оценивайте атрибутированные конверсии с помощью модели атрибуции «в одно касание» и «на одном устройстве», поскольку они входят в область сводных отчетов, собираемых с помощью API отчетов об атрибуции.
  • Рассмотрите как количество худшего сценария, так и количество лучшего сценария для атрибутированных конверсий. Например, при прочих равных условиях рассмотрите минимальный и максимальный возможные бюджеты кампании для рекламодателя, затем спрогнозируйте атрибутированные конверсии для обоих результатов в качестве входных данных для вашего моделирования.
  • Если вы рассматриваете возможность использования Android Privacy Sandbox , примите во внимание кроссплатформенные атрибутированные конверсии при расчете.

Решение: Использование масштабирования

Попробуйте в Noise Lab

  1. Перейдите в расширенный режим.
  2. На боковой панели «Параметры» найдите «Ваша стратегия агрегации» > «Масштабирование». По умолчанию установлено «Да».
  3. Чтобы понять положительное влияние масштабирования на коэффициент шума, сначала установите для параметра «Масштабирование» значение «Нет».
  4. Нажмите «Симулировать».
  5. Обратите внимание на коэффициенты шума полученной симуляции.
  6. Установите Масштабирование на Да. Обратите внимание, что Noise Lab автоматически вычисляет коэффициенты масштабирования, которые будут использоваться, учитывая диапазоны (средние и максимальные значения) целей измерения для вашего сценария. В реальной системе или исходной пробной установке вам захочется реализовать собственный расчет коэффициентов масштабирования.
  7. Нажмите «Симулировать».
  8. Обратите внимание, что коэффициенты шума теперь ниже (лучше) в этой второй симуляции. Это потому, что вы используете масштабирование.

Учитывая основной принцип проектирования , добавленный шум является функцией бюджета вклада.

Поэтому, чтобы увеличить отношение сигнал/шум, вы можете решить преобразовать значения, собранные во время события конверсии, масштабируя их в соответствии с бюджетом вклада (и демасштабируя их после агрегации). Используйте масштабирование для увеличения отношения сигнал/шум.

Решение: Количество целей измерения и распределение бюджета на конфиденциальность

Это относится к масштабированию; обязательно прочтите раздел Использование масштабирования .

Попробуйте в Noise Lab

Цель измерения — это отдельная точка данных, собранная в ходе конверсионных событий.

  1. Перейдите в расширенный режим.
  2. На боковой панели параметров найдите Данные, которые вы хотите отслеживать: цели измерения. По умолчанию у вас есть две цели измерения: стоимость покупки и количество покупок.
  3. Нажмите «Симулировать», чтобы запустить симуляцию с целями по умолчанию.
  4. Нажмите Удалить. Это удалит последнюю цель измерения (в данном случае количество покупок).
  5. Нажмите «Симулировать».
  6. Обратите внимание, что коэффициенты шума для стоимости покупки теперь ниже (лучше) для этой второй симуляции. Это потому, что у вас меньше целей измерения, поэтому ваша одна цель измерения теперь получает весь бюджет вклада.
  7. Нажмите «Сброс». Теперь у вас снова есть две цели измерения: стоимость покупки и количество покупок. Обратите внимание, что Noise Lab автоматически вычисляет коэффициенты масштабирования, которые будут использоваться, учитывая диапазоны (средние и максимальные значения) целей измерения для вашего сценария. По умолчанию Noise Lab делит бюджет поровну между целями измерения.
  8. Нажмите «Симулировать».
  9. Наблюдайте за коэффициентами шума полученной симуляции. Обратите внимание на масштабные коэффициенты, отображаемые в симуляции.
  10. Теперь давайте настроим распределение бюджета конфиденциальности, чтобы добиться лучшего соотношения сигнал/шум.
  11. Настройте % бюджета, назначенный для каждой цели измерения. Учитывая параметры по умолчанию, цель измерения 1, а именно стоимость покупки, имеет гораздо более широкий диапазон (от 0 до 1000), чем цель измерения 2, а именно количество покупок (от 1 до 1, т. е. всегда равно 1). Из-за этого ей нужно «больше места для масштабирования»: было бы идеально назначить больший бюджет вклада цели измерения 1, чем цели измерения 2, чтобы ее можно было масштабировать более эффективно (см. Масштабирование), и, следовательно,
  12. Выделите 70% бюджета на цель измерения 1. Выделите 30% на цель измерения 2.
  13. Нажмите «Симулировать».
  14. Обратите внимание на коэффициенты шума полученной симуляции. Для стоимости покупки коэффициенты шума теперь заметно ниже (лучше), чем для предыдущей симуляции. Для количества покупок они примерно не изменились.
  15. Продолжайте корректировать распределение бюджета по метрикам. Наблюдайте, как это влияет на шум.

Обратите внимание, что вы можете задать собственные цели измерений с помощью кнопок «Добавить/Удалить/Сбросить».


Если вы измеряете одну точку данных (цель измерения) для события конверсии, например, количество конверсий, эта точка данных может получить весь бюджет вклада (65536). Если вы устанавливаете несколько целей измерения для события конверсии, например, количество конверсий и стоимость покупки, то эти точки данных должны будут делить бюджет вклада. Это означает, что у вас меньше свободы для масштабирования ваших значений.

Следовательно, чем больше у вас целей измерения, тем ниже, скорее всего, будет отношение сигнал/шум (выше уровень шума).

Другое решение, которое необходимо принять относительно целей измерения, — это разделение бюджета. Если вы разделите бюджет взносов поровну между двумя точками данных, каждая точка данных получит бюджет 65536/2 = 32768. Это может быть оптимальным или неоптимальным в зависимости от максимально возможного значения для каждой точки данных. Например, если вы измеряете количество покупок, которое имеет максимальное значение 1, и стоимость покупки с минимальным значением 1 и максимальным значением 120, стоимость покупки выиграет от наличия «большего пространства» для масштабирования, то есть для предоставления большей доли бюджета взносов. Вы увидите, следует ли отдать приоритет некоторым целям измерения над другими в связи с воздействием шума.

Решение: Управление выбросами

Попробуйте в Noise Lab

Цель измерения — это отдельная точка данных, собранная в ходе конверсионных событий.

  1. Перейдите в расширенный режим.
  2. На боковой панели «Параметры» найдите раздел «Ваша стратегия агрегации» > «Масштабирование».
  3. Убедитесь, что Масштабирование установлено на Да. Обратите внимание, что Noise Lab автоматически вычисляет коэффициенты масштабирования, которые будут использоваться, на основе диапазонов (средних и максимальных значений), которые вы указали для целей измерения.
  4. Предположим, что самая крупная покупка, когда-либо сделанная, составила $2000, но большинство покупок совершается в диапазоне $10-$120. Сначала посмотрим, что произойдет, если мы используем подход буквального масштабирования (не рекомендуется): введите $2000 в качестве максимального значения для purchaseValue.
  5. Нажмите «Симулировать».
  6. Обратите внимание, что коэффициенты шума высоки. Это связано с тем, что наш коэффициент масштабирования рассчитан на основе $2000, тогда как в реальности большинство значений покупки будут значительно ниже этой суммы.
  7. Теперь давайте используем более прагматичный подход к масштабированию. Изменим максимальную стоимость покупки на $120.
  8. Нажмите «Симулировать».
  9. Обратите внимание, что коэффициент шума ниже (лучше) во второй симуляции.

Для реализации масштабирования обычно рассчитывается коэффициент масштабирования на основе максимально возможного значения для данного события конверсии ( подробнее в этом примере ).

Однако избегайте использования буквального максимального значения для расчета этого коэффициента масштабирования, поскольку это ухудшит ваши отношения сигнал/шум. Вместо этого удалите выбросы и используйте прагматичное максимальное значение.

Управление выбросами — глубокая тема. Можно рассмотреть ряд сложных методов для улучшения соотношения сигнал/шум. Один из них описан в разделе Расширенное управление выбросами .

Следующие шаги

Теперь, когда вы оценили различные стратегии управления шумом для вашего варианта использования, вы готовы начать экспериментировать с краткими отчетами, собирая реальные данные измерений с помощью исходного пробного периода. Ознакомьтесь с руководствами и советами по использованию API .

Приложение

Краткий обзор Noise Lab

Noise Lab поможет вам быстро оценить и сравнить стратегии управления шумом. Используйте его для:

  • Изучите основные параметры, которые могут влиять на шум, и их влияние.
  • Моделируйте влияние шума на выходные данные измерений с учетом различных проектных решений. Настраивайте проектные параметры, пока не достигнете соотношения сигнал/шум, подходящего для вашего варианта использования.
  • Поделитесь своим мнением о полезности сводных отчетов: какие значения параметров эпсилон и шума вам подходят, а какие нет? Где точки перегиба?

Думайте об этом как о подготовительном этапе. Noise Lab генерирует данные измерений для имитации выходных данных сводного отчета на основе вашего ввода. Он не сохраняет и не передает какие-либо данные.

В Noise Lab есть два разных режима:

  1. Простой режим: изучите основы контроля шума.
  2. Расширенный режим: протестируйте различные стратегии управления шумом и оцените, какая из них обеспечивает наилучшее соотношение сигнал/шум для ваших вариантов использования.

Для переключения между двумя режимами нажмите кнопки в верхнем меню ( № 1 на следующем снимке экрана ).

Простой режим
  • В простом режиме вы управляете параметрами (расположенными слева или под номером 2 на следующем снимке экрана ), такими как Эпсилон, и видите, как они влияют на шум.
  • Каждый параметр имеет подсказку (кнопку `?`). Щелкните их, чтобы увидеть объяснение каждого параметра ( #3. на следующем снимке экрана )
  • Для начала нажмите кнопку «Симулировать» и посмотрите, как выглядит результат ( № 4 на следующем снимке экрана ).
  • В разделе «Вывод» вы можете увидеть множество деталей. Некоторые элементы имеют `?` рядом с собой. Уделите время, чтобы нажать на каждый `?`, чтобы увидеть объяснение различных фрагментов информации.
  • В разделе «Вывод» нажмите переключатель «Подробности», если вы хотите увидеть расширенную версию таблицы ( № 5 на следующем снимке экрана ).
  • После каждой таблицы данных в разделе вывода есть опция загрузки таблицы для использования в автономном режиме. Кроме того, в правом нижнем углу есть опция загрузки всех таблиц данных ( #6. на следующем снимке экрана )
  • Протестируйте различные настройки параметров в разделе «Параметры» и нажмите «Симулировать», чтобы увидеть, как они влияют на результат:
    Интерфейс Noise Lab для простого режима.
    Интерфейс Noise Lab для простого режима.
Расширенный режим
  • В расширенном режиме у вас больше контроля над параметрами. Вы можете добавлять пользовательские цели и измерения измерений ( #1. и #2. на следующем снимке экрана )
  • Прокрутите вниз раздел «Параметры» и найдите опцию «Стратегия ключа». Это можно использовать для тестирования различных структур ключа ( #3. на следующем снимке экрана )
    • Чтобы протестировать различные структуры ключей, переключите стратегию ключей на «B».
    • Введите количество различных структур ключей, которые вы хотите использовать (по умолчанию установлено значение «2»).
    • Нажмите «Сгенерировать ключевые структуры».
    • Вы увидите параметры для указания ваших ключевых структур, установив флажки рядом с ключами, которые вы хотите включить для каждой ключевой структуры.
    • Нажмите «Симулировать», чтобы увидеть результат.
      Расширенный режим предлагает элементы управления целями измерений и отслеживаемыми параметрами, выделенными на боковой панели.
      Интерфейс Noise Lab для расширенного режима.
      Расширенный режим также является опцией ключевой стратегии в разделе «Параметры» боковой панели.
      Интерфейс Noise Lab для расширенного режима.

Метрики шума

Основная концепция

Шум добавляется для защиты конфиденциальности отдельных пользователей.

Высокое значение шума указывает на то, что сегменты/ключи редки и содержат вклады ограниченного числа чувствительных событий. Это делается автоматически Noise Lab, чтобы позволить людям «спрятаться в толпе», или, другими словами, защищает конфиденциальность этих ограниченных людей большим количеством добавленного шума.

Низкое значение шума указывает на то, что настройка данных была разработана таким образом, что уже позволяет отдельным лицам «спрятаться в толпе». Это означает, что сегменты содержат данные из достаточного количества событий, чтобы убедиться, что конфиденциальность отдельных пользователей защищена.

Это утверждение справедливо как для средней процентной ошибки (APE), так и для RMSRE_T (среднеквадратической относительной ошибки с пороговым значением).

APE (средний процент ошибки)

APE — это отношение шума к сигналу, а именно истинное суммарное значение.

Более низкие значения APE означают лучшее соотношение сигнал/шум.

Формула

Для данного сводного отчета APE рассчитывается следующим образом:

Уравнение для APE. Требуются абсолютные значения, так как шум может быть отрицательным.
Уравнение для APE. Требуются абсолютные значения, так как шум может быть отрицательным.

True — это истинное итоговое значение. APE — это среднее значение шума по каждому истинному итоговому значению, усредненное по всем записям в сводном отчете. В Noise Lab это затем умножается на 100, чтобы получить процент.

Преимущества и недостатки

Бакеты с меньшими размерами оказывают непропорциональное влияние на конечное значение APE. Это может ввести в заблуждение при оценке шума. Вот почему мы добавили еще одну метрику, RMSRE_T, которая предназначена для смягчения этого ограничения APE. Ознакомьтесь с примерами для получения подробной информации.

Код

Ознакомьтесь с исходным кодом расчета APE.

RMSRE_T (среднеквадратическая относительная ошибка с пороговым значением)

RMSRE_T (среднеквадратическая относительная ошибка с пороговым значением) — еще одна мера шума.

Как интерпретировать RMSRE_T

Более низкие значения RMSRE_T означают лучшее соотношение сигнал/шум.
Например, если коэффициент шума, приемлемый для вашего варианта использования, составляет 20%, а RMSRE_T равен 0,2, вы можете быть уверены, что уровень шума попадает в приемлемый для вас диапазон.

Формула

Для данного сводного отчета RMSRE_T рассчитывается следующим образом:

Формула
Уравнение для RMSRE_T. Требуются абсолютные значения, так как шум может быть отрицательным.
Преимущества и недостатки

RMSRE_T немного сложнее для понимания, чем APE. Однако у него есть несколько преимуществ, которые делают его в некоторых случаях более подходящим, чем APE, для анализа шума в сводных отчетах:

  • RMSRE_T более стабилен. «T» — это пороговое значение. «T» используется для придания меньшего веса в расчете RMSRE_T блокам, которые имеют меньше конверсий и, следовательно, более чувствительны к шуму из-за своего небольшого размера. При использовании T метрика не дает скачков на блоках с небольшим количеством конверсий. Если T равно 5, значение шума, равное 1, на блоке с 0 конверсиями не будет отображаться как намного больше 1. Вместо этого оно будет ограничено значением 0,2, что эквивалентно 1/5, поскольку T равно 5. Придавая меньший вес меньшим блокам, которые, следовательно, более чувствительны к шуму, эта метрика более стабильна и, следовательно, упрощает сравнение двух симуляций.
  • RMSRE_T допускает прямое агрегирование. Знание RMSRE_T нескольких сегментов вместе с их истинными счетчиками позволяет вычислить RMSRE_T их суммы. Это также позволяет оптимизировать RMSRE_T для этих объединенных значений.

Хотя агрегация возможна для APE, формула довольно сложна, поскольку она включает в себя абсолютное значение суммы шумов Лапласа. Это затрудняет оптимизацию APE.

Код

Ознакомьтесь с исходным кодом расчета RMSRE_T.

Примеры

Сводный отчет с тремя блоками:

  • bucket_1 = шум: 10, trueSummaryValue: 100
  • bucket_2 = шум: 20, trueSummaryValue: 100
  • bucket_3 = шум: 20, trueSummaryValue: 200

АПЕ = (0,1 + 0,2 + 0,1) / 3 = 13%

RMSRE_T = sqrt( ( (10/max(5,100))^2  + (20/max(5,100))^2 +
(20/max(5,200))^2) / 3) =  sqrt( (0.01 + 0.04 + 0.01) / 3) =  0.14

Сводный отчет с тремя блоками:

  • bucket_1 = шум: 10, trueSummaryValue: 100
  • bucket_2 = шум: 20, trueSummaryValue: 100
  • bucket_3 = шум: 20, trueSummaryValue: 20

АПЭ = (0,1 + 0,2 + 1) / 3 = 43%

RMSRE_T = sqrt( ( (10/max(5,100))^2  + (20/max(5,100))^2 +
(20/max(5,20))^2) / 3)  =  sqrt( (0.01 + 0.04 + 1.0) / 3) =  0.59

Сводный отчет с тремя блоками:

  • bucket_1 = шум: 10, trueSummaryValue: 100
  • bucket_2 = шум: 20, trueSummaryValue: 100
  • bucket_3 = шум: 20, trueSummaryValue: 0

APE = (0,1 + 0,2 + Бесконечность) / 3 = Бесконечность

RMSRE_T = sqrt( ( (10/max(5,100))^2  + (20/max(5,100))^2  +
(20/max(5,0))^2) / 3) =  sqrt( (0.01 + 0.04 + 16.0) / 3) =  2.31

Расширенное управление ключами

DSP или компания по измерению рекламы могут иметь тысячи глобальных клиентов по рекламе, охватывающих несколько отраслей, валют и потенциалов закупочной цены. Это означает, что создание и управление одним ключом агрегации для каждого рекламодателя, скорее всего, будет крайне непрактичным. Кроме того, будет сложно выбрать максимальное агрегируемое значение и бюджет агрегации, которые могут ограничить влияние шума на эти тысячи глобальных рекламодателей. Вместо этого давайте рассмотрим следующие сценарии:

Ключевая стратегия А

Поставщик рекламных технологий решает создать и управлять одним ключом для всех своих рекламных клиентов. Для всех рекламодателей и всех валют диапазон покупок варьируется от небольших объемов и дорогостоящих покупок до крупных объемов и дешевых покупок. Это приводит к следующему ключу:

Ключ (несколько валют)
Максимальное агрегируемое значение 5,000,000
Диапазон стоимости покупки [120 - 5000000]
Ключевая стратегия B

Поставщик рекламных технологий решает создать и управлять двумя ключами для всех своих клиентов по рекламе. Они решают разделить ключи по валюте. Для всех рекламодателей и всех валют диапазон покупок варьируется от небольших объемов и дорогостоящих покупок до крупных объемов и дешевых покупок. Разделяя по валюте, они создают 2 ключа:

Ключ 1 (доллары США) Ключ 2 (¥)
Максимальное агрегируемое значение 40 000 долларов США 5 000 000 йен
Диапазон стоимости покупки [120 - 40 000] [15 000 - 5 000 000]

Ключевая стратегия B будет иметь меньше шума в своем результате, чем ключевая стратегия A, поскольку валютные значения неравномерно распределены по валютам. Например, рассмотрим, как покупки, деноминированные в ¥, смешанные с покупками, деноминированными в USD, изменят базовые данные и результирующий шумовой вывод.

Ключевая стратегия C

Поставщик рекламных технологий решает создать и управлять четырьмя ключами для всех своих рекламных клиентов и разделить их по принципу «Валюта x Отрасль рекламодателя»:

Ключ 1
(USD x Рекламодатели, рекламирующие ювелирные изделия высокого класса)
Ключ 2
(¥ x Рекламодатели ювелирных изделий высокого класса)
Ключ 3
(USD x Рекламодатели розничной торговли одеждой)
Ключ 4
(¥ x Рекламодатели розничной торговли одеждой)
Максимальное агрегируемое значение 40 000 долларов США 5 000 000 йен 500 долларов 65 000 иен
Диапазон стоимости покупки [10 000 - 40 000] [1,250,000 - 5,000,000] [120 - 500] [15 000 - 65 000]

Ключевая стратегия C будет иметь меньше шума в своем результате, чем ключевая стратегия B, поскольку стоимость покупок рекламодателей неравномерно распределена среди рекламодателей. Например, рассмотрим, как покупки дорогих ювелирных изделий в сочетании с покупками бейсболок изменят базовые данные и результирующий шумовой вывод.

Рассмотрите возможность создания общих максимальных совокупных значений и общих масштабных коэффициентов для общностей среди нескольких рекламодателей, чтобы уменьшить шум в выходных данных. Например, вы можете поэкспериментировать со следующими стратегиями для ваших рекламодателей:

  • Одна стратегия, разделенная по валютам (USD, ¥, CAD и т. д.)
  • Одна стратегия, разделенная по отраслям рекламодателя (страхование, авто, розничная торговля и т. д.)
  • Одна стратегия, разделенная схожими диапазонами стоимости покупки ([100], [1000], [10000] и т. д.)

Создавая ключевые стратегии вокруг общих черт рекламодателей, ключами и соответствующим кодом легче управлять, а соотношение сигнал/шум становится выше. Экспериментируйте с различными стратегиями с различными общими чертами рекламодателей, чтобы выявить точки перегиба в максимизации воздействия шума по сравнению с управлением кодом.


Расширенное управление выбросами

Давайте рассмотрим сценарий с участием двух рекламодателей:

  • Рекламодатель А:
    • Для всех продуктов на сайте рекламодателя A возможные цены покупки находятся в диапазоне [$120–$1000] , что соответствует диапазону $880.
    • Цены покупки равномерно распределены в диапазоне 880 долларов США, без выбросов за пределами двух стандартных отклонений от медианной цены покупки.
  • Рекламодатель Б:
    • Для всех продуктов на сайте рекламодателя B возможные цены покупки находятся в диапазоне [$120–$1000] при диапазоне $880.
    • Цены закупок в значительной степени колеблются в диапазоне от 120 до 500 долларов США, и только 5% покупок совершаются в диапазоне от 500 до 1000 долларов США.

Учитывая требования к бюджету взносов и методологию, с помощью которой шум применяется к конечным результатам, Рекламодатель B по умолчанию будет иметь более шумный результат, чем Рекламодатель A, поскольку у Рекламодателя B более высокий потенциал воздействия выбросов на базовые расчеты.

Это можно смягчить с помощью специальной настройки ключа. Тестируйте ключевые стратегии, которые помогают управлять данными с выбросами и более равномерно распределять значения покупки по диапазону покупки ключа.

Для рекламодателя B вы можете создать два отдельных ключа для захвата двух разных диапазонов стоимости покупки. В этом примере рекламный техник заметил, что выбросы появляются выше стоимости покупки в 500 долларов. Попробуйте реализовать два отдельных ключа для этого рекламодателя:

  • Структура ключа 1: ключ, который охватывает только покупки в диапазоне от 120 до 500 долларов США (что составляет ~95% от общего объема покупок).
  • Структура ключа 2: ключ, который охватывает только покупки стоимостью более 500 долларов США (что составляет ~5% от общего объема покупок).

Реализация этой ключевой стратегии должна лучше управлять шумом для рекламодателя B и помочь максимизировать утилиту для них из сводных отчетов. Учитывая новые меньшие диапазоны, ключ A и ключ B теперь должны иметь более равномерное распределение данных по каждому соответствующему ключу, которая для предыдущего единого ключа. Это приведет к меньшему воздействию шума на выходе каждого ключа, который для предыдущего единственного ключа.