Работа с шумом

Узнайте, как работать с шумом, учитывать его и снижать его влияние в ваших сводных отчетах.

Прежде чем начать

Прежде чем продолжить, для более подробного понимания того, что такое шум и каково его воздействие, обратитесь к разделу «Понимание шума в сводных отчетах» .

Ваши средства контроля шума

Хотя вы не можете напрямую контролировать шум, добавляемый в ваши сводные отчеты, существуют шаги, которые вы можете предпринять для минимизации его влияния. В следующих разделах описаны эти стратегии.

Увеличьте масштаб до бюджета взносов.

Как поясняется в разделе «Понимание шума», шум, применяемый к суммарному значению для каждого ключа, основан на шкале от 0 до 65 536 (0 - CONTRIBUTION_BUDGET ).

Распределение шума осуществляется исходя из бюджета.
Распределение шума осуществляется исходя из бюджета.

Поэтому, чтобы максимизировать сигнал относительно шума, следует масштабировать каждое значение перед тем, как установить его в качестве агрегируемого значения, то есть умножить каждое значение на определенный коэффициент, коэффициент масштабирования , убедившись при этом, что оно остается в пределах бюджета вклада.

Относительный уровень шума с масштабированием и без него.
Относительный уровень шума с масштабированием и без него.

Расчет масштабного коэффициента

Коэффициент масштабирования показывает, насколько вы хотите масштабировать заданное агрегируемое значение. Его значение должно быть равно бюджету взносов, деленному на максимальное агрегируемое значение для определенного ключа.

Определение коэффициента масштабирования на основе бюджета взносов.
Определение коэффициента масштабирования на основе бюджета взносов.

Например, предположим, что рекламодатели хотят знать общую стоимость покупки. Вам известно, что максимальная ожидаемая стоимость любой отдельной покупки составляет 2000 долларов, за исключением нескольких выбросов, которые вы решили проигнорировать:

  • Рассчитайте коэффициент масштабирования :
    • Для максимизации отношения сигнал/шум необходимо масштабировать это значение до 65 536 (бюджет вклада).
    • В результате получаем 65 536 / 2000, что примерно соответствует 32 -кратному масштабному коэффициенту. На практике этот коэффициент можно округлять в большую или меньшую сторону.
  • Перед агрегированием масштабируйте значения . За каждый доллар покупки увеличивайте отслеживаемый показатель на 32. Например, для покупки на 120 долларов установите агрегируемое значение 120*32 = 3840.
  • После агрегирования уменьшите значения . Получив сводный отчет, содержащий сумму покупок по нескольким пользователям, уменьшите это значение, используя коэффициент масштабирования, который вы использовали до агрегирования. В нашем примере мы использовали коэффициент масштабирования 32 до агрегирования, поэтому нам нужно разделить полученное в сводном отчете значение на 32. Таким образом, если суммарное значение покупки для данного ключа в сводном отчете составляет 76 800, то суммарное значение покупки (с учетом шума) составит 76 800/32 = 2400 долларов.

Разделите свой бюджет на части

Если у вас несколько целей измерения — например, количество покупок и их стоимость — вы можете распределить свой бюджет между этими целями.

В этом случае коэффициенты масштабирования будут разными для разных агрегируемых значений в зависимости от ожидаемого максимального значения данного агрегируемого значения.

Подробности читайте в разделе «Понимание ключей агрегации» .

Например, предположим, что вы отслеживаете как количество покупок, так и их стоимость, и решили распределить бюджет поровну.

65 536 / 2 = 32 768 может быть выделено на каждый тип измерения и каждый источник.

  • Количество покупок:
    • Вы отслеживаете только одну покупку, поэтому максимальное количество покупок для одной конверсии составляет 1.
    • Таким образом, вы решаете установить коэффициент масштабирования для количества покупок равным 32 768 / 1 = 32 768.
  • Стоимость покупки:
    • Предположим, что максимальная ожидаемая стоимость любой отдельной покупки составляет 2000 долларов.
    • Таким образом, вы решаете установить коэффициент масштабирования для стоимости покупки равным 32 768 / 2000 = 16,384 или приблизительно 16.

Использование ключей с более грубой агрегацией улучшает соотношение сигнал/шум.

Поскольку крупные ключи позволяют обнаружить больше событий конверсии, чем мелкие, крупные ключи, как правило, приводят к более высоким суммарным значениям.

Более высокие суммарные значения менее подвержены влиянию шума, чем более низкие значения; уровень шума для этих значений, вероятно, будет ниже по сравнению с самим значением.

Значения, полученные с помощью более грубых ключей, вероятно, будут относительно менее зашумленными, чем значения, полученные с помощью более грубых ключей.

Пример

При прочих равных условиях, ключ, отслеживающий общую стоимость покупок (суммированную по всем странам), приведет к более высокой суммарной стоимости покупок (и большему суммарному количеству конверсий), чем ключ, отслеживающий конверсии на уровне отдельной страны.

Следовательно, относительный уровень шума в общей стоимости покупок для конкретной страны будет выше, чем относительный уровень шума в общей стоимости покупок для всех стран.

Аналогично, при прочих равных условиях, общая стоимость покупки обуви ниже, чем общая стоимость покупки всех товаров (включая обувь).

Следовательно, относительный шум в общей стоимости покупки обуви будет выше, чем относительный шум в общей стоимости покупки всех товаров.

Влияние шума при использовании клавиш с зернистой и грубой текстурой.
Влияние шума при использовании клавиш с зернистой и грубой текстурой.

Суммирование сводных значений (свертки) также суммирует их шум.

Суммируя значения из сводных отчетов для доступа к данным более высокого уровня, вы также суммируете шум, содержащийся в этих сводных значениях.

Уровень шума при использовании гранулированных клавиш с функцией свертывания по сравнению с грубыми клавишами без функции свертывания.
Уровень шума при использовании гранулированных клавиш с функцией свертывания по сравнению с грубыми клавишами без функции свертывания.

Рассмотрим два разных подхода:

  • Подход А : вы включаете географический идентификатор в свои ключи. Сводные отчеты отображают ключи на уровне географического идентификатора, каждый из которых связан со сводной стоимостью покупки на уровне конкретного географического идентификатора.
  • Подход Б : вы не включаете географический идентификатор в свои ключи. Сводные отчеты напрямую отображают суммарную стоимость покупок для всех географических идентификаторов/местоположений.

Для получения информации о стоимости покупок на уровне страны:

  • При подходе А вы суммируете сводные значения на уровне географических идентификаторов и, следовательно, суммируете и их шум. Это, вероятно, приведет к добавлению большего количества шума к итоговой стоимости покупки на уровне географических идентификаторов.
  • При подходе B вы напрямую обращаетесь к данным, представленным в сводных отчетах. Шум в эти данные добавляется только один раз.

Следовательно, сводная стоимость покупок для данного географического идентификатора, вероятно, будет более неточной при использовании подхода А.

Аналогично, включение в ключи параметра уровня почтового индекса, скорее всего, приведет к более шумным результатам, чем использование более грубых ключей с параметром уровня региона.

Агрегирование данных за более длительные периоды времени повышает отношение сигнал/шум.

Если запрашивать сводные отчеты реже, то значение каждого сводного отчета, скорее всего, будет выше, чем если бы вы запрашивали отчеты чаще; это, вероятно, приведет к увеличению числа конверсий за более длительный период времени.

Как уже упоминалось ранее, чем выше суммарное значение, тем ниже, вероятно, относительный уровень шума. Следовательно, запрос сводных отчетов реже приводит к более высокому (лучшему) соотношению сигнал/шум.

Чем реже запрашиваются сводные отчеты, тем выше соотношение полезной информации к шуму.
Чем реже запрашиваются сводные отчеты, тем выше соотношение полезной информации к шуму.

Вот пример для иллюстрации:

  • Если вы запрашиваете почасовые сводные отчеты за 24 часа, а затем суммируете сводные значения из каждого почасового отчета для доступа к данным за день, то шум добавляется 24 раза.
  • В одном из ежедневных сводных отчетов шум добавляется только один раз.

Чем выше эпсилон, тем ниже уровень шума.

Чем выше значение эпсилон, тем ниже уровень шума и тем ниже уровень защиты конфиденциальности.

Использование фильтрации и дедупликации

Важная часть распределения бюджета между различными ключевыми факторами — понимание того, сколько раз может произойти то или иное событие. Например, рекламодателя может интересовать только одна покупка за каждый клик, но при этом он может быть заинтересован в до 3 конверсиях типа «просмотр страницы товара». Для поддержки таких сценариев использования вы также можете использовать следующие функции API, которые позволяют контролировать количество генерируемых отчетов и учитываться следующие конверсии:

Эксперименты с эпсилоном

Специалисты по рекламным технологиям могут устанавливать значение эпсилон больше 0 и до 64 включительно. Этот диапазон обеспечивает гибкость тестирования. Более низкие значения эпсилон обеспечивают более надежную защиту конфиденциальности. Мы рекомендуем начать с эпсилон = 10.

Рекомендации по проведению экспериментов

Мы рекомендуем следующее:

  • Начните с эпсилон = 10.
  • В случае возникновения существенных проблем с функциональностью, увеличивайте значение эпсилон постепенно.
  • Поделитесь своим мнением о конкретных переломных моментах, которые вы можете обнаружить в отношении удобства использования данных.

Привлекайте и делитесь отзывами

Вы можете принять участие и поэкспериментировать с этим API .

Следующие шаги