Узнайте, что такое шум, где он появляется и как он влияет на ваши измерения.
Сводные отчеты являются результатом агрегации агрегируемых отчетов . Когда агрегируемые отчеты группируются сборщиком и обрабатываются службой агрегации, к полученным сводным отчетам добавляется шум — случайный объем данных. Шум добавляется для защиты конфиденциальности пользователя. Цель этого механизма — иметь структуру, которая может поддерживать дифференциально частные измерения.

Введение в шум в сводных отчетах
Хотя добавление шума сегодня обычно не является частью измерения эффективности рекламы, во многих случаях добавленный шум не окажет существенного влияния на интерпретацию результатов.
Возможно, будет полезно поразмыслить об этом следующим образом: были бы вы уверены, принимая решение на основе определенных данных, если бы эти данные не были зашумленными?
Например, будет ли рекламодатель уверен в необходимости изменения стратегии или бюджета своей кампании, основываясь на том факте, что кампания A имела 15 конверсий, а кампания B — 16?
Если ответ «нет», то шум не имеет значения.
Вам нужно настроить использование API таким образом, чтобы:
- Ответ на вопрос — да.
- Шум управляется таким образом, что не оказывает существенного влияния на вашу способность принимать решения на основе определенных данных. Вы можете подойти к этому следующим образом: для ожидаемого минимального числа конверсий вы хотите, чтобы шум в собранной метрике был ниже определенного %.
В этом и последующих разделах мы опишем стратегии для достижения цели 2.
Основные концепции
Служба агрегации добавляет шум один раз к каждому сводному значению (то есть один раз на ключ) каждый раз, когда запрашивается сводный отчет.
Эти значения шума случайным образом выбираются из определенного распределения вероятностей следующим образом.
Все элементы, влияющие на уровень шума, основываются на двух основных концепциях.
Распределение шума ( подробности ниже ) одинаково независимо от суммарного значения, низкого или высокого. Поэтому, чем выше суммарное значение, тем меньшее влияние, вероятно, будет иметь шум относительно этого значения.
Например, предположим, что как общая совокупная стоимость покупки в размере 20 000 долларов США, так и общая совокупная стоимость покупки в размере 200 долларов США подвержены шуму, выбранному из одного и того же распределения.
Предположим, что шум от этого распределения колеблется примерно от -100 до +100.
- Для суммарной стоимости покупки в 20 000 долларов шум варьируется от 0 до 100/20 000 = 0,5% .
- Для суммарной стоимости покупки в 200 долларов шум варьируется от 0 до 100/200 = 50% .
Поэтому шум, скорее всего, окажет меньшее влияние на совокупную стоимость покупки в $20 000, чем на стоимость в $200. Относительно говоря, $20 000, скорее всего, будут менее шумными, то есть, скорее всего, будут иметь более высокое отношение сигнал/шум.
Более высокие агрегированные значения имеют относительно меньшее шумовое воздействие. Это имеет несколько важных практических последствий, которые описаны в следующем разделе. Этот механизм является частью дизайна API, и практические последствия являются долгосрочными. Они продолжат играть важную роль, когда рекламные технологии будут проектировать и оценивать различные стратегии агрегации.
Хотя шум извлекается из того же распределения независимо от итогового значения, это распределение зависит от нескольких параметров. Один из этих параметров, epsilon , может быть изменен специалистами по рекламе во время завершенного испытания источника для оценки различных корректировок полезности/конфиденциальности. Однако рассмотрите возможность настройки epsilon как временную. Мы приветствуем ваши отзывы о ваших вариантах использования и значениях epsilon, которые работают хорошо.
Хотя компания, занимающаяся рекламными технологиями, не контролирует напрямую способы добавления шума, она может влиять на воздействие шума на свои данные измерений. В следующих разделах мы рассмотрим, как на шум можно влиять на практике.
Прежде чем мы это сделаем, давайте подробнее рассмотрим способ применения шума.
Увеличение: как применяется шум
Одно распределение шума
Шум извлекается из распределения Лапласа со следующими параметрами:
- Среднее значение (
μ
) равно 0. Это означает, что наиболее вероятное значение шума равно 0 (шум не добавлен), и что значение шума с такой же вероятностью может быть меньше исходного, как и больше (иногда это называют несмещенным ). - Параметр масштаба
b = CONTRIBUTION_BUDGET
/epsilon
.-
CONTRIBUTION_BUDGET
определяется в браузере. -
epsilon
используется в службе агрегации.
-
На следующей диаграмме показана функция плотности вероятности для распределения Лапласа при μ=0, b = 20:

Случайные значения шума, одно распределение шума
Предположим, что рекламный технолог запрашивает сводные отчеты по двум ключам агрегации: key1 и key2.
Служба агрегации выбирает два значения шума x1 и x2, следуя тому же распределению шума . x1 добавляется к итоговому значению для key1, а x2 добавляется к итоговому значению для key2.
На диаграммах мы будем представлять значения шума как идентичные. Это упрощение; в реальности значения шума будут различаться, так как они случайным образом берутся из распределения.
Это показывает, что все значения шума берутся из одного и того же распределения и не зависят от суммарного значения, к которому они применяются.
Другие свойства шума
Шум применяется к каждому итоговому значению, включая пустые (0).

Например, даже если истинное итоговое значение для данного ключа равно 0, зашумленное итоговое значение, которое вы увидите в итоговом отчете для этого ключа, (скорее всего) не будет равно 0.
Шум может быть как положительным, так и отрицательным числом.

Например, для суммы покупки до шума в 327 000 шум может быть +6 000 или -6 000 (это произвольные примерные значения).
Оценка шума
Расчет стандартного отклонения шума
Стандартное отклонение шума составляет:
b*sqrt(2) = (CONTRIBUTION_BUDGET / epsilon)*sqrt(2)
Пример
При эпсилон = 10 стандартное отклонение шума составляет:
b*sqrt(2) = (CONTRIBUTION_BUDGET / epsilon)*sqrt(2) = (65,536/10)*sqrt(2) = 9,267
Оценка того, когда различия в измерениях значительны
Поскольку вы будете знать стандартное отклонение шума, добавленного к каждому значению, выведенному службой агрегации, вы сможете определить соответствующие пороговые значения для сравнения, чтобы определить, могут ли наблюдаемые различия быть вызваны шумом.
Например, если шум, добавленный к значению, составляет приблизительно +/- 10 (с учетом масштабирования), а разница в значении между двумя кампаниями превышает 100, можно с уверенностью заключить, что разница в значении, измеренном между каждой кампанией, вызвана не только шумом.
Привлекайте и делитесь отзывами
Вы можете участвовать и экспериментировать с этим API .
- Читайте об агрегированных отчетах и службе агрегирования , задавайте вопросы и предлагайте отзывы.
- Прочтите руководства по созданию отчетов по атрибуции .
- Задавайте вопросы и присоединяйтесь к обсуждениям в репозитории поддержки разработчиков Privacy Sandbox .
Следующие шаги
- Чтобы узнать, какими переменными можно управлять, чтобы улучшить соотношение сигнал/шум, обратитесь к разделу Работа с шумом .
- Ознакомьтесь с разделом «Эксперименты с решениями по дизайну сводных отчетов», чтобы получить помощь в планировании стратегий агрегированной отчетности.
- Попробуйте лабораторию шума .