Comprende el ruido en los informes de resumen

Obtén información sobre qué significa el ruido, dónde se agrega y cómo afecta tus esfuerzos de medición.

Los informes de resumen son el resultado de la agregación de informes agregables. Cuando un recopilador agrupa los informes agregables en lotes y el servicio de agregación los procesa, se agrega ruido (una cantidad aleatoria de datos) a los informes de resumen resultantes. Se agrega ruido para proteger la privacidad del usuario. El objetivo de este mecanismo es tener un framework que admita la medición privada diferencial.

Se agrega ruido en el informe de resumen final.
Se agrega ruido en el informe de resumen final.

Introducción al ruido en los informes de resumen

Si bien agregar ruido no suele ser parte de la medición de anuncios hoy en día, en muchos casos, el ruido agregado no cambiará sustancialmente la forma en que interpretas tus resultados.

Puede ser útil pensar en ello de la siguiente manera: ¿Confiarías en tomar una decisión basada en un determinado dato si ese dato no fuera ruidoso?

Por ejemplo, ¿un anunciante tendría la certeza de cambiar la estrategia o los presupuestos de su campaña basándose en el hecho de que la campaña A tuvo 15 conversiones y la campaña B tuvo 16?

Si la respuesta es no, el ruido es irrelevante.

Lo que deberás hacer es configurar el uso de la API de tal manera que se cumplan las siguientes condiciones:

  1. La respuesta a la pregunta es sí.
  2. El ruido se administra de manera que no afecte significativamente tu capacidad para tomar una decisión basada en ciertos datos. Puedes abordar esto de la siguiente manera: Para una cantidad mínima esperada de conversiones, deseas mantener el ruido en la métrica recopilada por debajo de un determinado porcentaje.

En esta sección y en la siguiente, describiremos estrategias para lograr el objetivo 2.

Conceptos básicos

El servicio de agregación agrega ruido una vez a cada valor de resumen, es decir, una vez por clave, cada vez que se solicita un informe de resumen.

Estos valores de ruido se extraen de forma aleatoria de una distribución de probabilidad específica, de la siguiente manera.

Todos los elementos que afectan el ruido se basan en dos conceptos principales.

  1. La distribución del ruido (detalles a continuación) es la misma independientemente del valor del resumen, ya sea bajo o alto. Por lo tanto, cuanto mayor sea el valor del resumen, menor será el impacto que probablemente tengan los datos aleatorios en relación con este valor.

    Por ejemplo, supongamos que tanto un valor de compra agregado total de USD 20,000 como un valor de compra agregado total de USD 200 están sujetos a ruido seleccionado de la misma distribución.

    Supongamos que el ruido de esta distribución varía aproximadamente entre -100 y +100.

    • Para el valor de compra resumido de USD 20,000, el ruido varía entre 0 y 100/20,000=0.5%.
    • Para el valor de compra resumido de USD 200, el ruido varía entre 0 y 100/200=50%.

    Por lo tanto, es probable que el ruido tenga un impacto menor en el valor de compra agregado de USD 20,000 que en el valor de USD 200. En términos relativos, es probable que USD 20,000 sea menos ruidoso, es decir, que tenga una mayor relación señal-ruido.

    Los valores agregados más altos tienen un impacto de ruido relativamente menor.
    Los valores agregados más altos tienen un impacto de ruido relativamente menor.

    Esto tiene algunas implicaciones prácticas importantes que se describen en la siguiente sección. Este mecanismo forma parte del diseño de la API, y las implicaciones prácticas son a largo plazo. Seguirán desempeñando un papel importante cuando las tecnologías publicitarias diseñen y evalúen diversas estrategias de agregación.

  2. Si bien el ruido se extrae de la misma distribución independientemente del valor del resumen, esa distribución depende de varios parámetros. Uno de estos parámetros, epsilon, podría ser alterado por las tecnologías publicitarias durante la prueba de origen finalizada para evaluar varios ajustes de utilidad o privacidad. Sin embargo, considera que la capacidad de ajustar el valor de epsilon es temporal. Agradecemos tus comentarios sobre tus casos de uso y los valores de epsilon que funcionan bien.

Si bien una empresa de tecnología publicitaria no tiene control directo sobre las formas en que se agrega ruido, puede influir en el impacto del ruido en sus datos de medición. En las próximas secciones, analizaremos cómo se puede influir en el ruido en la práctica.

Antes de hacerlo, veamos con más detalle cómo se aplica el ruido.

Acercar: cómo se aplica el ruido

Una distribución de ruido

El ruido se extrae de la distribución de Laplace, con los siguientes parámetros:

  • Una media (μ) de 0. Esto significa que el valor de ruido más probable es 0 (no se agrega ruido) y que es tan probable que el valor con ruido sea menor que el original como que sea mayor (a veces, esto se denomina no sesgado).
  • Un parámetro de escala deb = CONTRIBUTION_BUDGET / epsilon.
    • CONTRIBUTION_BUDGET se define en el navegador.
    • epsilon se usa en el Servicio de agregación.

En el siguiente diagrama, se muestra la función de densidad de probabilidad para una distribución de Laplace con μ=0 y b = 20:

Función de densidad de probabilidad para una distribución de Laplace con μ=0, b = 20
Función de densidad de probabilidad para una distribución de Laplace con μ=0, b = 20

Valores de ruido aleatorios, una distribución de ruido

Supongamos que una tecnología publicitaria solicita informes de resumen para dos claves de agregación, clave1 y clave2.

El servicio de agregación selecciona dos valores de ruido, x1 y x2, según la misma distribución de ruido. x1 se agrega al valor de resumen de la clave1, y x2 se agrega al valor de resumen de la clave2.

En los diagramas, representaremos los valores de ruido como idénticos. Esta es una simplificación. En realidad, los valores de ruido variarán, ya que se extraen de forma aleatoria de la distribución.

Esto ilustra que todos los valores de ruido provienen de la misma distribución y son independientes del valor de resumen al que se aplican.

Otras propiedades del ruido

Se aplica ruido a cada valor de resumen, incluidos los vacíos (0).

Incluso los valores de resumen vacíos están sujetos a ruido.
Incluso los valores de resumen vacíos están sujetos a ruido.

Por ejemplo, incluso si el valor de resumen real para una clave determinada es 0, el valor de resumen con ruido que verás en el informe de resumen para esta clave (lo más probable) no será 0.

El ruido puede ser un número positivo o negativo.

Ejemplos de ruido positivo y negativo.
Ejemplos de ruido positivo y negativo.

Por ejemplo, para un importe de compra previo al ruido de 327,000, el ruido puede ser de +6,000 o -6,000 (estos son valores de ejemplo arbitrarios).

Cómo evaluar el ruido

Cómo calcular la desviación estándar del ruido

La desviación estándar del ruido es la siguiente:

b*sqrt(2) = (CONTRIBUTION_BUDGET / epsilon)*sqrt(2)
Ejemplo

Con epsilon = 10, la desviación estándar del ruido es la siguiente:

b*sqrt(2) = (CONTRIBUTION_BUDGET / epsilon)*sqrt(2) = (65,536/10)*sqrt(2) = 9,267

Cómo evaluar cuándo las diferencias de medición son significativas

Como conocerás la desviación estándar del ruido agregado a cada valor que genera el servicio de agregación, podrás determinar los umbrales adecuados para la comparación y determinar si las diferencias observadas podrían deberse al ruido.

Por ejemplo, si el ruido agregado a un valor es de aproximadamente +/- 10 (teniendo en cuenta el ajuste), y la diferencia en el valor entre dos campañas es superior a 100, es probable que sea seguro concluir que la diferencia en el valor medido entre cada campaña no se debe solo al ruido.

Interactúa y comparte comentarios

Puedes participar y experimentar con esta API.

Próximos pasos