Acerca de este documento
Al leer este documento, podrás hacer lo siguiente:
- Comprende qué estrategias crear antes de generar informes de resumen.
- Conoce Noise Lab, una herramienta que te ayuda a comprender los efectos de varios parámetros de ruido y que permite explorar y evaluar rápidamente diversas estrategias de administración del ruido.
Comparte tus comentarios
Si bien este documento resume algunos principios para trabajar con informes de resumen, existen varios enfoques para la administración del ruido que tal vez no se reflejen aquí. Agradecemos tus sugerencias, aportes y preguntas.
- Para enviar comentarios públicos sobre las estrategias de administración de ruido, la utilidad o la privacidad de la API (épsilon), y compartir tus observaciones cuando realices simulaciones con Noise Lab, comenta este problema.
- Para enviar comentarios públicos sobre otro aspecto de la API, crea un problema nuevo aquí.
Antes de comenzar
- Para obtener una introducción, lee Attribution Reporting: informes de resumen y Descripción general del sistema completo de Attribution Reporting.
- Consulta Acerca del ruido y Acerca de las claves de agregación para aprovechar al máximo esta guía.
Decisiones de diseño
Principio de diseño principal
Existen diferencias fundamentales entre el funcionamiento de las cookies de terceros y los informes de resumen. Una diferencia clave es el ruido que se agrega a los datos de medición en los informes de resumen. Otro es cómo se programan los informes.
Para acceder a los datos de medición de los informes de resumen con relaciones señal-ruido más altas, las plataformas orientadas a la demanda (DSP) y los proveedores de medición de anuncios deberán trabajar con sus anunciantes para desarrollar estrategias de administración del ruido. Para desarrollar estas estrategias, las DSP y los proveedores de medición deben tomar decisiones de diseño. Estas decisiones giran en torno a un concepto esencial:
Si bien la distribución de la que se extraen los valores de ruido, en términos absolutos, solo depende de dos parámetros: epsilon y el presupuesto de contribución, tienes a tu disposición otros controles que afectarán las relaciones señal-ruido de los datos de medición de salida.
Si bien esperamos que un proceso iterativo conduzca a las mejores decisiones, cada variación de estas decisiones conducirá a una implementación ligeramente diferente, por lo que estas decisiones deben tomarse antes de escribir cada iteración de código (y antes de publicar anuncios).
Decisión: Nivel de detalle de la dimensión
Pruébalo en Noise Lab
- Ve al modo avanzado.
- En el panel lateral Parámetros, busca Tus datos de conversiones.
- Observa los parámetros predeterminados. De forma predeterminada, el recuento TOTAL de conversiones atribuibles diarias es de 1,000. En promedio, esto equivale a aproximadamente 40 por bucket si usas la configuración predeterminada (dimensiones predeterminadas, cantidad predeterminada de valores diferentes posibles para cada dimensión, estrategia de clave A). Observa que el valor es 40 en la cantidad de conversiones diarias atribuibles promedio POR BUCKET.
- Haz clic en Simulate para ejecutar una simulación con los parámetros predeterminados.
- En el panel lateral Parámetros, busca Dimensiones. Cambia el nombre de Geography a City y cambia la cantidad de valores diferentes posibles a 50.
- Observa cómo esto cambia el recuento de conversiones atribuidas diarias promedio POR BUCKET. Ahora es mucho más bajo. Esto se debe a que, si aumentas la cantidad de valores posibles dentro de esta dimensión sin cambiar nada más, aumentas la cantidad total de discretizaciones sin cambiar la cantidad de eventos de conversión que se incluirán en cada discretización.
- Haz clic en Simular.
- Observa las relaciones de ruido de la simulación resultante: ahora son más altas que las de la simulación anterior.
Dado el principio de diseño principal, es probable que los valores de resumen pequeños sean más ruidosos que los valores de resumen grandes. Por lo tanto, tu elección de configuración afecta la cantidad de eventos de conversión atribuidos que terminan en cada bucket (también conocido como clave de agregación), y esa cantidad afecta el ruido en los informes de resumen de resultados finales.
Una decisión de diseño que afecta la cantidad de eventos de conversión atribuidos dentro de un solo bucket es la granularidad de la dimensión. Considera los siguientes ejemplos de claves de agregación y sus dimensiones:
- Enfoque 1: Una estructura clave con dimensiones generales: País x Campaña publicitaria (o el bucket de agregación de campañas más grande) x Tipo de producto (de los 10 tipos de productos posibles)
- Enfoque 2: Una estructura de claves con dimensiones detalladas: Ciudad x ID de creatividad x Producto (de 100 productos posibles)
Ciudad es una dimensión más detallada que País; ID de creatividad es más detallada que Campaña, y Producto es más detallada que Tipo de producto. Por lo tanto, el enfoque 2 tendrá una menor cantidad de eventos (conversiones) por discretización (es decir, por clave) en el resultado de su informe de resumen que el enfoque 1. Dado que el ruido agregado al resultado es independiente de la cantidad de eventos en el bucket, los datos de medición en los informes de resumen serán más ruidosos con el enfoque 2. Para cada anunciante, experimenta con varias compensaciones de granularidad en el diseño de la clave para obtener la máxima utilidad en los resultados.
Decisión: Estructuras clave
Pruébalo en Noise Lab
En el modo Simple, se usa la estructura de claves predeterminada. En el modo avanzado, puedes experimentar con diferentes estructuras de claves. Se incluyen algunas dimensiones de ejemplo, pero también puedes modificarlas.
- Ve al modo avanzado.
- En el panel lateral Parámetros, busca la estrategia de palabras clave. Observa que la estrategia predeterminada, denominada A en la herramienta, usa una estructura de claves detallada que incluye todas las dimensiones: ubicación geográfica x ID de campaña x categoría de producto.
- Haz clic en Simular.
- Observa las relaciones de ruido de la simulación resultante.
- Cambia la estrategia de clave a B. Se mostrarán controles adicionales para que configures la estructura de claves.
- Configura la estructura de claves, por ejemplo, de la siguiente manera:
- Cantidad de estructuras clave: 2
- La estructura de clave 1 es igual a la combinación de ubicación geográfica y categoría de producto.
- Estructura clave 2 = ID de campaña x categoría de producto
- Haz clic en Simular.
- Observa que ahora obtienes dos informes de resumen por tipo de objetivo de medición (dos para el recuento de compras y dos para el valor de compra), ya que usas dos estructuras de claves distintas. Observa sus relaciones de ruido.
- También puedes probar esto con tus propias dimensiones personalizadas. Para ello, busca los datos que deseas hacer un seguimiento: Dimensiones. Considera quitar las dimensiones de ejemplo y crear las tuyas propias con los botones Agregar/Quitar/Restablecer que se encuentran debajo de la última dimensión.
Otra decisión de diseño que afectará la cantidad de eventos de conversión atribuidos dentro de un solo bucket son las estructuras de claves que decidas usar. Considera los siguientes ejemplos de claves de agregación:
- Una estructura de clave con todas las dimensiones; llamémosla estrategia clave A.
- Dos estructuras clave, cada una con un subconjunto de dimensiones. Llamemos a esta estrategia clave B.
La estrategia A es más simple, pero es posible que debas agregar (sumar) los valores de resumen ruidosos incluidos en los informes de resumen para acceder a ciertas estadísticas. Si sumas estos valores, también sumas el ruido. Con la estrategia B, es posible que los valores de resumen expuestos en los informes de resumen ya te proporcionen la información que necesitas. Esto significa que la estrategia B probablemente generará mejores relaciones señal-ruido que la estrategia A. Sin embargo, es posible que el ruido ya sea aceptable con la estrategia A, por lo que aún puedes decidir favorecer la estrategia A por su simplicidad. Obtén más información en el ejemplo detallado que describe estas dos estrategias.
La administración de claves es un tema complejo. Se pueden considerar varias técnicas elaboradas para mejorar las relaciones señal-ruido. Una se describe en Administración avanzada de claves.
Decisión: Frecuencia de procesamiento por lotes
Pruébalo en Noise Lab
- Ve al modo Simple (o al modo Avanzado; ambos modos funcionan de la misma manera en lo que respecta a la frecuencia de procesamiento por lotes).
- En el panel lateral Parámetros, busca Tu estrategia de agregación > Frecuencia de procesamiento por lotes. Esto hace referencia a la frecuencia de procesamiento por lotes de los informes agregables que se procesan con el servicio de agregación en un solo trabajo.
- Observa la frecuencia de procesamiento por lotes predeterminada: De forma predeterminada, se simula una frecuencia de procesamiento por lotes diaria.
- Haz clic en Simular.
- Observa las relaciones de ruido de la simulación resultante.
- Cambia la frecuencia de procesamiento por lotes a semanal.
- Observa las relaciones de ruido de la simulación resultante: ahora son más bajas (mejores) que las de la simulación anterior.
Otra decisión de diseño que afectará la cantidad de eventos de conversión atribuidos dentro de un solo bucket es la frecuencia de procesamiento por lotes que decidas usar. La frecuencia de procesamiento por lotes indica con qué frecuencia procesas los informes agregables.
Un informe programado para agregarse con mayor frecuencia (p.ej., cada hora) incluirá menos eventos de conversión que el mismo informe con un programa de agregación menos frecuente (p.ej., cada semana). Como resultado, el informe por hora incluirá más ruido.``` tendrá menos eventos de conversión incluidos que el mismo informe con un programa de agregación menos frecuente (p.ej., cada semana). Como resultado, el informe por hora tendrá una relación señal-ruido más baja que el informe semanal, si todo lo demás permanece igual. Experimenta con los requisitos de informes en varias frecuencias y evalúa las relaciones señal-ruido para cada uno.
Obtén más información en Procesamiento por lotes y Agregación durante períodos más largos.
Decisión: Variables de la campaña que afectan las conversiones atribuibles
Pruébalo en Noise Lab
Si bien esto puede ser difícil de predecir y puede tener variaciones significativas además de los efectos de la estacionalidad, intenta estimar la cantidad de conversiones diarias atribuibles de un solo toque a la potencia de 10 más cercana: 10, 100, 1,000 o 10,000.
- Ve al modo avanzado.
- En el panel lateral Parámetros, busca Tus datos de conversiones.
- Observa los parámetros predeterminados. De forma predeterminada, el recuento TOTAL de conversiones atribuibles diarias es de 1,000. En promedio, esto equivale a aproximadamente 40 por bucket si usas la configuración predeterminada (dimensiones predeterminadas, cantidad predeterminada de valores diferentes posibles para cada dimensión, estrategia de clave A). Observa que el valor es 40 en la cantidad de conversiones diarias atribuibles promedio POR BUCKET.
- Haz clic en Simulate para ejecutar una simulación con los parámetros predeterminados.
- Observa las relaciones de ruido de la simulación resultante.
- Ahora, establece el recuento TOTAL de conversiones atribuidas diarias en 100. Observa que esto reduce el valor del recuento de conversiones diarias atribuibles promedio POR BUCKET.
- Haz clic en Simular.
- Observa que las relaciones de ruido ahora son más altas: esto se debe a que, cuando tienes menos conversiones por discretización, se aplica más ruido para mantener la privacidad.
Una distinción importante es la cantidad total de conversiones posibles para un anunciante, en comparación con la cantidad total de conversiones posibles atribuidas. Este último es el que, en última instancia, afecta el ruido en los informes de resumen. Las conversiones atribuidas son un subconjunto de las conversiones totales que son propensas a las variables de la campaña, como el presupuesto y la segmentación de los anuncios. Por ejemplo, se esperaría una mayor cantidad de conversiones atribuidas para una campaña publicitaria de USD 10 millones que para una de USD 10,000, si todo lo demás permanece igual.
Ten en cuenta lo siguiente:
- Evalúa las conversiones atribuidas en función de un modelo de atribución de un solo toque y del mismo dispositivo, ya que se encuentran dentro del alcance de los informes de resumen recopilados con la API de Attribution Reporting.
- Considera tanto un recuento del peor caso como un recuento del mejor caso para las conversiones atribuidas. Por ejemplo, si todo lo demás es igual, considera los presupuestos mínimos y máximos posibles de la campaña para un anunciante y, luego, proyecta las conversiones atribuibles para ambos resultados como datos de entrada en tu simulación.
- Si planeas usar Privacy Sandbox de Android, considera las conversiones atribuidas en múltiples plataformas en el cálculo.
Decisión: Usar el ajuste de escala
Pruébalo en Noise Lab
- Ve al modo avanzado.
- En el panel lateral Parámetros, busca Tu estrategia de agregación > Ajuste. El parámetro de configuración predeterminado es Sí.
- Para comprender los efectos positivos del ajuste en la relación señal-ruido, primero establece el ajuste en No.
- Haz clic en Simular.
- Observa las relaciones de ruido de la simulación resultante.
- Establece el ajuste de escala en Sí. Ten en cuenta que Noise Lab calcula automáticamente los factores de ajuste que se deben usar según los rangos (valores promedio y máximos) de los objetivos de medición para tu situación. En un sistema real o en una configuración de prueba de origen, deberías implementar tu propio cálculo para los factores de ajuste.
- Haz clic en Simular.
- Observa que las proporciones de ruido ahora son más bajas (mejor) en esta segunda simulación. Esto se debe a que estás usando el ajuste de escala.
Dado el principio de diseño principal, el ruido agregado es una función del presupuesto de contribución.
Por lo tanto, para aumentar las relaciones señal-ruido, puedes decidir transformar los valores recopilados durante un evento de conversión ajustándolos en función del presupuesto de contribución (y ajustándolos a la inversa después de la agregación). Usa el ajuste para aumentar la relación señal-ruido.
Decisión: Cantidad de objetivos de medición y división del presupuesto de privacidad
Esto se relaciona con el ajuste de escala. Asegúrate de leer Cómo usar el ajuste de escala.
Pruébalo en Noise Lab
Un objetivo de medición es un punto de datos distinto que se recopila en los eventos de conversión.
- Ve al modo avanzado.
- En el panel lateral Parámetros, busca los datos que deseas hacer un seguimiento: Objetivos de medición. De forma predeterminada, tienes dos objetivos de medición: valor de compra y recuento de compras.
- Haz clic en Simular para ejecutar una simulación con los objetivos predeterminados.
- Haz clic en Quitar. Se quitará el último objetivo de medición (recuento de compras en ese caso).
- Haz clic en Simular.
- Observa que las relaciones de ruido para el valor de compra ahora son más bajas (mejores) para esta segunda simulación. Esto se debe a que tienes menos objetivos de medición, por lo que tu único objetivo de medición ahora recibe todo el presupuesto de contribución.
- Haz clic en Restablecer. Ahora tienes dos objetivos de medición: el valor de compra y el recuento de compras. Ten en cuenta que Noise Lab calcula automáticamente los factores de escala que se deben usar según los rangos (valores promedio y máximos) de los objetivos de medición para tu situación. De forma predeterminada, Noise Lab divide el presupuesto de forma equitativa entre los objetivos de medición.
- Haz clic en Simular.
- Observa las relaciones de ruido de la simulación resultante. Toma nota de los factores de escala que se muestran en la simulación.
- Ahora, personalicemos la división del presupuesto de privacidad para lograr mejores relaciones señal-ruido.
- Ajusta el porcentaje del presupuesto asignado a cada objetivo de medición. Con los parámetros predeterminados, el objetivo de medición 1, es decir, el valor de compra, tiene un rango mucho más amplio (entre 0 y 1,000) que el objetivo de medición 2, es decir, el recuento de compras (entre 1 y 1, es decir, siempre igual a 1). Debido a esto, necesita "más espacio para expandirse": sería ideal asignar más presupuesto de contribución al objetivo de medición 1 que al objetivo de medición 2, de modo que se pueda expandir de manera más eficiente (consulta Expansión) y, por lo tanto,
- Asigna el 70% del presupuesto al objetivo de medición 1. Asigna el 30% al objetivo de medición 2.
- Haz clic en Simular.
- Observa las relaciones de ruido de la simulación resultante. En el caso del valor de compra, las relaciones de ruido ahora son notablemente más bajas (mejores) que en la simulación anterior. En cuanto al recuento de compras, no se modificaron significativamente.
- Sigue ajustando la división del presupuesto en las diferentes métricas. Observa cómo esto afecta el ruido.
Ten en cuenta que puedes establecer tus propios objetivos de medición personalizados con los botones Agregar, Quitar y Restablecer.
Si mides un punto de datos (objetivo de medición) en un evento de conversión, como el recuento de conversiones, ese punto de datos puede obtener todo el presupuesto de contribución (65,536). Si estableces varios objetivos de medición en un evento de conversión, como el recuento de conversiones y el valor de compra, esos datos deberán compartir el presupuesto de contribución. Esto significa que tienes menos margen para aumentar tus valores.
Por lo tanto, cuantos más objetivos de medición tengas, es probable que las relaciones señal-ruido sean más bajas (más ruido).
Otra decisión que debes tomar en relación con los objetivos de medición es la división del presupuesto. Si divides el presupuesto de contribución de forma equitativa entre dos datos, cada uno recibirá un presupuesto de 65536/2 = 32768. Esto puede ser óptimo o no, según el valor máximo posible para cada dato. Por ejemplo, si mides el recuento de compras que tiene un valor máximo de 1 y el valor de compra con un mínimo de 1 y un máximo de 120, el valor de compra se beneficiaría de tener "más espacio" para aumentarse, es decir, para recibir una mayor proporción del presupuesto de contribución. Verás si algunos objetivos de medición deben priorizarse sobre otros en relación con el impacto del ruido.
Decisión: Administración de valores atípicos
Pruébalo en Noise Lab
Un objetivo de medición es un punto de datos distinto que se recopila en los eventos de conversión.
- Ve al modo avanzado.
- En el panel lateral Parámetros, busca Tu estrategia de agregación > Ajuste.
- Asegúrate de que la opción Scaling esté configurada como Yes. Ten en cuenta que Noise Lab calcula automáticamente los factores de escala que se usarán en función de los rangos (valores promedio y máximos) que proporcionaste para los objetivos de medición.
- Supongamos que la compra más grande que se haya realizado fue de USD 2,000, pero que la mayoría de las compras se realizan en el rango de USD 10 a USD 120. Primero, veamos qué sucede si usamos un enfoque de ajuste literal (no recomendado): ingresa USD 2,000 como el valor máximo de purchaseValue.
- Haz clic en Simular.
- Observa que las relaciones de ruido son altas. Esto se debe a que nuestro factor de ajuste se calcula en función de USD 2,000, cuando, en realidad, la mayoría de los valores de compra serán notablemente inferiores a ese.
- Ahora, usemos un enfoque de ajuste más pragmático. Cambia el valor de compra máximo a USD 120.
- Haz clic en Simular.
- Observa que las proporciones de ruido son más bajas (mejores) en esta segunda simulación.
Para implementar el ajuste, por lo general, calcularías un factor de ajuste en función del valor máximo posible para un evento de conversión determinado (obtén más información en este ejemplo).
Sin embargo, evita usar un valor máximo literal para calcular ese factor de ajuste, ya que esto empeoraría tus relaciones señal-ruido. En cambio, quita los valores atípicos y usa un valor máximo pragmático.
La administración de valores atípicos es un tema complejo. Se pueden considerar varias técnicas elaboradas para mejorar las relaciones señal-ruido. Uno se describe en Administración avanzada de valores atípicos.
Próximos pasos
Ahora que evaluaste varias estrategias de administración de ruido para tu caso de uso, puedes comenzar a experimentar con los informes de resumen recopilando datos de medición reales con una prueba de origen. Revisa las guías y sugerencias para probar la API.
Apéndice
Recorrido rápido por Noise Lab
Noise Lab te ayuda a evaluar y comparar rápidamente las estrategias de administración del ruido. Puedes usarlo para lo siguiente:
- Comprende los principales parámetros que pueden afectar el ruido y el efecto que tienen.
- Simula el efecto del ruido en los datos de medición de salida para diferentes decisiones de diseño. Ajusta los parámetros de diseño hasta que alcances una relación señal-ruido que funcione para tu caso de uso.
- Comparte tus comentarios sobre la utilidad de los informes de resumen: ¿qué valores de los parámetros de ruido y de épsilon te resultan útiles y cuáles no? ¿Dónde están los puntos de inflexión?
Considera este paso como una preparación. Noise Lab genera datos de medición para simular los resultados de los informes de resumen en función de tus entradas. No conserva ni comparte ningún dato.
Hay dos modos diferentes en Noise Lab:
- Modo simple: Comprende los conceptos básicos de los controles que tienes sobre el ruido.
- Modo avanzado: Prueba diferentes estrategias de administración de ruido y evalúa cuál genera las mejores relaciones señal-ruido para tus casos de uso.
Haz clic en los botones del menú superior para alternar entre los dos modos (nº 1 en la siguiente captura de pantalla).
Modo simple
- Con el modo Simple, puedes controlar los parámetros (que se encuentran en el lado izquierdo o #2 en la siguiente captura de pantalla), como Epsilon, y ver cómo afectan al ruido.
- Cada parámetro tiene una sugerencia (un botón “?”). Haz clic en ellos para ver una explicación de cada parámetro (nº 3 en la siguiente captura de pantalla).
- Para comenzar, haz clic en el botón "Simulate" y observa cómo se ve el resultado (#4 en la siguiente captura de pantalla).
- En la sección Output, puedes ver una variedad de detalles. Algunos elementos tienen un signo de interrogación junto a ellos. Tómate el tiempo de hacer clic en cada signo de interrogación `?` para ver una explicación de los distintos elementos de información.
- En la sección Output, haz clic en el botón de activación Details si quieres ver una versión expandida de la tabla (#5 en la siguiente captura de pantalla).
- Después de cada tabla de datos en la sección de salida, hay una opción para descargar la tabla y usarla sin conexión. Además, en la esquina inferior derecha, hay una opción para descargar todas las tablas de datos (n.º 6 en la siguiente captura de pantalla).
- Prueba diferentes parámetros de configuración en la sección Parámetros y haz clic en Simular para ver cómo afectan el resultado:
Interfaz de Noise Lab en el modo Simple.
Modo avanzado
- En el modo avanzado, tienes más control sobre los parámetros. Puedes agregar objetivos y dimensiones de medición personalizados (1 y 2 en la siguiente captura de pantalla).
- Desplázate más hacia abajo en la sección Parámetros y busca la opción Estrategia clave. Esto se puede usar para probar diferentes estructuras de claves
(#3 en la siguiente captura de pantalla)
- Para probar diferentes estructuras de claves, cambia la estrategia de claves a "B".
- Ingresa la cantidad de estructuras de claves diferentes que deseas usar (el valor predeterminado es "2").
- Haz clic en Generate Key Structures.
- Para especificar las estructuras de claves, haz clic en las casillas de verificación junto a las claves que deseas incluir en cada estructura.
- Haz clic en Simular para ver el resultado.
Interfaz de Noise Lab para el modo avanzado.
Interfaz de Noise Lab para el modo avanzado.
Métricas de ruido
Concepto principal
Se agrega ruido para proteger la privacidad de los usuarios individuales.
Un valor de ruido alto indica que los discretizaciones o las claves son dispersos y contienen contribuciones de una cantidad limitada de eventos sensibles. Noise Lab lo hace automáticamente para permitir que las personas "se oculten entre la multitud" o, en otras palabras, proteger la privacidad de estas personas con una mayor cantidad de ruido agregado.
Un valor de ruido bajo indica que la configuración de los datos se diseñó de tal manera que ya permite que las personas se "oculten entre la multitud". Esto significa que los discretizaciones contienen contribuciones de una cantidad suficiente de eventos para verificar que se proteja la privacidad de los usuarios individuales.
Esta afirmación es válida tanto para el error de porcentaje promedio (APE) como para RMSRE_T (raíz cuadrada del error relativo medio con un umbral).
APE (error porcentual promedio)
El APE es la proporción del ruido sobre el indicador, es decir, el valor real del resumen.
Los valores de APE más bajos significan mejores relaciones señal-ruido.
Fórmula
Para un informe de resumen determinado, el APE se calcula de la siguiente manera:
Verdadero es el valor de resumen verdadero. El APE es el promedio del ruido en cada valor de resumen verdadero, promediado en todas las entradas de un informe de resumen. En Noise Lab, este valor se multiplica por 100 para obtener un porcentaje.
Ventajas y desventajas
Los discretizaciones con tamaños más pequeños tienen un impacto desproporcionado en el valor final del APE. Esto podría ser engañoso al evaluar el ruido. Por eso, agregamos otra métrica, RMSRE_T, diseñada para mitigar esta limitación del APE. Consulta los ejemplos para obtener más detalles.
Código
Revisa el código fuente para el cálculo del APE.
RMSRE_T (raíz cuadrada del error relativo medio con un umbral)
RMSRE_T (raíz cuadrada del error relativo medio con un umbral) es otra medida del ruido.
Cómo interpretar RMSRE_T
Los valores más bajos de RMSRE_T significan mejores relaciones señal/ruido.
Por ejemplo, si una relación de ruido aceptable para tu caso de uso es del 20% y RMSRE_T es 0.2, puedes tener la certeza de que los niveles de ruido se encuentran dentro del rango aceptable.
Fórmula
Para un informe de resumen determinado, RMSRE_T se calcula de la siguiente manera:
Ventajas y desventajas
La métrica RMSRE_T es un poco más compleja de comprender que la métrica APE. Sin embargo, tiene algunas ventajas que, en ciertos casos, lo hacen más adecuado que el APE para analizar el ruido en los informes de resumen:
- RMSRE_T es más estable. "T" es un umbral. La "T" se usa para dar menos peso en el cálculo de RMSRE_T a los discretizaciones que tienen menos conversiones y, por lo tanto, son más sensibles al ruido debido a su tamaño pequeño. Con T, la métrica no aumenta de forma repentina en los discretizaciones con pocas conversiones. Si T es igual a 5, un valor de ruido tan pequeño como 1 en un bucket con 0 conversiones no se mostrará como muy superior a 1. En cambio, se limitará a 0.2, lo que equivale a 1/5, ya que T es igual a 5. Al darle menos peso a los discretizaciones más pequeñas, que, por lo tanto, son más sensibles al ruido, esta métrica es más estable y, por lo tanto, facilita la comparación de dos simulaciones.
- RMSRE_T permite una agregación sencilla. Conocer el RMSRE_T de varios discretizaciones, junto con sus recuentos reales, te permite calcular el RMSRE_T de su suma. Esto también te permite optimizar el RMSRE_T para estos valores combinados.
Si bien es posible realizar la agregación para el APE, la fórmula es bastante complicada, ya que implica el valor absoluto de la suma de los ruidos de Laplace. Esto dificulta la optimización del APE.
Código
Revisa el código fuente para el cálculo de RMSRE_T.
Ejemplos
Informe de resumen con tres depósitos:
- bucket_1 = noise: 10, trueSummaryValue: 100
- bucket_2 = noise: 20, trueSummaryValue: 100
- bucket_3 = noise: 20, trueSummaryValue: 200
APE = (0.1 + 0.2 + 0.1) / 3 = 13%
RMSRE_T = sqrt( ( (10/max(5,100))^2 + (20/max(5,100))^2 + (20/max(5,200))^2) / 3) = sqrt( (0.01 + 0.04 + 0.01) / 3) = 0.14
Informe de resumen con tres depósitos:
- bucket_1 = noise: 10, trueSummaryValue: 100
- bucket_2 = noise: 20, trueSummaryValue: 100
- bucket_3 = noise: 20, trueSummaryValue: 20
APE = (0.1 + 0.2 + 1) / 3 = 43%
RMSRE_T = sqrt( ( (10/max(5,100))^2 + (20/max(5,100))^2 + (20/max(5,20))^2) / 3) = sqrt( (0.01 + 0.04 + 1.0) / 3) = 0.59
Informe de resumen con tres depósitos:
- bucket_1 = noise: 10, trueSummaryValue: 100
- bucket_2 = noise: 20, trueSummaryValue: 100
- bucket_3 = noise: 20, trueSummaryValue: 0
APE = (0.1 + 0.2 + infinito) / 3 = infinito
RMSRE_T = sqrt( ( (10/max(5,100))^2 + (20/max(5,100))^2 + (20/max(5,0))^2) / 3) = sqrt( (0.01 + 0.04 + 16.0) / 3) = 2.31
Administración avanzada de claves
Una DSP o una empresa de medición de anuncios pueden tener miles de clientes publicitarios globales que abarcan múltiples industrias, monedas y potenciales precios de compra. Esto significa que crear y administrar una clave de agregación por anunciante probablemente sea muy poco práctico. Además, será difícil seleccionar un valor máximo agregable y un presupuesto de agregación que puedan limitar el impacto del ruido en estos miles de anunciantes globales. En su lugar, consideremos las siguientes situaciones:
Estrategia clave A
El proveedor de tecnología publicitaria decide crear y administrar una clave para todos sus clientes publicitarios. En todos los anunciantes y todas las monedas, el rango de compras varía desde compras de bajo volumen y alta gama hasta compras de alto volumen y gama baja. Esto da como resultado la siguiente clave:
| Clave (varias monedas) | |
|---|---|
| Valor máximo agregable | 5,000,000 |
| Rango de valores de compra | [120 - 5000000] |
Estrategia clave B
El proveedor de tecnología publicitaria decide crear y administrar dos claves para todos sus clientes publicitarios. Deciden separar las claves por moneda. En todos los anunciantes y en todas las monedas, el rango de compras varía desde compras de bajo volumen y alta gama hasta compras de alto volumen y gama baja. Si separamos los datos por moneda, se crean 2 claves:
| Clave 1 (USD) | Tecla 2 (¥) | |
|---|---|---|
| Valor máximo agregable | $40,000 | JPY 5,000,000 |
| Rango de valores de compra | [120 - 40,000] | [15,000 - 5,000,000] |
La estrategia clave B tendrá menos ruido en su resultado que la estrategia clave A, ya que los valores de las monedas no se distribuyen de manera uniforme entre las monedas. Por ejemplo, considera cómo las compras denominadas en ¥ mezcladas con las compras denominadas en USD alterarán los datos subyacentes y el resultado ruidoso.
Estrategia clave C
El proveedor de tecnología publicitaria decide crear y administrar cuatro claves para todos sus clientes publicitarios, y separarlas por moneda y sector del anunciante:
| Clave 1 (USD x anunciantes de joyería de alta gama) |
Clave 2 (¥ x Anunciantes de joyería de alta gama) |
Clave 3 (USD x anunciantes de tiendas de ropa) |
Clave 4 (¥ x Anunciantes de minoristas de ropa) |
|
|---|---|---|---|---|
| Valor máximo agregable | $40,000 | JPY 5,000,000 | USD 500 | 65,000 JPY |
| Rango de valores de compra | [10,000 - 40,000] | [1,250,000 - 5,000,000] | [120 - 500] | [15,000 - 65,000] |
La estrategia clave C tendrá menos ruido en su resultado que la estrategia clave B, ya que los valores de compra de los anunciantes no se distribuyen de manera uniforme entre los anunciantes. Por ejemplo, considera cómo las compras de joyas de alta gama mezcladas con las compras de gorras de béisbol alterarán los datos subyacentes y el resultado ruidoso.
Considera crear valores agregados máximos y factores de ajuste compartidos para las características comunes de varios anunciantes con el objetivo de reducir el ruido en el resultado. Por ejemplo, podrías experimentar con las siguientes estrategias para tus anunciantes:
- Una estrategia separada por moneda (USD, JPY, CAD, etc.)
- Una estrategia separada por sector del anunciante (seguros, automóviles, venta minorista, etc.)
- Una estrategia separada por rangos de valores de compra similares ([100], [1,000], [10,000], etc.)
Si creas estrategias clave en torno a las características comunes de los anunciantes, las claves y el código correspondiente serán más fáciles de administrar, y las relaciones señal-ruido serán más altas. Experimenta con diferentes estrategias y similitudes entre los anunciantes para descubrir los puntos de inflexión en la maximización del impacto del ruido en comparación con la administración del código.
Administración avanzada de valores atípicos
Consideremos una situación en la que participan dos anunciantes:
- Anunciante A:
- En todos los productos del sitio del anunciante A, las posibilidades de precios de compra se encuentran entre USD 120 y USD 1,000, con un rango de USD 880.
- Los precios de compra se distribuyen de manera uniforme en el rango de USD 880, sin valores atípicos fuera de las dos desviaciones estándares del precio de compra medio.
- Anunciante B:
- En todos los productos del sitio del anunciante B, las posibilidades de precios de compra se encuentran entre USD 120 y USD 1,000, con un rango de USD 880.
- Los precios de compra se inclinan en gran medida hacia el rango de USD 120 a USD 500, y solo el 5% de las compras se realizan en el rango de USD 500 a USD 1,000.
Teniendo en cuenta los requisitos del presupuesto de contribución y la metodología con la que se aplica ruido a los resultados finales, el anunciante B tendrá, de forma predeterminada, un resultado con más ruido que el anunciante A, ya que el anunciante B tiene un mayor potencial de que los valores atípicos afecten los cálculos subyacentes.
Es posible mitigar este problema con una configuración de clave específica. Probar estrategias clave que ayuden a administrar los datos atípicos y a distribuir de manera más uniforme los valores de compra en el rango de compra de la clave
En el caso del anunciante B, podrías crear dos claves separadas para capturar dos rangos de valores de compra diferentes. En este ejemplo, la tecnología publicitaria observó que los valores atípicos aparecen por encima del valor de compra de USD 500. Intenta implementar dos claves separadas para este anunciante:
- Estructura de clave 1 : Clave que solo capta las compras entre USD 120 y USD 500 (que abarca aproximadamente el 95% del volumen total de compras).
- Estructura de clave 2: Clave que solo capta las compras superiores a USD 500 (que abarcan aproximadamente el 5% del volumen total de compras).
La implementación de esta estrategia clave debería permitir administrar mejor el ruido para el anunciante B y ayudarlo a maximizar la utilidad de los informes de resumen. Con los nuevos rangos más pequeños, las claves A y B ahora deberían tener una distribución de datos más uniforme en cada clave respectiva que la clave única anterior. Esto generará un menor impacto del ruido en el resultado de cada clave que en la clave única anterior.