Comprendre le bruit dans les rapports récapitulatifs

Découvrez ce que signifie le bruit, où il est ajouté et son impact sur vos efforts de mesure.

Les rapports récapitulatifs sont le résultat de l'agrégation des rapports agrégables. Lorsque des rapports agrégables sont regroupés par un collecteur et traités par le service d'agrégation, du bruit (une quantité aléatoire de données) est ajouté aux rapports récapitulatifs obtenus. Du bruit est ajouté pour protéger la confidentialité des utilisateurs. L'objectif de ce mécanisme est de disposer d'un framework pouvant prendre en charge les mesures à confidentialité différentielle.

Du bruit est ajouté au rapport récapitulatif final.
Du bruit est ajouté au rapport récapitulatif final.

Présentation du bruit dans les rapports récapitulatifs

Bien que l'ajout de bruit ne fasse généralement pas partie de la mesure des annonces aujourd'hui, dans de nombreux cas, le bruit ajouté ne changera pas de manière significative la façon dont vous interprétez vos résultats.

Pour vous aider, posez-vous la question suivante : seriez-vous sûr de prendre une décision basée sur une certaine donnée si celle-ci n'était pas bruyante ?

Par exemple, un annonceur serait-il sûr de modifier la stratégie ou les budgets de ses campagnes en se basant sur le fait que la campagne A a généré 15 conversions et la campagne B, 16 ?

Si la réponse est non, le bruit n'a pas d'importance.

Vous devez configurer votre utilisation de l'API de manière à :

  1. La réponse à la question est oui.
  2. Le bruit est géré de manière à ne pas avoir d'incidence significative sur votre capacité à prendre une décision basée sur certaines données. Vous pouvez procéder comme suit : pour un nombre minimal de conversions attendu, vous souhaitez maintenir le bruit dans la métrique collectée en dessous d'un certain pourcentage.

Dans cette section et la suivante, nous allons présenter des stratégies pour atteindre l'objectif 2.

Concepts fondamentaux

Le service d'agrégation ajoute du bruit une fois à chaque valeur récapitulative (c'est-à-dire une fois par clé) chaque fois qu'un rapport récapitulatif est demandé.

Ces valeurs de bruit sont tirées au hasard d'une distribution de probabilité spécifique, comme suit.

Tous les éléments qui ont un impact sur le bruit reposent sur deux concepts principaux.

  1. La distribution du bruit (voir ci-dessous) est la même, que la valeur du résumé soit faible ou élevée. Par conséquent, plus la valeur récapitulative est élevée, moins le bruit est susceptible d'avoir un impact par rapport à cette valeur.

    Par exemple, supposons que la valeur totale agrégée des achats de 20 000 $et celle de 200 $soient soumises à du bruit sélectionné à partir de la même distribution.

    Supposons que le bruit de cette distribution varie approximativement entre -100 et +100.

    • Pour une valeur d'achat récapitulative de 20 000 $, le bruit varie entre 0 et 100/20 000=0,5 %.
    • Pour une valeur d'achat récapitulative de 200 $, le bruit varie entre 0 et 100/200=50 %.

    Par conséquent, le bruit aura probablement un impact moins important sur la valeur d'achat agrégée de 20 000 $que sur la valeur de 200 $. En termes relatifs, 20 000 $ est susceptible d'être moins bruyant, c'est-à-dire d'avoir un rapport signal/bruit plus élevé.

    Plus les valeurs agrégées sont élevées, plus l'impact du bruit est faible.
    Plus les valeurs agrégées sont élevées, plus l'impact du bruit est faible.

    Cela a plusieurs implications pratiques importantes, qui sont décrites dans la section suivante. Ce mécanisme fait partie de la conception de l'API, et les implications pratiques sont à long terme. Elles continueront de jouer un rôle important lorsque les technologies publicitaires concevront et évalueront différentes stratégies d'agrégation.

  2. Bien que le bruit soit tiré de la même distribution quelle que soit la valeur récapitulative, cette distribution dépend de plusieurs paramètres. L'un de ces paramètres, epsilon, pourrait être modifié par les technologies publicitaires au cours de la version bêta fermée pour évaluer différents ajustements d'utilité/de confidentialité. Toutefois, considérez la possibilité d'ajuster epsilon comme temporaire. N'hésitez pas à nous faire part de vos cas d'utilisation et des valeurs d'epsilon qui fonctionnent bien.

Bien qu'une entreprise de technologie publicitaire ne contrôle pas directement la façon dont le bruit est ajouté, elle peut influencer son impact sur ses données de mesure. Dans les sections suivantes, nous allons voir comment le bruit peut être influencé en pratique.

Avant de commencer, examinons de plus près la façon dont le bruit est appliqué.

Zoom avant : application du bruit

Une distribution du bruit

Le bruit est tiré de la distribution de Laplace, avec les paramètres suivants :

  • Une moyenne (μ) de 0. Cela signifie que la valeur de bruit la plus probable est 0 (aucun bruit n'est ajouté) et que la valeur bruyante a autant de chances d'être inférieure à la valeur d'origine que d'être supérieure (on parle parfois de non biaisé).
  • Un paramètre d'échelle deb = CONTRIBUTION_BUDGET / epsilon.
    • CONTRIBUTION_BUDGET est défini dans le navigateur.
    • epsilon est utilisé dans Aggregation Service.

Le diagramme suivant montre la fonction de densité de probabilité pour une distribution de Laplace avec μ=0 et b = 20 :

Fonction de densité de probabilité pour une distribution de Laplace avec μ=0, b = 20
Fonction de densité de probabilité pour une distribution de Laplace avec μ=0, b = 20

Valeurs de bruit aléatoires, une distribution de bruit

Supposons qu'une technologie publicitaire demande des rapports récapitulatifs pour deux clés d'agrégation, key1 et key2.

Le service d'agrégation sélectionne deux valeurs de bruit x1 et x2, en suivant la même distribution de bruit. x1 est ajouté à la valeur récapitulative de key1, et x2 est ajouté à la valeur récapitulative de key2.

Dans les schémas, nous représenterons les valeurs de bruit comme identiques. Il s'agit d'une simplification. En réalité, les valeurs de bruit varient, car elles sont tirées au hasard à partir de la distribution.

Cela montre que les valeurs de bruit proviennent toutes de la même distribution et sont indépendantes de la valeur récapitulative à laquelle elles sont appliquées.

Autres propriétés du bruit

Du bruit est appliqué à chaque valeur récapitulative, y compris celles qui sont vides (0).

Même les valeurs récapitulatives vides sont soumises au bruit.
Même les valeurs récapitulatives vides sont soumises au bruit.

Par exemple, même si la valeur récapitulative réelle pour une clé donnée est de 0, la valeur récapitulative bruitée que vous verrez dans le rapport récapitulatif pour cette clé ne sera (très probablement) pas de 0.

Le bruit peut être un nombre positif ou négatif.

Exemples de bruit positif et négatif.
Exemples de bruit positif et négatif.

Par exemple, pour un montant d'achat avant bruit de 327 000, le bruit peut être de +6 000 ou de -6 000 (il s'agit de valeurs arbitraires).

Évaluer le bruit

Calculer l'écart-type du bruit

L'écart-type du bruit est le suivant :

b*sqrt(2) = (CONTRIBUTION_BUDGET / epsilon)*sqrt(2)
Exemple

Avec epsilon = 10, l'écart-type du bruit est le suivant :

b*sqrt(2) = (CONTRIBUTION_BUDGET / epsilon)*sqrt(2) = (65,536/10)*sqrt(2) = 9,267

Évaluer quand les différences de mesure sont importantes

Comme vous connaîtrez l'écart-type du bruit ajouté à chaque valeur générée par le service d'agrégation, vous pourrez déterminer les seuils de comparaison appropriés pour déterminer si les différences observées peuvent être dues au bruit.

Par exemple, si le bruit ajouté à une valeur est d'environ +/- 10 (en tenant compte de la mise à l'échelle) et que la différence de valeur entre deux campagnes est supérieure à 100, il est probablement possible de conclure que la différence de valeur mesurée entre chaque campagne n'est pas uniquement due au bruit.

Interagir et envoyer des commentaires

Vous pouvez participer et tester cette API.

Étapes suivantes