Informazioni su questo documento
Leggendo questo documento, potrai:
- Scopri quali strategie creare prima di generare i report di riepilogo.
- Scopri Noise Lab, uno strumento che ti aiuta a comprendere gli effetti di vari parametri di rumore e che consente di esplorare e valutare rapidamente varie strategie di gestione del rumore.
Condividi il tuo feedback
Sebbene questo documento riassuma alcuni principi per lavorare con i report di riepilogo, esistono diversi approcci alla gestione del rumore che potrebbero non essere riflessi qui. I tuoi suggerimenti, aggiunte e domande sono ben accetti.
- Per fornire un feedback pubblico sulle strategie di gestione del rumore, sull'utilità o sulla privacy dell'API (epsilon) e per condividere le tue osservazioni durante la simulazione con Noise Lab: Commenta questo problema
- Per fornire un feedback pubblico su un altro aspetto dell'API: Crea un nuovo problema qui
Prima di iniziare
- Per un'introduzione, leggi Report sull'attribuzione: report riepilogativi e Panoramica completa del sistema di report sull'attribuzione.
- Leggi le sezioni Comprendere il rumore e Comprendere le chiavi di aggregazione per utilizzare al meglio questa guida.
Decisioni di progettazione
Principio di progettazione principale
Esistono differenze fondamentali tra il funzionamento dei cookie di terze parti e dei report riepilogativi. Una differenza fondamentale è il rumore aggiunto ai dati di misurazione nei report di riepilogo. Un altro è la pianificazione dei report.
Per accedere ai dati di misurazione dei report riepilogativi con rapporti segnale/rumore più elevati, le Demand-Side Platform (DSP) e i fornitori di servizi di misurazione degli annunci dovranno collaborare con i propri inserzionisti per sviluppare strategie di gestione del rumore. Per sviluppare queste strategie, le DSP e i fornitori di misurazione devono prendere decisioni di progettazione. Queste decisioni ruotano attorno a un concetto essenziale:
Sebbene i valori di rumore della distribuzione da cui vengono estratti dipendano, in termini assoluti, solo da due parametri, ovvero epsilon e il budget di contributo, hai a disposizione una serie di altri controlli che influiranno sui rapporti segnale/rumore dei dati di misurazione dell'output.
Sebbene ci aspettiamo che un processo iterativo porti alle decisioni migliori, ogni variazione di queste decisioni porterà a un'implementazione leggermente diversa, pertanto queste decisioni devono essere prese prima di scrivere ogni iterazione del codice (e prima di pubblicare gli annunci).
Decisione: granularità della dimensione
Provalo in Noise Lab
- Vai alla modalità avanzata.
- Nel riquadro laterale Parametri, cerca I tuoi dati sulle conversioni.
- Osserva i parametri predefiniti. Per impostazione predefinita, il conteggio totale giornaliero delle conversioni attribuibili è 1000. In media, si ottengono circa 40 bucket se utilizzi la configurazione predefinita (dimensioni predefinite, numero predefinito di valori diversi possibili per ogni dimensione, strategia chiave A). Tieni presente che il valore è 40 nell'input Conteggio medio giornaliero delle conversioni attribuibili PER BUCKET.
- Fai clic su Simula per eseguire una simulazione con i parametri predefiniti.
- Nel riquadro laterale Parametri, cerca Dimensioni. Rinomina Geografia in Città e modifica il numero di valori diversi possibili impostandolo su 50.
- Osserva come cambia il conteggio medio delle conversioni attribuibili PER BUCKET. Ora è molto più basso. Questo perché se aumenti il numero di valori possibili all'interno di questa dimensione senza modificare altro, aumenti il numero totale di bucket senza modificare il numero di eventi di conversione che rientreranno in ogni bucket.
- Fai clic su Simula.
- Osserva i rapporti di rumore della simulazione risultante: i rapporti di rumore sono ora superiori a quelli della simulazione precedente.
In base al principio di progettazione principale, è probabile che i valori di riepilogo piccoli siano più rumorosi di quelli grandi. Pertanto, la tua scelta di configurazione influisce sul numero di eventi di conversione attribuiti che finiscono in ogni bucket (altrimenti chiamato chiave di aggregazione) e questa quantità influisce sul rumore nei report di riepilogo dell'output finale.
Una decisione di progettazione che influisce sul numero di eventi di conversione attribuiti all'interno di un singolo bucket è la granularità delle dimensioni. Considera i seguenti esempi di chiavi di aggregazione e relative dimensioni:
- Approccio 1: una struttura chiave con dimensioni grossolane: Paese x Campagna pubblicitaria (o il bucket di aggregazione della campagna più grande) x Tipo di prodotto (su 10 tipi di prodotto possibili)
- Approccio 2: una struttura di chiavi con dimensioni granulari: Città x ID creatività x Prodotto (su 100 prodotti possibili)
Città è una dimensione più granulare di Paese; ID creatività è più granulare di Campagna; e Prodotto è più granulare di Tipo di prodotto. Pertanto, l'approccio 2 avrà un numero inferiore di eventi (conversioni) per bucket (= per chiave) nell'output del report di riepilogo rispetto all'approccio 1. Poiché il rumore aggiunto all'output è indipendente dal numero di eventi nel bucket, i dati di misurazione nei report di riepilogo saranno più rumorosi con l'approccio 2. Per ogni inserzionista, sperimenta vari compromessi di granularità nella progettazione della chiave per ottenere la massima utilità nei risultati.
Decisione: strutture chiave
Provalo in Noise Lab
Nella modalità Semplice, viene utilizzata la struttura delle chiavi predefinita. Nella modalità Avanzata, puoi sperimentare diverse strutture di chiavi. Sono incluse alcune dimensioni di esempio, che puoi anche modificare.
- Vai alla modalità avanzata.
- Nel riquadro laterale Parametri, cerca Strategia chiave. Tieni presente che la strategia predefinita, denominata A nello strumento, utilizza una struttura di chiavi granulare che include tutte le dimensioni: Geografia x ID campagna x Categoria prodotto.
- Fai clic su Simula.
- Osserva i rapporti di rumore della simulazione risultante.
- Modifica la strategia chiave impostandola su B. Vengono visualizzati controlli aggiuntivi per configurare la struttura delle chiavi.
- Configura la struttura delle chiavi, ad esempio come segue:
- Numero di strutture delle chiavi: 2
- Struttura chiave 1 = Geografia x Categoria di prodotto.
- Struttura della chiave 2 = ID campagna x categoria di prodotto.
- Fai clic su Simula.
- Tieni presente che ora ricevi due report di riepilogo per tipo di obiettivo di misurazione (due per il conteggio degli acquisti e due per il valore degli acquisti), dato che utilizzi due strutture di chiavi distinte. Osserva i rapporti tra rumore e segnale.
- Puoi anche provare con le tue dimensioni personalizzate. Per farlo, cerca i dati che vuoi monitorare: le dimensioni. Valuta la possibilità di rimuovere le dimensioni di esempio e di creare le tue utilizzando i pulsanti Aggiungi/Rimuovi/Reimposta sotto l'ultima dimensione.
Un'altra decisione di progettazione che influirà sul numero di eventi di conversione attribuiti all'interno di un singolo bucket sono le strutture delle chiavi che decidi di utilizzare. Considera i seguenti esempi di chiavi di aggregazione:
- Una struttura chiave con tutte le dimensioni, che chiameremo Strategia chiave A.
- Due strutture chiave, ciascuna con un sottoinsieme di dimensioni. Chiamiamola Strategia chiave B.
La strategia A è più semplice, ma potresti dover aggregare (sommare) i valori riepilogativi rumorosi inclusi nei report di riepilogo per accedere a determinati approfondimenti. Sommando questi valori, sommi anche il rumore. Con la strategia B, i valori riepilogativi visualizzati nei report riepilogativi potrebbero già fornirti le informazioni di cui hai bisogno. Ciò significa che la strategia B porterà probabilmente a rapporti segnale/rumore migliori rispetto alla strategia A. Tuttavia, il rumore potrebbe essere già accettabile con la strategia A, quindi potresti comunque decidere di preferire la strategia A per semplicità. Scopri di più nell'esempio dettagliato che illustra queste due strategie.
La gestione delle chiavi è un argomento complesso. Per migliorare i rapporti segnale-rumore, si possono prendere in considerazione diverse tecniche elaborate. Uno è descritto nella sezione Gestione avanzata delle chiavi.
Decisione: frequenza di raggruppamento
Provalo in Noise Lab
- Vai alla modalità Semplice (o Avanzata: entrambe le modalità funzionano allo stesso modo per quanto riguarda la frequenza di raggruppamento)
- Nel riquadro laterale Parametri, cerca La tua strategia di aggregazione > Frequenza di batching. Si riferisce alla frequenza di batching dei report aggregabili elaborati con il servizio di aggregazione in un unico job.
- Osserva la frequenza di raggruppamento predefinita: per impostazione predefinita, viene simulata una frequenza di raggruppamento giornaliera.
- Fai clic su Simula.
- Osserva i rapporti di rumore della simulazione risultante.
- Modifica la frequenza di raggruppamento in settimanale.
- Osserva i rapporti segnale/rumore della simulazione risultante: i rapporti segnale/rumore sono ora inferiori (migliori) rispetto alla simulazione precedente.
Un'altra decisione di progettazione che influirà sul numero di eventi di conversione attribuiti all'interno di un singolo bucket è la frequenza di raggruppamento che decidi di utilizzare. La frequenza di batch è la frequenza con cui vengono elaborati i report aggregabili.
Un report pianificato per l'aggregazione più frequentemente (ad es. ogni ora) includerà meno eventi di conversione rispetto allo stesso report con una pianificazione di aggregazione meno frequente (ad es. ogni settimana). Di conseguenza, il report orario includerà più rumore.``` avrà meno eventi di conversione inclusi rispetto allo stesso report con una pianificazione di aggregazione meno frequente (ad es. ogni settimana). Di conseguenza, il report orario avrà un rapporto segnale/rumore inferiore rispetto al report settimanale, a parità di altre condizioni. Sperimenta con i requisiti di reporting a varie frequenze e valuta i rapporti segnale/rumore per ciascuno.
Scopri di più in Batching e Aggregazione su periodi di tempo più lunghi.
Decisione: variabili della campagna che influiscono sulle conversioni attribuibili
Provalo in Noise Lab
Sebbene sia difficile prevedere questo valore e possa variare in modo significativo, oltre agli effetti della stagionalità, prova a stimare il numero di conversioni giornaliere attribuibili a un solo tocco alla potenza di 10 più vicina: 10, 100, 1000 o 10.000.
- Vai alla modalità avanzata.
- Nel riquadro laterale Parametri, cerca I tuoi dati sulle conversioni.
- Osserva i parametri predefiniti. Per impostazione predefinita, il conteggio totale giornaliero delle conversioni attribuibili è 1000. In media, si ottengono circa 40 bucket se utilizzi la configurazione predefinita (dimensioni predefinite, numero predefinito di valori diversi possibili per ogni dimensione, strategia chiave A). Tieni presente che il valore è 40 nell'input Conteggio medio giornaliero delle conversioni attribuibili PER BUCKET.
- Fai clic su Simula per eseguire una simulazione con i parametri predefiniti.
- Osserva i rapporti di rumore della simulazione risultante.
- Ora imposta il conteggio TOTALE giornaliero delle conversioni attribuibili su 100. Tieni presente che questo riduce il valore del conteggio delle conversioni giornaliere attribuibili PER BUCKET.
- Fai clic su Simula.
- Nota che i rapporti di rumore sono ora più elevati: questo perché quando hai meno conversioni per bucket, viene applicato più rumore per mantenere la privacy.
Una distinzione importante è il numero totale di conversioni possibili per un inserzionista rispetto al numero totale di conversioni attribuite. Quest'ultimo è ciò che influisce in definitiva sul rumore nei report di riepilogo. Le conversioni attribuite sono un sottoinsieme delle conversioni totali soggette a variabili della campagna, come il budget pubblicitario e il targeting degli annunci. Ad esempio, ti aspetteresti un numero maggiore di conversioni attribuite per una campagna pubblicitaria da 10 milioni di dollari rispetto a una campagna pubblicitaria da 10.000 $, a parità di altre condizioni.
Tieni presente quanto segue:
- Valuta le conversioni attribuite in base a un modello di attribuzione a tocco singolo e sullo stesso dispositivo, in quanto rientrano nell'ambito dei report riepilogativi raccolti con l'API Attribution Reporting.
- Prendi in considerazione sia un conteggio dello scenario peggiore sia un conteggio dello scenario migliore per le conversioni attribuite. Ad esempio, a parità di altre condizioni, considera il budget minimo e massimo possibile per una campagna di un inserzionista, quindi proietta le conversioni attribuibili per entrambi i risultati come input per la simulazione.
- Se stai valutando l'utilizzo di Privacy Sandbox per Android, considera le conversioni attribuite multipiattaforma nel calcolo.
Decisione: utilizzo dello scaling
Provalo in Noise Lab
- Vai alla modalità avanzata.
- Nel riquadro laterale Parametri, cerca La tua strategia di aggregazione > Scaling. Per impostazione predefinita, l'opzione è impostata su Sì.
- Per comprendere gli effetti positivi dello scaling sul rapporto segnale/rumore, imposta prima Scaling su No.
- Fai clic su Simula.
- Osserva i rapporti di rumore della simulazione risultante.
- Imposta Ridimensionamento su Sì. Tieni presente che Noise Lab calcola automaticamente i fattori di scalabilità da utilizzare in base agli intervalli (valori medi e massimi) degli obiettivi di misurazione per il tuo scenario. In un sistema reale o in una configurazione di prova dell'origine, dovresti implementare il tuo calcolo per i fattori di scalabilità.
- Fai clic su Simula.
- Nota che i rapporti segnale/rumore sono ora inferiori (migliori) in questa seconda simulazione. Il motivo è che stai utilizzando la scalabilità.
In base al principio di progettazione principale, il rumore aggiunto è una funzione del budget di contributo.
Pertanto, per aumentare i rapporti segnale/rumore, puoi decidere di trasformare i valori raccolti durante un evento di conversione scalando rispetto al budget di contributo (e descalandoli dopo l'aggregazione). Utilizza la scalabilità per aumentare i rapporti segnale/rumore.
Decisione: numero di obiettivi di misurazione e suddivisione del budget per la privacy
Ciò riguarda il ridimensionamento. Assicurati di leggere Utilizzo del ridimensionamento.
Provalo in Noise Lab
Un obiettivo di misurazione è un punto dati distinto raccolto negli eventi di conversione.
- Vai alla modalità avanzata.
- Nel riquadro laterale Parametri, cerca i dati che vuoi monitorare: Obiettivi di misurazione. Per impostazione predefinita, hai due obiettivi di misurazione: valore dell'acquisto e conteggio degli acquisti.
- Fai clic su Simula per eseguire una simulazione con gli obiettivi predefiniti.
- Fai clic su Rimuovi. Verrà rimosso l'ultimo obiettivo di misurazione (in questo caso, il conteggio degli acquisti).
- Fai clic su Simula.
- Osserva che i rapporti segnale/rumore per il valore di acquisto sono ora inferiori (migliori) per questa seconda simulazione. Questo perché hai meno obiettivi di misurazione, quindi il tuo unico obiettivo di misurazione ora riceve tutto il budget di attribuzione.
- Fai clic su Reimposta. Ora hai di nuovo due obiettivi di misurazione: valore dell'acquisto e conteggio degli acquisti. Tieni presente che Noise Lab calcola automaticamente i fattori di scalabilità da utilizzare in base agli intervalli (valori medi e massimi) degli obiettivi di misurazione per il tuo scenario. Per impostazione predefinita, Noise Lab divide il budget in modo equo tra gli obiettivi di misurazione.
- Fai clic su Simula.
- Osserva i rapporti di rumore della simulazione risultante. Prendi nota dei fattori di scalabilità visualizzati nella simulazione.
- Ora personalizziamo la suddivisione del budget per la privacy per ottenere rapporti segnale/rumore migliori.
- Modifica la percentuale di budget assegnata a ciascun obiettivo di misurazione. Dati i parametri predefiniti, l'obiettivo di misurazione 1, ovvero il valore di acquisto, ha un intervallo molto più ampio (tra 0 e 1000) rispetto all'obiettivo di misurazione 2, ovvero il conteggio degli acquisti (tra 1 e 1, ovvero sempre uguale a 1). Per questo motivo, ha bisogno di "più spazio per la scalabilità": sarebbe ideale assegnare un budget di contribuzione maggiore all'obiettivo di misurazione 1 rispetto all'obiettivo di misurazione 2, in modo che possa essere scalato in modo più efficiente (vedi Scalabilità) e quindi
- Assegna il 70% del budget all'obiettivo di misurazione 1. Assegna il 30% all'obiettivo di misurazione 2.
- Fai clic su Simula.
- Osserva i rapporti di rumore della simulazione risultante. Per il valore dell'acquisto, i rapporti segnale/rumore sono ora notevolmente inferiori (migliori) rispetto alla simulazione precedente. Per il conteggio degli acquisti, sono rimasti pressoché invariati.
- Continua a modificare la suddivisione del budget tra le metriche. Osserva l'impatto sul rumore.
Tieni presente che puoi impostare i tuoi obiettivi di misurazione personalizzati con i pulsanti Aggiungi/Rimuovi/Reimposta.
Se misuri un punto dati (obiettivo di misurazione) su un evento di conversione, ad esempio il conteggio delle conversioni, questo punto dati può ottenere l'intero budget di contribuzione (65536). Se imposti più obiettivi di misurazione su un evento di conversione, come il conteggio delle conversioni e il valore dell'acquisto, questi punti dati dovranno condividere il budget di attribuzione. Ciò significa che hai meno margine di manovra per aumentare i tuoi valori.
Pertanto, più obiettivi di misurazione hai, più bassi saranno i rapporti segnale/rumore (rumore più elevato).
Un'altra decisione da prendere in merito agli obiettivi di misurazione è la suddivisione del budget. Se dividi il budget di contributo equamente tra due punti dati, ogni punto dati riceve un budget di 65536/2 = 32768. Questo valore potrebbe essere ottimale o meno a seconda del valore massimo possibile per ogni punto dati. Ad esempio, se misuri il conteggio degli acquisti con un valore massimo di 1 e il valore dell'acquisto con un minimo di 1 e un massimo di 120, il valore dell'acquisto trarrebbe vantaggio da uno "spazio" maggiore per essere scalato, ovvero da una proporzione maggiore del budget di contribuzione. Vedrai se alcuni obiettivi di misurazione devono avere la priorità rispetto ad altri in relazione all'impatto del rumore.
Decisione: gestione degli outlier
Provalo in Noise Lab
Un obiettivo di misurazione è un punto dati distinto raccolto negli eventi di conversione.
- Vai alla modalità avanzata.
- Nel riquadro laterale Parametri, cerca La tua strategia di aggregazione > Scaling.
- Assicurati che il ridimensionamento sia impostato su Sì. Tieni presente che Noise Lab calcola automaticamente i fattori di scalabilità da utilizzare in base agli intervalli (valori medi e massimi) che hai fornito per gli obiettivi di misurazione.
- Supponiamo che l'acquisto più costoso mai effettuato sia stato di 2000 $, ma che la maggior parte degli acquisti rientri nell'intervallo 10-120 $. Innanzitutto, vediamo cosa succede se utilizziamo un approccio di scalabilità letterale (non consigliato): inserisci 2000 $come valore massimo per purchaseValue.
- Fai clic su Simula.
- Osserva che i rapporti segnale/rumore sono elevati. Questo perché il nostro fattore di scalabilità viene calcolato in base a 2000 $, mentre in realtà la maggior parte dei valori di acquisto sarà notevolmente inferiore.
- Ora utilizziamo un approccio di scalabilità più pragmatico. Modifica il valore massimo dell'acquisto in $120.
- Fai clic su Simula.
- Nota che i rapporti di rumore sono inferiori (migliori) in questa seconda simulazione.
Per implementare il ridimensionamento, in genere si calcola un fattore di ridimensionamento in base al valore massimo possibile per un determinato evento di conversione (scopri di più in questo esempio).
Tuttavia, evita di utilizzare un valore massimo letterale per calcolare il fattore di scalabilità, in quanto ciò peggiorerebbe i rapporti segnale/rumore. Rimuovi invece i valori anomali e utilizza un valore massimo pragmatico.
La gestione degli outlier è un argomento complesso. Per migliorare i rapporti segnale-rumore, si possono prendere in considerazione diverse tecniche elaborate. Una è descritta in Gestione avanzata dei valori anomali.
Passaggi successivi
Ora che hai valutato varie strategie di gestione del rumore per il tuo caso d'uso, puoi iniziare a sperimentare con i report di riepilogo raccogliendo dati di misurazione reali utilizzando una prova dell'origine. Consulta le guide e i suggerimenti per provare l'API.
Appendice
Tour rapido di Noise Lab
Noise Lab ti aiuta a valutare e confrontare rapidamente le strategie di gestione del rumore. Utilizzalo per:
- Comprendere i parametri principali che possono influire sul rumore e il loro effetto.
- Simula l'effetto del rumore sui dati di misurazione dell'output in base a diverse decisioni di progettazione. Modifica i parametri di progettazione finché non raggiungi un rapporto segnale/rumore adatto al tuo caso d'uso.
- Condividi il tuo feedback sull'utilità dei report di riepilogo: quali valori dei parametri epsilon e rumore funzionano per te e quali no? Dove si trovano i punti di flesso?
Consideralo un passaggio di preparazione. Noise Lab genera dati di misurazione per simulare gli output dei report riepilogativi in base ai tuoi input. Non memorizza né condivide alcun dato.
Esistono due modalità diverse in Noise Lab:
- Modalità Semplice: scopri le nozioni di base dei controlli che hai sul rumore.
- Modalità avanzata: prova diverse strategie di gestione del rumore e valuta quale porta ai migliori rapporti segnale/rumore per i tuoi casi d'uso.
Fai clic sui pulsanti nel menu in alto per passare da una modalità all'altra (n. 1 nello screenshot seguente).
Modalità semplice
- Con la modalità Semplice, controlli i parametri (che si trovano sul lato sinistro o al punto 2 nello screenshot seguente), ad esempio Epsilon, e vedi come influiscono sul rumore.
- Ogni parametro ha una descrizione comando (un pulsante `?`). Fai clic su questi parametri per visualizzare una spiegazione di ciascuno (n. 3 nello screenshot seguente).
- Per iniziare, fai clic sul pulsante "Simula" e osserva l'aspetto dell'output (n. 4 nello screenshot seguente).
- Nella sezione Output puoi visualizzare una serie di dettagli. Alcuni elementi hanno un "?" accanto. Fai clic su ogni "?" per visualizzare una spiegazione delle varie informazioni.
- Nella sezione Output, fai clic sul pulsante di attivazione/disattivazione Dettagli se vuoi visualizzare una versione espansa della tabella (n. 5 nello screenshot seguente).
- Dopo ogni tabella di dati nella sezione di output, è presente un'opzione per scaricare la tabella per l'utilizzo offline. Inoltre, nell'angolo in basso a destra è presente un'opzione per scaricare tutte le tabelle di dati (n. 6 nello screenshot seguente).
- Prova diverse impostazioni per i parametri nella sezione Parametri
e fai clic su Simula per vedere come influiscono sull'output:
Interfaccia di Noise Lab per la modalità Semplice.
Modalità avanzata
- In modalità Avanzata, hai un maggiore controllo sui parametri. Puoi aggiungere dimensioni e obiettivi di misurazione personalizzati (n. 1 e 2 nello screenshot seguente).
- Scorri più in basso nella sezione Parametri e visualizza l'opzione Strategia
chiave. Può essere utilizzato per testare diverse strutture di chiavi
(n. 3 nello screenshot seguente)
- Per provare diverse strutture delle chiavi, imposta la strategia delle chiavi su "B".
- Inserisci il numero di strutture chiave diverse che vuoi utilizzare (il valore predefinito è "2")
- Fai clic su Genera strutture delle chiavi.
- Vedrai le opzioni per specificare le strutture delle chiavi facendo clic sulle caselle di controllo accanto alle chiavi da includere per ogni struttura delle chiavi.
- Fai clic su Simula per visualizzare l'output.
Interfaccia di Noise Lab per la modalità avanzata.
Interfaccia di Noise Lab per la modalità avanzata.
Metriche del rumore
Concetto principale
Il rumore viene aggiunto per proteggere la privacy dei singoli utenti.
Un valore di rumore elevato indica che i bucket/le chiavi sono sparsi e contengono contributi di un numero limitato di eventi sensibili. Questa operazione viene eseguita automaticamente da Noise Lab per consentire alle persone di "nascondersi nella folla" o, in altre parole, protegge la privacy di queste persone con una maggiore quantità di rumore aggiunto.
Un valore di rumore basso indica che la configurazione dei dati è stata progettata in modo da consentire già agli individui di "nascondersi nella folla". Ciò significa che i bucket contengono contributi di un numero sufficiente di eventi per verificare che la privacy dei singoli utenti sia protetta.
Questa affermazione vale sia per l'errore percentuale medio (APE) sia per l'errore relativo quadratico medio con una soglia (RMSRE_T).
Errore percentuale medio (APE)
L'errore percentuale assoluto è il rapporto tra il rumore e il segnale, ovvero il valore di riepilogo effettivo.
Valori APE più bassi indicano rapporti segnale/rumore migliori.
Formula
Per un determinato report di riepilogo, l'errore percentuale assoluto viene calcolato come segue:
True è il valore di riepilogo vero. L'APE è la media del rumore su ogni valore di riepilogo effettivo, calcolata in base a tutte le voci di un report di riepilogo. In Noise Lab, questo valore viene poi moltiplicato per 100 per ottenere una percentuale.
Vantaggi e svantaggi
I bucket con dimensioni più piccole hanno un impatto sproporzionato sul valore finale dell'errore percentuale assoluto. Ciò potrebbe essere fuorviante durante la valutazione del rumore. Per questo motivo, abbiamo aggiunto un'altra metrica, RMSRE_T, progettata per mitigare questa limitazione di APE. Per maggiori dettagli, esamina gli esempi.
Codice
Esamina il codice sorgente per il calcolo dell'errore percentuale assoluto.
RMSRE_T (errore relativo quadratico medio con una soglia)
RMSRE_T (errore quadratico medio relativo con una soglia) è un'altra misura per il rumore.
Come interpretare RMSRE_T
Valori RMSRE_T più bassi indicano rapporti segnale/rumore migliori.
Ad esempio, se un rapporto rumore accettabile per il tuo caso d'uso è del 20% e RMSRE_T è 0,2, puoi essere certo che i livelli di rumore rientrano nell'intervallo accettabile.
Formula
Per un determinato report di riepilogo, RMSRE_T viene calcolato come segue:
Vantaggi e svantaggi
RMSRE_T è un po' più complesso da comprendere rispetto all'APE. Tuttavia, presenta alcuni vantaggi che lo rendono in alcuni casi più adatto dell'errore percentuale assoluto per analizzare il rumore nei report di riepilogo:
- RMSRE_T è più stabile. "T" è una soglia. "T" viene utilizzato per dare meno peso nel calcolo di RMSRE_T ai bucket con meno conversioni e che sono quindi più sensibili al rumore a causa delle loro piccole dimensioni. Con T, la metrica non aumenta nei bucket con poche conversioni. Se T è uguale a 5, un valore di rumore pari a 1 in un bucket con 0 conversioni non verrà visualizzato come molto superiore a 1. Verrà invece impostato un limite massimo di 0, 2, che equivale a 1/5, poiché T è uguale a 5. Assegnando un peso inferiore ai bucket più piccoli, che sono quindi più sensibili al rumore, questa metrica è più stabile e quindi semplifica il confronto tra due simulazioni.
- RMSRE_T consente un'aggregazione semplice. Conoscere l'RMSRE_T di più bucket, insieme ai relativi conteggi effettivi, consente di calcolare l'RMSRE_T della loro somma. In questo modo puoi anche ottimizzare RMSRE_T per questi valori combinati.
Sebbene l'aggregazione sia possibile per l'errore percentuale assoluto, la formula è piuttosto complicata in quanto coinvolge il valore assoluto della somma dei rumori di Laplace. Ciò rende più difficile l'ottimizzazione dell'APE.
Codice
Esamina il codice sorgente per il calcolo di RMSRE_T.
Esempi
Report di riepilogo con tre bucket:
- bucket_1 = noise: 10, trueSummaryValue: 100
- bucket_2 = noise: 20, trueSummaryValue: 100
- bucket_3 = noise: 20, trueSummaryValue: 200
Errore percentuale assoluto (APE) = (0,1 + 0,2 + 0,1) / 3 = 13%
RMSRE_T = sqrt( ( (10/max(5,100))^2 + (20/max(5,100))^2 + (20/max(5,200))^2) / 3) = sqrt( (0.01 + 0.04 + 0.01) / 3) = 0.14
Report di riepilogo con tre bucket:
- bucket_1 = noise: 10, trueSummaryValue: 100
- bucket_2 = noise: 20, trueSummaryValue: 100
- bucket_3 = noise: 20, trueSummaryValue: 20
APE = (0,1 + 0,2 + 1) / 3 = 43%
RMSRE_T = sqrt( ( (10/max(5,100))^2 + (20/max(5,100))^2 + (20/max(5,20))^2) / 3) = sqrt( (0.01 + 0.04 + 1.0) / 3) = 0.59
Report di riepilogo con tre bucket:
- bucket_1 = noise: 10, trueSummaryValue: 100
- bucket_2 = noise: 20, trueSummaryValue: 100
- bucket_3 = noise: 20, trueSummaryValue: 0
APE = (0,1 + 0,2 + infinito) / 3 = infinito
RMSRE_T = sqrt( ( (10/max(5,100))^2 + (20/max(5,100))^2 + (20/max(5,0))^2) / 3) = sqrt( (0.01 + 0.04 + 16.0) / 3) = 2.31
Gestione avanzata delle chiavi
Una DSP o una società di misurazione pubblicitaria potrebbe avere migliaia di clienti pubblicitari globali, che coprono più settori, valute e potenziali prezzi di acquisto. Ciò significa che creare e gestire una chiave di aggregazione per inserzionista sarà probabilmente molto impraticabile. Inoltre, sarà difficile selezionare un valore aggregabile massimo e un budget di aggregazione che possano limitare l'impatto del rumore tra queste migliaia di inserzionisti globali. Consideriamo invece i seguenti scenari:
Key Strategy A
Il fornitore di tecnologia pubblicitaria decide di creare e gestire una chiave per tutti i suoi clienti pubblicitari. Per tutti gli inserzionisti e tutte le valute, la gamma di acquisti varia da acquisti di fascia alta a basso volume ad acquisti di fascia bassa ad alto volume. che genera la seguente chiave:
| Chiave (più valute) | |
|---|---|
| Valore massimo aggregabile | 5.000.000 |
| Intervallo di valori di acquisto | [120 - 5000000] |
Strategia chiave B
Il fornitore di tecnologia pubblicitaria decide di creare e gestire due chiavi per tutti i suoi clienti pubblicitari. Decidono di separare le chiavi per valuta. Per tutti gli inserzionisti e tutte le valute, la gamma di acquisti varia da acquisti di basso volume di fascia alta ad acquisti di alto volume di fascia bassa. Se vengono separate per valuta, vengono create due chiavi:
| Chiave 1 (USD) | Tasto 2 (¥) | |
|---|---|---|
| Valore massimo aggregabile | $ 40.000 | 5.000.000 ¥ |
| Intervallo di valori di acquisto | [120 - 40.000] | [15.000 - 5.000.000] |
La strategia chiave B avrà meno rumore nel risultato rispetto alla strategia chiave A, perché i valori delle valute non sono distribuiti uniformemente tra le valute. Ad esempio, considera in che modo gli acquisti denominati in ¥ combinati con gli acquisti denominati in USD altereranno i dati sottostanti e l'output rumoroso risultante.
Strategia chiave C
Il fornitore di tecnologia pubblicitaria decide di creare e gestire quattro chiavi per tutti i suoi clienti pubblicitari e di separarle per valuta x settore dell'inserzionista:
| Chiave 1 (USD x Inserzionisti di gioielli di lusso) |
Key 2 (¥ x High-end jewelry advertisers) |
Key 3 (USD x inserzionisti rivenditori di abbigliamento) |
Key 4 (¥ x Inserzionisti rivenditori di abbigliamento) |
|
|---|---|---|---|---|
| Valore massimo aggregabile | $ 40.000 | 5.000.000 ¥ | 500 $ | ¥ 65.000 |
| Intervallo di valori di acquisto | [10.000 - 40.000] | [1.250.000 - 5.000.000] | [120 - 500] | [15.000 - 65.000] |
La strategia chiave C avrà meno rumore nel risultato rispetto alla strategia chiave B, perché i valori di acquisto degli inserzionisti non sono distribuiti uniformemente tra gli inserzionisti. Ad esempio, considera in che modo gli acquisti di gioielli di fascia alta combinati con gli acquisti di cappellini da baseball alterano i dati sottostanti e l'output rumoroso risultante.
Valuta la possibilità di creare valori aggregati massimi condivisi e fattori di scalabilità condivisi per le caratteristiche comuni a più inserzionisti al fine di ridurre il rumore nell'output. Ad esempio, potresti sperimentare le seguenti strategie per i tuoi inserzionisti:
- Una strategia separata per valuta (USD, ¥, CAD e così via)
- Una strategia separata per settore dell'inserzionista (assicurazioni, auto, vendita al dettaglio e così via)
- Una strategia separata da intervalli di valori di acquisto simili ([100], [1000], [10000] e così via)
Creando strategie chiave basate sulle caratteristiche comuni degli inserzionisti, le chiavi e il codice corrispondente sono più facili da gestire e i rapporti segnale/rumore diventano più elevati. Sperimenta strategie diverse con caratteristiche comuni diverse degli inserzionisti per scoprire i punti di inflessione nella massimizzazione dell'impatto del rumore rispetto alla gestione del codice.
Gestione avanzata degli outlier
Consideriamo uno scenario che coinvolge due inserzionisti:
- Inserzionista A:
- Per tutti i prodotti sul sito dell'inserzionista A, le possibilità di prezzo di acquisto sono comprese tra 120 € e 1000 €, per un intervallo di 880 €.
- I prezzi di acquisto sono distribuiti uniformemente nell'intervallo di 880 $senza valori anomali al di fuori di due deviazioni standard dal prezzo di acquisto mediano.
- Inserzionista B:
- Per tutti i prodotti sul sito dell'inserzionista B, le possibilità di prezzo di acquisto sono comprese tra [120 € e 1000 €] , per un intervallo di 880 €.
- I prezzi di acquisto sono fortemente sbilanciati verso l'intervallo di 120-500 $, con solo il 5% degli acquisti che rientra nell'intervallo di 500-1000 $.
Dati i requisiti del budget di contribuzione e la metodologia con cui viene applicato il rumore ai risultati finali, l'inserzionista B avrà, per impostazione predefinita, un output più rumoroso rispetto all'inserzionista A, in quanto l'inserzionista B ha un potenziale maggiore di valori anomali che influiscono sui calcoli sottostanti.
È possibile mitigare questo problema con una configurazione specifica della chiave. Prova strategie chiave che aiutano a gestire i dati anomali e a distribuire in modo più uniforme i valori di acquisto nell'intervallo di acquisto della chiave.
Per l'inserzionista B, potresti creare due chiavi separate per acquisire due intervalli di valori di acquisto diversi. In questo esempio, la tecnologia pubblicitaria ha notato che i valori anomali appaiono al di sopra del valore di acquisto di 500 $. Prova a implementare due chiavi separate per questo inserzionista:
- Struttura della chiave 1 : chiave che acquisisce solo gli acquisti compresi tra 120 e 500 $ (coprendo circa il 95% del volume totale degli acquisti).
- Struttura della chiave 2: chiave che acquisisce solo gli acquisti superiori a 500 $ (che coprono circa il 5% del volume totale degli acquisti).
L'implementazione di questa strategia chiave dovrebbe gestire meglio il rumore per l'inserzionista B e contribuire a massimizzare l'utilità dei report di riepilogo. Date le nuove gamme più piccole, la chiave A e la chiave B dovrebbero ora avere una distribuzione più uniforme dei dati in ogni chiave rispettiva rispetto alla singola chiave precedente. In questo modo, l'impatto del rumore sarà minore nell'output di ogni chiave rispetto alla chiave singola precedente.