Informacje o szumach w raportach podsumowujących

Dowiedz się, co to jest szum, gdzie jest dodawany i jak wpływa na Twoje pomiary.

Raporty podsumowujące są wynikiem agregacji raportów z możliwością agregacji. Gdy raporty podlegające agregacji są grupowane przez moduł zbierający i przetwarzane przez usługę do agregacji, do wynikowych raportów podsumowujących dodawany jest szum, czyli losowa ilość danych. Szum jest dodawany w celu ochrony prywatności użytkowników. Celem tego mechanizmu jest stworzenie platformy, która może obsługiwać pomiary z zachowaniem prywatności różnicowej.

Szum jest dodawany w raporcie podsumowującym.
Szum jest dodawany w końcowym raporcie podsumowującym.

Wprowadzenie do szumu w raportach podsumowujących

Dodawanie szumu nie jest obecnie zwykle częścią pomiaru reklam, ale w wielu przypadkach dodany szum nie zmieni znacząco interpretacji wyników.

Możesz to sobie wyobrazić w ten sposób: czy podjąłbyś decyzję na podstawie określonych danych, gdyby nie były one zaszumione?

Czy na przykład reklamodawca może mieć pewność, że warto zmienić strategię lub budżety kampanii na podstawie tego, że kampania A wygenerowała 15 konwersji, a kampania B – 16?

Jeśli odpowiedź jest przecząca, szum nie ma znaczenia.

Skonfiguruj korzystanie z interfejsu API w taki sposób, aby:

  1. Odpowiedź na to pytanie brzmi „tak”.
  2. Szum jest zarządzany w taki sposób, aby nie wpływał znacząco na możliwość podejmowania decyzji na podstawie określonych danych. Możesz to zrobić w ten sposób: w przypadku oczekiwanej minimalnej liczby konwersji chcesz utrzymać poziom szumu w zbieranych danych poniżej określonego procentu.

W tej i następnej sekcji przedstawimy strategie, które pomogą Ci osiągnąć cel 2.

Podstawowe pojęcia

Usługa do agregacji dodaje szum do każdej wartości podsumowania – czyli raz na klucz – za każdym razem, gdy jest przesyłany raport podsumowujący.

Wartości szumu są losowo pobierane z określonego rozkładu prawdopodobieństwa w ten sposób:

Wszystkie elementy, które mają wpływ na szum, opierają się na 2 głównych koncepcjach.

  1. Rozkład szumu (szczegóły poniżej) jest taki sam niezależnie od wartości podsumowania, niskiej czy wysokiej. Im wyższa wartość podsumowania, tym mniejszy wpływ szumu w stosunku do tej wartości.

    Załóżmy na przykład, że zarówno łączna zagregowana wartość zakupu wynosząca 20 tys. zł,jak i łączna zagregowana wartość zakupu wynosząca 200 zł podlegają szumowi wybranemu z tego samego rozkładu.

    Załóżmy, że szum z tego rozkładu waha się w przybliżeniu od -100 do +100.

    • W przypadku łącznej wartości zakupu wynoszącej 20 000 zł szum waha się od 0 zł do 100 zł/20 000 zł=0,5%.
    • W przypadku łącznej wartości zakupu wynoszącej 200 USD szum waha się od 0 USD do 100 USD, czyli 50%.

    Dlatego szum będzie miał prawdopodobnie mniejszy wpływ na łączną wartość zakupu wynoszącą 20 000 PLN niż na wartość 200 PLN. W porównaniu z tą kwotą 20 000 PLN będzie prawdopodobnie mniej podatne na zakłócenia, czyli będzie miało wyższy stosunek sygnału do szumu.

    Wyższe wartości zagregowane mają stosunkowo mniejszy wpływ szumu.
    Wyższe wartości zagregowane mają stosunkowo mniejszy wpływ szumu.

    Ma to kilka ważnych praktycznych konsekwencji, które opisujemy w następnej sekcji. Ten mechanizm jest częścią projektu interfejsu API, a jego praktyczne konsekwencje są długoterminowe. Będą one nadal odgrywać ważną rolę, gdy dostawcy technologii reklamowych będą projektować i oceniać różne strategie agregacji.

  2. Szum jest losowany z tego samego rozkładu niezależnie od wartości podsumowania, ale ten rozkład zależy od kilku parametrów. Jeden z tych parametrów, epsilon, mógł być zmieniany przez dostawców technologii reklamowych podczas zakończonego testu pochodzenia, aby ocenić różne dostosowania dotyczące użyteczności i prywatności. Pamiętaj jednak, że możliwość dostosowania wartości epsilon jest tymczasowa. Chętnie poznamy Twoją opinię na temat przypadków użycia i wartości epsilon, które dobrze się sprawdzają.

Firma z branży technologii reklamowych nie ma bezpośredniej kontroli nad sposobami dodawania szumu, ale może wpływać na jego oddziaływanie na dane pomiarowe. W kolejnych sekcjach omówimy, jak w praktyce można wpływać na szum.

Zanim to zrobimy, przyjrzyjmy się bliżej sposobowi stosowania szumu.

Powiększanie: sposób stosowania szumu

Jeden rozkład szumu

Szum jest generowany na podstawie rozkładu Laplace’a z tymi parametrami:

  • Średnia (μ) wynosi 0. Oznacza to, że najbardziej prawdopodobna wartość szumu to 0 (brak dodanego szumu), a wartość z szumem jest równie prawdopodobna, jak wartość mniejsza od pierwotnej i większa od niej (czasami nazywa się to nieobciążonym).
  • Parametr skalib = CONTRIBUTION_BUDGET / epsilon.
    • CONTRIBUTION_BUDGET jest zdefiniowany w przeglądarce.
    • epsilon jest używany w usłudze agregacji.

Poniższy diagram przedstawia funkcję gęstości prawdopodobieństwa rozkładu Laplace’a z parametrami μ=0 i b = 20:

Funkcja gęstości prawdopodobieństwa rozkładu Laplace’a z μ=0 i b = 20
Funkcja gęstości prawdopodobieństwa rozkładu Laplace’a z μ=0, b = 20

Wartości losowego szumu, jeden rozkład szumu

Załóżmy, że dostawca technologii reklamowych wysyła żądanie raportów zbiorczych dla 2 kluczy agregacji: key1 i key2.

Usługa agregacji wybiera 2 wartości szumu x1 i x2 zgodnie z tym samym rozkładem szumu. Wartość x1 jest dodawana do wartości podsumowania klucza 1, a wartość x2 jest dodawana do wartości podsumowania klucza 2.

Na diagramach wartości szumu będą przedstawione jako identyczne. To uproszczenie. W rzeczywistości wartości szumu będą się różnić, ponieważ są losowo wybierane z rozkładu.

Pokazuje to, że wartości szumu pochodzą z tego samego rozkładu i są niezależne od wartości podsumowania, do której są stosowane.

Inne właściwości szumu

Szum jest dodawany do każdej wartości podsumowania, w tym do pustych (0).

Nawet puste wartości podsumowania podlegają szumowi.
Nawet puste wartości podsumowania podlegają szumowi.

Na przykład nawet jeśli prawdziwa wartość podsumowania dla danego klucza wynosi 0, zaszumiona wartość podsumowania, którą zobaczysz w raporcie podsumowującym dla tego klucza, (najprawdopodobniej) nie będzie wynosić 0.

Szum może być liczbą dodatnią lub ujemną.

Przykłady szumu pozytywnego i negatywnego.
Przykłady szumu pozytywnego i negatywnego.

Na przykład w przypadku kwoty zakupu przed dodaniem szumu wynoszącej 327 000 PLN szum może wynosić +6000 PLN lub -6000 PLN (są to przykładowe wartości).

Ocena szumu

Obliczanie odchylenia standardowego szumu

Odchylenie standardowe szumu wynosi:

b*sqrt(2) = (CONTRIBUTION_BUDGET / epsilon)*sqrt(2)
Przykład

Przy epsilon = 10 odchylenie standardowe szumu wynosi:

b*sqrt(2) = (CONTRIBUTION_BUDGET / epsilon)*sqrt(2) = (65,536/10)*sqrt(2) = 9,267

Sprawdzanie, kiedy różnice w pomiarach są istotne

Ponieważ będziesz znać odchylenie standardowe szumu dodawanego do każdej wartości wyjściowej usługi agregacji, możesz określić odpowiednie progi porównania, aby sprawdzić, czy zaobserwowane różnice mogą być spowodowane szumem.

Jeśli np. szum dodany do wartości wynosi w przybliżeniu +/- 10 (z uwzględnieniem skalowania), a różnica między wartościami w 2 kampaniach przekracza 100, można przypuszczać, że różnica między wartościami zmierzonymi w poszczególnych kampaniach nie wynika tylko z szumu.

Angażowanie się i przesyłanie opinii

Możesz korzystać z tego interfejsu API i eksperymentować z nim.

Dalsze kroki