Praca z hałasem

Dowiedz się, jak uwzględniać i zmniejszać wpływ szumu w raportach podlegających agregacji oraz jak z nimi pracować.

Zanim zaczniesz

Zanim przejdziesz dalej, zapoznaj się z artykułem Zrozumienie szumu w raportach podsumowaniach, aby dowiedzieć się więcej o tym, czym jest szum i jak wpływa na wyniki.

Twoje ustawienia dotyczące szumów

Nie możesz bezpośrednio kontrolować szumu dodanego do raportów podlegających agregacji, ale możesz podjąć działania, które pozwolą zminimalizować jego wpływ. W następnych sekcjach omawiamy te strategie.

Przejście na budżet udziału

Jak wyjaśniono w sekcji dotyczącą szumu, szum dodawany do wartości zbiorczej w przypadku każdego klucza jest określany na skali od 0 do 65 536 (0–CONTRIBUTION_BUDGET).

Rozkład szumów jest ustalany na podstawie budżetu.

Aby zmaksymalizować sygnał w stosunku do szumu, przed ustawieniem wartości jako wartości agregowanej należy każdą z nich przemnożyć, aby mieściła się ona w ramach budżetu na udział.

Relatywny szum ze skalowaniem i bez niego.

Obliczanie współczynnika skalowania

Współczynnik skalowania określa, jak bardzo chcesz skalować daną wartość agregowalną. Jego wartość powinna być równa budżetowi udziału podzielonemu przez maksymalną wartość agregowalną dla danego klucza.

Określanie współczynnika skalowania na podstawie budżetu na treści.

Załóżmy np., że reklamodawcy chcą znać łączną wartość zakupu. Wiesz, że maksymalna oczekiwana wartość każdego zakupu to 2000 USD, z wyjątkiem kilku wartości odstających, które decydujesz się zignorować:

  • Obliczanie współczynnika skalowania:
    • Aby zmaksymalizować stosunek sygnału do szumu, musisz zwiększyć tę wartość do 65 536 (budżet na wkład).
    • W efekcie współczynnik skalowania wynosi 65 536 / 2000 = 32x. W praktyce możesz zaokrąglić ten współczynnik w górę lub w dół.
  • Przed agregacją zwiększaj wartości. Za każde 1 USD wydane na zakup zwiększaj śledzone dane o 32. Na przykład w przypadku zakupu o wartości 120 zł ustaw wartość agregacyjną 120*32 = 3840.
  • Zmniejszaj wartości po ich zsumowaniu. Gdy otrzymasz raport podsumowujący, który zawiera wartość zakupu zsumowaną dla wielu użytkowników, zmniejsz wartość podsumowania, stosując współczynnik skalowania użyty przed agregacją. W naszym przykładzie zastosowaliśmy współczynnik skalowania wynoszący 32 przed agregacją, więc musimy podzielić otrzymaną wartość podsumowania w raporcie podsumowania przez 32. Jeśli więc wartość zakupu podana w raporcie zbiorczym dla danego klucza wynosi 76 800, wartość zakupu podana w raporcie zbiorczym (z dodatkowymi błędami) wynosi 76 800/32 = 2400 zł.

Podział budżetu

Jeśli masz kilka celów pomiarowych, np. liczbę zakupów i wartość zakupu, możesz podzielić budżet na te cele.

W takim przypadku współczynniki skalowania będą się różnić w zależności od oczekiwanego maksymalnego zbiorczego wyniku danej wartości.

Szczegółowe informacje znajdziesz w artykule Klucze agregacji.

Załóżmy na przykład, że śledzisz zarówno liczbę zakupów, jak i wartość zakupu, i postanawiasz przydzielić budżet w równych częściach.

Na typ pomiaru i źródło można przydzielić 65 536 / 2 = 32 768.

  • Liczba zakupów:
    • Śledzisz tylko 1 zakup, więc maksymalna liczba zakupów w przypadku danej konwersji to 1.
    • Dlatego decydujesz się ustawić współczynnik skalowania dla liczby zakupów na 32 768 / 1 = 32 768.
  • Wartość zakupu:
    • Załóżmy,że maksymalna oczekiwana wartość każdego zakupu wynosi 2000 zł.
    • Dlatego decydujesz się ustawić współczynnik skalowania wartości zakupu na 32 768 / 2000 = 16,384, czyli w przybliżeniu 16.

Klucze agregacji o grubszej ziarnistości poprawiają stosunek sygnału do szumu

Ponieważ klucze ogólne wychwytują więcej zdarzeń konwersji niż klucze szczegółowe, zwykle prowadzą do uzyskania wyższych wartości zbiorczych.

Na wyższe wartości zbiorcze ma mniejszy wpływ szum niż na niższe wartości; szum tych wartości jest prawdopodobnie mniejszy w stosunku do tej wartości.

Wartości zbierane przy użyciu kluczy o mniejszej rozdzielczości prawdopodobnie będą mniej wiarygodne niż wartości zbierane przy użyciu kluczy o większej rozdzielczości.

Przykład

Przy wszystkich pozostałych niezmienionych warunkach klucz, który śledzi wartość zakupu na całym świecie (sumowaną we wszystkich krajach), spowoduje wyższą łączną wartość zakupu (i wyższy łączny współczynnik konwersji) niż klucz, który śledzi konwersje na poziomie kraju.

Dlatego względny szum w przypadku łącznej wartości zakupu w konkretnym kraju będzie wyższy niż w przypadku łącznej wartości zakupu we wszystkich krajach.

Podobnie, przy niezmienionych pozostałych warunkach, łączna wartość zakupu butów jest niższa niż łączna wartość zakupu wszystkich produktów (w tym butów).

Dlatego względny szum w przypadku łącznej wartości zakupu butów będzie większy niż względny szum w przypadku łącznej wartości zakupu wszystkich produktów.

Wpływ szumu w przypadku kluczy szczegółowych i ogólnych.

Dodawanie wartości podsumowania (podsumowań) powoduje również dodanie ich szumu.

Sumując wartości podsumowania z raportów podsumowania, aby uzyskać dostęp do danych na wyższym poziomie, sumujesz też szum z tych wartości podsumowania.

Stopień szumu w przypadku szczegółowych kluczy z podsumowaniem w porównaniu z kluczami ogólnymi bez podsumowania.

Przyjrzyjmy się 2 różnym podejściom: - Podejście A: w kluczach uwzględniasz identyfikator geograficzny. Raporty podsumowujące zawierają klucze na poziomie geo-ID, z których każdy jest powiązany z wartością zakupu na poziomie konkretnego geo-ID. – Metoda B: w kluczach nie uwzględniasz identyfikatora geograficznego. Raporty podsumowujące zawierają bezpośrednio sumaryczną wartość zakupu dla wszystkich identyfikatorów geograficznych / lokalizacji.

Aby uzyskać wartość zakupu na poziomie kraju: - W metodzie A wartości podsumowania na poziomie identyfikatora geograficznego są sumowane, a zarazem sumowany jest też ich szum. Może to spowodować zwiększenie poziomu szumów w przypadku końcowej wartości zakupu na poziomie identyfikatora geograficznego. – W przypadku podejścia B dane są widoczne bezpośrednio w raportach podsumowania. Do tych danych szum został dodany tylko raz.

Dlatego przy podejściu A wartość zakupu podana w podstawowym identyfikatorze geograficznym prawdopodobnie będzie bardziej niejednorodna.

Podobnie uwzględnienie w kluczach wymiaru na poziomie kodu pocztowego prawdopodobnie spowoduje powstanie bardziej niejednorodnych wyników niż w przypadku użycia kluczy o większym zasięgu z wymiarem na poziomie regionu.

Aggregating over longer time periods increases signal-to-noise ratio

Jeśli żądasz raportów zbiorczych rzadziej, każda wartość zbiorczego raportu będzie prawdopodobnie wyższa niż w przypadku żądania raportów częściej. W dłuższych przedziałach czasu prawdopodobnie wystąpi więcej konwersji.

Jak już wspomnieliśmy, im wyższa wartość podsumowania, tym mniejszy jest względny szum. Dlatego rzadsze żądanie raportów podsumowania prowadzi do lepszego (wyższego) współczynnika sygnału do szumu.

Wysyłanie raportów zbiorczych rzadziej prowadzi do lepszego stosunku sygnału do szumu

Oto przykład:

  • Jeśli żądasz raportów z podsumowaniem godzinowym za okres 24 godzin, a następnie sumujesz wartość podsumowania z każdego raportu godzinowego, aby uzyskać dane na poziomie dnia, do szumu dodawane są 24 wartości.
  • W jednym raporcie podsumowania dziennego szum jest dodawany tylko raz.

Większa wartość epsilona, mniejszy szum

Im wyższa wartość epsilon, tym mniejszy szum i niższa ochrona prywatności.

Wykorzystywanie filtrowania i deduplikacji

Ważnym elementem przydzielania budżetu do różnych kluczy jest ustalenie, ile razy może wystąpić dane zdarzenie. Reklamodawca może np. zliczać tylko 1 zakup na każde kliknięcie, ale może też być zainteresowany maksymalnie 3 konwersjami „wyświetlenia strony produktu”. Aby obsługiwać te przypadki użycia, możesz też korzystać z tych funkcji interfejsu API, które umożliwiają kontrolowanie liczby generowanych raportów i konwersji, które są zliczane:

Eksperymentowanie z epsilonem

Firmy technologiczne zajmujące się reklamami mogą ustawić epsilon na wartość większą od 0, ale nie większą niż 64. Ten zakres umożliwia elastyczne testowanie. Im mniejsza wartość epsilon, tym większa ochrona prywatności. Zalecamy rozpoczęcie od epsilon=10.

Rekomendacje dotyczące eksperymentowania

Zalecamy: - zacznij od epsilon = 10. – Jeśli powoduje to znaczne problemy z użytecznością, stopniowo zwiększaj wartość epsilona. – Prześlij opinię na temat konkretnych punktów zwrotnych, które możesz zauważyć w związku z użytecznością danych.

Angażuj i dziel się opiniami

Możesz uczestniczyć w korzystaniu z tego interfejsu API i eksperymentować z nim.

Dalsze kroki