Praca z hałasem

Dowiedz się, jak pracować z raportami zbiorczymi, uwzględniać w nich szum i zmniejszać jego wpływ.

Zanim zaczniesz

Zanim przejdziesz dalej, zapoznaj się ze szczegółowymi informacjami o szumie i jego wpływie w artykule Wyjaśnienie szumu w raportach podsumowujących.

Kontrola szumów

Nie możesz bezpośrednio kontrolować szumu dodawanego do raportów zbiorczych, ale możesz podjąć działania, które pozwolą zminimalizować jego wpływ. W sekcjach poniżej znajdziesz opis tych strategii.

Skalowanie do budżetu na udział

Jak wyjaśniono w artykule Zrozumienie szumu, szum zastosowany do wartości podsumowania dla każdego klucza jest oparty na skali 0–65 536 (0–CONTRIBUTION_BUDGET).

Rozkład szumu zależy od budżetu.
Dystrybucja szumu zależy od budżetu.

Dlatego, aby zmaksymalizować stosunek sygnału do szumu, przed ustawieniem każdej wartości jako wartości podlegającej agregacji należy ją skalować w górę, czyli pomnożyć każdą wartość przez określony współczynnik, czyli współczynnik skalowania, sprawdzając jednocześnie, czy mieści się ona w budżecie na udział.

Szum względny ze skalowaniem i bez niego.
Względny szum ze skalowaniem i bez niego.

Obliczanie współczynnika skalowania

Współczynnik skalowania określa, o ile chcesz skalować daną wartość podlegającą agregacji. Jej wartość powinna być budżetem na udział podzielonym przez maksymalną wartość, którą można zsumować dla danego klucza.

Określanie współczynnika skalowania na podstawie budżetu na dodane treści.
Określanie współczynnika skalowania na podstawie budżetu na udział.

Załóżmy na przykład, że reklamodawcy chcą poznać łączną wartość zakupu. Wiesz, że maksymalna oczekiwana wartość zakupu to 2000 PLN, z wyjątkiem kilku wartości odstających, które postanawiasz zignorować:

  • Oblicz współczynnik skalowania:
    • Aby zmaksymalizować stosunek sygnału do szumu, musisz przeskalować tę wartość do 65 536 (budżet na udział).
    • Daje to współczynnik skalowania 65 536 / 2000, czyli w przybliżeniu 32x. W praktyce możesz zaokrąglić ten współczynnik w górę lub w dół.
  • Zwiększanie wartości przed agregacją Za każde 1 PLN wydane na zakup zwiększaj śledzoną wartość o 32. Na przykład w przypadku zakupu o wartości 120 zł ustaw wartość podlegającą agregacji na 120*32 = 3840.
  • Zmniejszanie wartości po agregacji Gdy otrzymasz raport podsumowujący zawierający wartość zakupu zsumowaną dla wielu użytkowników, zmniejsz wartość podsumowania za pomocą współczynnika skalowania użytego przed agregacją. W naszym przykładzie przed agregacją użyliśmy współczynnika skalowania 32, więc musimy podzielić wartość podsumowania otrzymaną w raporcie podsumowującym przez 32. Jeśli więc w raporcie podsumowującym wartość zakupu dla danego klucza wynosi 76 800, to wartość zakupu (z szumem) wynosi 76 800 PLN/32 = 2400 PLN.

Podziel budżet

Jeśli masz kilka celów pomiarowych, np. liczbę zakupów i wartość zakupów, możesz podzielić budżet między te cele.

W takim przypadku współczynniki skalowania będą się różnić w zależności od wartości, które można agregować, oraz od oczekiwanej maksymalnej wartości danej wartości, którą można agregować.

Więcej informacji znajdziesz w sekcji Klucze agregacji.

Załóżmy na przykład, że śledzisz liczbę i wartość zakupów i decydujesz się równo rozdzielić budżet.

Na każdy typ pomiaru i każde źródło można przeznaczyć 65 536 / 2 = 32 768.

  • Liczba zakupów:
    • Śledzisz tylko 1 zakup, więc maksymalna liczba zakupów w przypadku danej konwersji to 1.
    • Dlatego decydujesz się ustawić współczynnik skalowania liczby zakupów na 32 768 / 1 = 32 768.
  • Wartość zakupu:
    • Załóżmy,że maksymalna oczekiwana wartość zakupu wynosi 2000 zł.
    • Dlatego decydujesz się ustawić współczynnik skalowania wartości zakupu na 32 768 / 2000 = 16,384, czyli w przybliżeniu 16.

Bardziej ogólne klucze agregacji poprawiają stosunek sygnału do szumu

Klucze ogólne rejestrują więcej zdarzeń konwersji niż klucze szczegółowe, dlatego zwykle prowadzą do wyższych wartości podsumowania.

Na wyższe wartości podsumowania szum ma mniejszy wpływ niż na wartości niższe. Szum w przypadku tych wartości jest prawdopodobnie mniejszy w porównaniu z tą wartością.

Wartości zebrane za pomocą kluczy o mniejszej szczegółowości są prawdopodobnie mniej zaszumione niż wartości zebrane za pomocą kluczy o większej szczegółowości.

Przykład

Przy założeniu, że wszystkie inne czynniki są takie same, klucz, który śledzi wartość zakupu na całym świecie (sumowaną we wszystkich krajach), będzie prowadzić do wyższej łącznej wartości zakupu (i wyższej łącznej liczby konwersji) niż klucz, który śledzi konwersje na poziomie kraju.

Dlatego względny szum w przypadku łącznej wartości zakupu w określonym kraju będzie większy niż względny szum w przypadku łącznej wartości zakupu we wszystkich krajach.

Podobnie, przy założeniu, że wszystkie inne czynniki są równe, łączna wartość zakupu butów jest niższa niż łączna wartość zakupu wszystkich produktów (w tym butów).

Dlatego względny szum w przypadku łącznej wartości zakupu butów będzie większy niż względny szum w przypadku łącznej wartości zakupu wszystkich produktów.

Wpływ szumu w przypadku kluczy o dużej i małej szczegółowości.
Wpływ szumu w przypadku kluczy o dużej i małej szczegółowości.

Sumowanie wartości podsumowujących (rollup) powoduje też sumowanie szumu.

Podsumowując wartości z raportów podsumowujących, aby uzyskać dostęp do danych wyższego poziomu, podsumowujesz też szum z tych wartości.

Stopień szumu w przypadku szczegółowych kluczy z podsumowaniami w porównaniu z kluczami ogólnymi bez podsumowań.
Poziom szumu w przypadku szczegółowych kluczy z podsumowaniami w porównaniu z kluczami ogólnymi bez podsumowań.

Przyjrzyjmy się 2 różnym podejściom:

  • Podejście A: w kluczach uwzględniasz identyfikator geograficzny. Raporty podsumowujące zawierają klucze na poziomie identyfikatora geograficznego, z których każdy jest powiązany z podsumowaną wartością zakupu na poziomie określonego identyfikatora geograficznego.
  • Podejście B: nie uwzględniasz identyfikatora geograficznego w kluczach. Raporty podsumowujące bezpośrednio ujawniają podsumowaną wartość zakupu dla wszystkich identyfikatorów geograficznych lub lokalizacji.

Aby uzyskać dostęp do wartości zakupu na poziomie kraju:

  • W przypadku podejścia A sumujesz wartości podsumowania na poziomie identyfikatora geograficznego, a tym samym sumujesz też szum. Prawdopodobnie spowoduje to dodanie większej ilości szumu do końcowej wartości zakupu na poziomie identyfikatora geograficznego.
  • W przypadku podejścia B bezpośrednio analizujesz dane widoczne w raportach podsumowujących. Szum został dodany do tych danych tylko raz.

Dlatego w przypadku podejścia A podsumowana wartość zakupu dla danego identyfikatora geograficznego będzie prawdopodobnie bardziej zaszumiona.

Podobnie uwzględnienie w kluczach wymiaru na poziomie kodu pocztowego prawdopodobnie da bardziej zaszumione wyniki niż użycie kluczy o większej ziarnistości z wymiarem na poziomie regionu.

Agregowanie danych w dłuższych okresach zwiększa stosunek sygnału do szumu.

Rzadsze wysyłanie próśb o raporty podsumowujące oznacza, że każda wartość podsumowania będzie prawdopodobnie wyższa niż w przypadku częstszego wysyłania próśb o raporty, ponieważ w dłuższych okresach czasu prawdopodobnie nastąpi więcej konwersji.

Jak wspomnieliśmy wcześniej, im wyższa wartość podsumowania, tym mniejszy względny szum. Dlatego rzadsze wysyłanie próśb o raporty podsumowujące prowadzi do uzyskiwania wyższego (lepszego) stosunku sygnału do szumu.

Rzadsze wysyłanie próśb o raporty podsumowujące zwiększa stosunek sygnału do szumu.
Rzadsze wysyłanie próśb o raporty zbiorcze zwiększa stosunek sygnału do szumu.

Oto przykład:

  • Jeśli prosisz o godzinowe raporty podsumowujące za okres dłuższy niż 24 godziny, a potem sumujesz wartości podsumowujące z każdego raportu godzinowego, aby uzyskać dane na poziomie dnia, szum jest dodawany 24 razy.
  • W jednym dziennym raporcie podsumowującym szum jest dodawany tylko raz.

Wyższa wartość ypsilon, mniejszy szum

Im wyższa wartość parametru epsilon, tym mniejszy szum i mniejsza ochrona prywatności.

Wykorzystywanie filtrowania i deduplikacji

Ważną częścią przydzielania budżetu do różnych kluczy jest zrozumienie, ile razy może wystąpić dane zdarzenie. Na przykład reklamodawca może być zainteresowany tylko 1 zakupem na kliknięcie, ale może go interesować do 3 konwersji „wyświetlenie strony produktu”. Aby obsługiwać te przypadki użycia, możesz też skorzystać z tych funkcji interfejsu API, które umożliwiają kontrolowanie liczby generowanych raportów i rodzaju konwersji, które są zliczane:

Eksperymentowanie z wartością epsilon

Dostawcy technologii reklamowych mogą ustawić wartość epsilona na liczbę większą od 0 i nie większą niż 64. Ten zakres umożliwia elastyczne testowanie. Niższe wartości epsilonu zapewniają większą ochronę prywatności. Zalecamy rozpoczęcie od wartości epsilon=10.

Rekomendacje dotyczące eksperymentów

Zalecamy wykonanie tych czynności:

  • Zacznij od epsilon = 10.
  • Jeśli spowoduje to zauważalne problemy z użytecznością, stopniowo zwiększaj wartość epsilon.
  • Podziel się opinią na temat konkretnych punktów przegięcia, które mogą mieć wpływ na użyteczność danych.

Engage and share feedback

You can participate and experiment with this API.

Dalsze kroki