עבודה עם רעש

איך עובדים עם נתונים מיותרים בדוחות שאפשר לצבור, מביאים בחשבון את ההשפעה שלהם וצמצמים אותה?

לפני שמתחילים

לפני שנמשיך, מומלץ לקרוא את המאמר הסבר על נתונים מיותרים בדוחות סיכום כדי להבין לעומק מהם נתונים מיותרים ואת ההשפעה שלהם.

אמצעי הבקרה שלכם על הרעש

אי אפשר לשלוט ישירות ברעשי הרקע שנוספים לדוחות שניתן לצבור, אבל יש כמה פעולות שאפשר לבצע כדי לצמצם את ההשפעות שלהם. האסטרטגיות האלה מוסברות בקטעים הבאים.

הגדלת התקציב לתרומות

כפי שמוסבר בקטע 'הסבר על רעש', הרעש שחלה על ערך הסיכום לכל מפתח מבוסס על הסולם 0 עד 65,536 (0 עד CONTRIBUTION_BUDGET).

חלוקת הרעשים מבוססת על התקציב.
חלוקת הרעש מבוססת על התקציב.

לכן, כדי למקסם את האות ביחס לרעש, צריך להגדיל כל ערך לפני שמגדירים אותו כערך שניתן לצבור. כלומר, צריך להכפיל כל ערך בגורם מסוים, גורם ההתאמה, תוך בדיקה שהוא נשאר במסגרת תקציב התרומה.

רעש יחסי עם שינוי קנה מידה וגם בלי שינוי קנה מידה.
רעש יחסי עם ובלי התאמה.

חישוב גורם לקביעת קנה מידה

גורם ההתאמה מייצג את מידת ההתאמה שרוצים לבצע לערך נתון שניתן לצבור. הערך שלו צריך להיות תקציב התרומה חלקי הערך המקסימלי שניתן לצבור למפתח מסוים.

קביעת גורם ההתאמה על סמך תקציב התרומה.
קביעת גורם ההתאמה על סמך תקציב התוכן שנוסף.

לדוגמה, נניח שמפרסמים רוצים לדעת מהו הערך הכולל של הרכישה. אתם יודעים שהערך המקסימלי הצפוי של כל רכישה בודדת הוא 2,000$, מלבד כמה חריגים שבחרתם להתעלם מהם:

  • מחשבים את גורם ההתאמה:
    • כדי למקסם את יחס האות לרעש, צריך לשנות את הערך הזה ל-65,536 (תקציב ההוספה).
    • התוצאה היא גורם קנה מידה של 65,536 / 2,000, בערך 32x. בפועל, אפשר לעגל את הגורם הזה כלפי מעלה או כלפי מטה.
  • הגדלת הערכים לפני הצבירה. לכל $1 של רכישה, מוסיפים 32 למדד שנמצא במעקב. לדוגמה, לרכישה של 480 ש"ח, מגדירים ערך שניתן לצבור: 480*32 = 15,360.
  • הקטנת הערכים אחרי צבירת הנתונים אחרי שתקבלו את דוח הסיכום שמכיל את ערך הרכישה שמצטבר מכמה משתמשים, תוכלו להקטין את ערך הסיכום באמצעות גורם ההתאמה שהשתמשתם בו לפני הצבירה. בדוגמה שלנו, השתמשנו בגורם התאמה של 32 לפני צבירה, לכן צריך לחלק את ערך הסיכום שהתקבל בדוח הסיכום ב-32. לכן, אם ערך הרכישה הכולל של מפתח נתון בדוח הסיכום הוא 76,800, ערך הרכישה הכולל (עם רעש) הוא 76,800/32 = ‏ 2,400$.

פיצול התקציב

אם הגדרתם כמה יעדים למדידת ביצועים – לדוגמה, מספר רכישות וערך הרכישה – מומלץ לפצל את התקציב בין היעדים האלה.

במקרה כזה, גורמי ההתאמה ישתנו בהתאם לערכים שונים שניתנים לצבירה, בהתאם לערך המקסימלי הצפוי של ערך נתון שאפשר לצבור.

פרטים נוספים זמינים במאמר הסבר על מפתחות צבירת נתונים.

לדוגמה, נניח שאתם עוקבים גם אחרי מספר הרכישות וגם אחרי ערך הרכישה, ואתם מחליטים להקצות את התקציב באופן שווה.

אפשר להקצות 32,768 = 65,536 / 2 לכל סוג מדידה לכל מקור.

  • מספר הרכישות:
    • אתם עוקבים רק אחרי רכישה אחת, ולכן מספר הרכישות המקסימלי להמרה נתונה הוא 1.
    • לכן, מחליטים להגדיר את גורם ההתאמה לערך של 32,768 / 1 = 32,768 עבור מספר הרכישות.
  • ערך הרכישה:
    • נניח שערך הרכישה הצפוי המקסימלי של כל רכישה בודדת הוא 2,000$.
    • לכן, אתם מחליטים להגדיר את גורם ההתאמה לערך הרכישה כ-32,768 / 2,000 = 16.384 או כ-16.

מפתחות צבירת נתונים גסים יותר משפרים את יחס האות לרעש

מכיוון שמפתחות רחבים יותר מתעדים יותר אירועי המרה מאשר מפתחות מפורטים, בדרך כלל הערכים הסופיים של מפתחות רחבים יותר גבוהים יותר.

ערכים סיכומיים גבוהים יותר מושפעים פחות מרעש בהשוואה לערכים נמוכים יותר. סביר להניח שהרעש בערכים האלה יהיה נמוך יותר, ביחס לערך הזה.

סביר להניח שערכים שנאספים באמצעות מפתחות רחבים יותר יהיו פחות רועשים יחסית לעומת ערכים שנאספים באמצעות מפתחות מפורטים יותר.

דוגמה

בהנחה שכל שאר הנתונים זהים, מפתח שמנטר את ערך הרכישה ברמת העולם (הערך הכולל בכל המדינות) יוביל לערך סיכום גבוה יותר של הרכישות (ולמספר סיכום גבוה יותר של ההמרות) בהשוואה למפתח שמנטר המרות ברמת המדינה.

לכן, הרעש היחסי בערך הרכישה הכולל במדינה ספציפית יהיה גבוה יותר מהרעש היחסי בערך הרכישה הכולל בכל המדינות.

באופן דומה, אם כל שאר הנתונים זהים, ערך הרכישה הכולל של נעליים נמוך מערך הרכישה הכולל של כל הפריטים (כולל נעליים).

לכן, הרעש היחסי בערך הרכישה הכולל של נעליים יהיה גבוה יותר מהרעש היחסי בערך הרכישה הכולל של כל הפריטים.

ההשפעה של רעש עם מפתחות מפורטים לעומת מפתחות כלליים.
השפעת הרעש במפתחות מפורטים לעומת מפתחות גסים.

סיכום של ערכים של סיכומים (צבירות) כולל גם את הרעש שלהם

כשמוסיפים את ערכי הסיכום מדוחות הסיכום כדי לגשת לנתונים ברמה גבוהה יותר, מוסיפים גם את הרעש מערכי הסיכום האלה.

מידת הרעש במפתחות מפורטים עם צבירה לעומת מפתחות כלליים ללא צבירה.
מידת הרעש במפתחות מפורטים עם אוספים לעומת מפתחות כלליים ללא אוספים.

נבחן שתי גישות שונות:

  • גישה א': כוללים מזהה גיאוגרפי במפתחות. בדוחות סיכום מוצגים מפתחות ברמת מזהה גיאוגרפי, שכל אחד מהם משויך לערך הרכישה הכולל ברמת מזהה גיאוגרפי ספציפי.
  • גישה ב': לא כוללים מזהה גיאוגרפי במפתחות. בדוחות הסיכום מוצג ישירות ערך הרכישה הכולל של כל המיקומים או המזהים הגיאוגרפיים.

כדי לגשת לערך הרכישה ברמת המדינה:

  • בגישה א', מסכמים את ערכי הסיכום ברמת המזהה הגיאוגרפי, ולכן גם את הרעש שלהם. סביר להניח שהפעולה הזו תגרום ליותר רעש שיתווסף לערך הרכישה הסופי ברמת מזהה ה-Geo.
  • בגישה ב', בודקים ישירות את הנתונים שמוצגים בדוחות הסיכום. הרעש נוסף לנתונים האלה רק פעם אחת.

לכן, סביר להניח שערכו של סיכום הרכישות למזהה גיאוגרפי נתון יהיה פחות יציב בגישה א'.

באופן דומה, הוספת מאפיין ברמת המיקוד בדואר במפתחות עשויה להוביל לתוצאות עם יותר רעש מאשר שימוש במפתחות רחבים יותר עם מאפיין ברמת האזור.

צבירת נתונים על פני תקופות זמן ארוכות יותר מגדילה את יחס האות לרעש

אם מבקשים דוחות סיכום בתדירות נמוכה יותר, סביר להניח שכל ערך סיכום יהיה גבוה יותר מאשר אם מבקשים דוחות בתדירות גבוהה יותר. סביר להניח שיהיו יותר המרות במרווחי זמן ארוכים יותר.

כפי שצוין קודם, ככל שערך הסיכום גבוה יותר, כך סביר להניח שרעשי הרקע היחסיים יהיו נמוכים יותר. לכן, שליחת בקשות לדוחות סיכום בתדירות נמוכה יותר מובילה ליחס אות/רעש גבוה יותר (טוב יותר).

שליחת בקשות לדוחות סיכום בתדירות נמוכה יותר מובילה ליחס אות/רעש גבוה יותר
בקשות לדוחות סיכום בתדירות נמוכה יותר גורמות ליחס גבוה יותר בין האות לרעש.

דוגמה להמחשה:

  • אם מבקשים דוחות סיכום שעתיים על פני 24 שעות, ולאחר מכן מסכמים את ערך הסיכום מכל דוח שעתי כדי לגשת לנתונים ברמת היום, הרעשים מתווספים 24 פעמים.
  • בדיווח סיכום יומי אחד, הרעשים מתווספים רק פעם אחת.

ערך גבוה יותר של אפסילון, רעש נמוך יותר

ככל שערך האלפא גבוה יותר, כך רמת הרעש נמוכה יותר וההגנה על הפרטיות נמוכה יותר.

שימוש בסינון ובביטול כפילויות

חלק חשוב מהקצאת התקציב בין מפתחות שונים הוא להבין כמה פעמים אירוע נתון יכול להתרחש. לדוגמה, מפרסם עשוי להתעניין רק ברכישה אחת לכל קליק, אבל יכול להיות שהוא ירצה לקבל עד 3 המרות מסוג 'צפייה בדף המוצר'. כדי לתמוך בתרחישי השימוש האלה, מומלץ גם להשתמש בתכונות ה-API הבאות שמאפשרות לכם לקבוע כמה דוחות ייווצרו ואילו המרות ייספרו:

התנסות עם אפסילון

מומחי טכנולוגיית הפרסום יכולים להגדיר את ערך האפסילון לערך גדול מ-0 ועד 64. הטווח הזה מאפשר בדיקה גמישה. ערכים נמוכים יותר של epsilon מספקים הגנה טובה יותר על הפרטיות. מומלץ להתחיל עם epsilon=10.

המלצות לניסוי

מומלץ לבצע את הפעולות הבאות:

  • מתחילים עם epsilon = 10.
  • אם הדבר גורם לבעיות משמעותיות בשירותים, צריך להגדיל את הערך של epsilon באופן מצטבר.
  • אתם יכולים לשלוח משוב על נקודות מפנה ספציפיות שמצאתם בנוגע לנוחות השימוש בנתונים.

עניין ושיתוף משוב

אתם יכולים להשתתף ב-API הזה ולהתנסות בו.

השלבים הבאים