עבודה עם רעש

במאמר הזה מוסבר איך לעבוד עם נתונים מיותרים בדוחות המצטברים, איך להתחשב בהם ואיך לצמצם את ההשפעה שלהם.

לפני שמתחילים

לפני שממשיכים, מומלץ לקרוא את המאמר הסבר על נתונים מיותרים בדוחות סיכום כדי להבין מהם נתונים מיותרים ומה ההשפעה שלהם.

הגדרות הרעש

אי אפשר לשלוט ישירות ברעש שנוסף לדוחות המצטברים, אבל אפשר לבצע פעולות כדי למזער את ההשפעות שלו. בקטעים הבאים מוסבר על האסטרטגיות האלה.

הגדלת התקציב עד לתקציב התרומה

כפי שמוסבר במאמר בנושא הבנת הרעש, הרעש שמוחל על ערך הסיכום של כל מפתח מבוסס על סולם של 0 עד 65,536 (0 עד CONTRIBUTION_BUDGET).

חלוקת הרעשים מבוססת על התקציב.
חלוקת הרעש מבוססת על התקציב.

לכן, כדי למקסם את האות ביחס לרעש, צריך להגדיל כל ערך לפני שמגדירים אותו כערך ניתן לצבירה – כלומר, להכפיל כל ערך בפקטור מסוים, פקטור ההגדלה, תוך כדי בדיקה שהערך נשאר במסגרת תקציב התרומה.

רעש יחסי עם הגדלה באחוזים וללא הגדלה באחוזים.
רעש יחסי עם הגדלה באחוזים וללא הגדלה באחוזים.

חישוב גורם לקביעת קנה מידה

גורם ההרחבה מייצג את המידה שבה רוצים להרחיב ערך מסוים שניתן לצבירה. הערך שלו צריך להיות התקציב לתרומה חלקי הערך המקסימלי שניתן לצבירה עבור מפתח מסוים.

קביעת גורם קנה המידה על סמך תקציב התרומה.
קביעת גורם קנה המידה על סמך תקציב התרומה.

לדוגמה, נניח שהמפרסמים רוצים לדעת את ערך הרכישה הכולל. אתם יודעים שערך הרכישה המקסימלי הצפוי של כל רכישה הוא 2,000$, למעט כמה חריגים שאתם מחליטים להתעלם מהם:

  • חישוב גורם קנה המידה:
    • כדי למקסם את יחס האות לרעש, צריך לשנות את קנה המידה של הערך הזה ל-65,536 (תקציב התרומה).
    • התוצאה היא 65,536 חלקי 2,000, כלומר גורם קנה מידה של 32x בערך. בפועל, יכול להיות שתעגלו את הגורם הזה כלפי מעלה או כלפי מטה.
  • הגדלת הערכים לפני הצבירה. על כל $1 של רכישה, המדד שבמעקב יגדל ב-32. לדוגמה, אם הרכישה היא בסך 120$, מגדירים ערך ניתן לצבירה של ‎120*32 = 3,840.
  • הקטנת הערכים אחרי הצבירה. אחרי שמקבלים את דוח הסיכום שמכיל את ערך הרכישה שחושב על סמך נתונים של כמה משתמשים, צריך להקטין את ערך הסיכום באמצעות מקדם ההתאמה שבו השתמשתם לפני הצבירה. בדוגמה שלנו, השתמשנו בפקטור קנה מידה של 32 לפני הצבירה, ולכן אנחנו צריכים לחלק את ערך הסיכום שמתקבל בדוח הסיכום ב-32. לכן, אם ערך הרכישה בסיכום של מפתח מסוים בדוח הסיכום הוא 76,800, ערך הרכישה בסיכום (עם רעשי רקע) הוא 76,800 חלקי 32, כלומר 2,400$.

פיצול התקציב

אם יש לכם כמה יעדי מדידה – לדוגמה, מספר הרכישות וערך הרכישות – כדאי לפצל את התקציב בין היעדים האלה.

במקרה כזה, גורמי ההרחבה יהיו שונים עבור ערכים שונים שניתנים לצבירה, בהתאם למקסימום הצפוי של ערך נתון שניתן לצבירה.

אפשר לקרוא פרטים נוספים במאמר הסבר על מפתחות צבירה.

לדוגמה, נניח שאתם עוקבים אחרי מספר הרכישות וערך הרכישה, והחלטתם להקצות את התקציב באופן שווה.

אפשר להקצות 32,768 לכל סוג מדידה ולכל מקור.

  • מספר הרכישות:
    • אתם עוקבים רק אחרי רכישה אחת, ולכן מספר הרכישות המקסימלי להמרה נתונה הוא 1.
    • לכן, אתם מחליטים להגדיר את גורם ההתאמה של ספירת הרכישות ל-32,768 חלקי 1, כלומר 32,768.
  • ערך רכישה:
    • נניח שערך הרכישה המקסימלי הצפוי של כל רכישה הוא 2,000$.
    • לכן, אתם מחליטים להגדיר את מקדם ההתאמה של ערך הרכישה ל-32,768 חלקי 2,000, כלומר 16.384 או בערך 16.

מפתחות צבירה גסים יותר משפרים את יחס האות לרעש

מכיוון שמפתחות גסים מתעדים יותר אירועי המרה ממפתחות מפורטים, הם בדרך כלל מובילים לערכי סיכום גבוהים יותר.

ערכי סיכום גבוהים מושפעים פחות מרעשי רקע בהשוואה לערכים נמוכים. רעשי הרקע בערכים האלה צפויים להיות נמוכים יותר ביחס לערך הזה.

ערכים שנאספים באמצעות מפתחות גסים יותר נוטים להיות פחות רועשים יחסית מערכים שנאספים באמצעות מפתחות מפורטים יותר.

דוגמה

אם כל שאר התנאים שווים, מילת מפתח שעוקבת אחרי ערך הרכישה באופן גלובלי (מסוכם בכל המדינות) תוביל לערך רכישה מסוכם גבוה יותר (ולמספר המרות מסוכם גבוה יותר) בהשוואה למילת מפתח שעוקבת אחרי המרות ברמת המדינה.

לכן, הרעש היחסי בערך הכולל של הרכישות במדינה ספציפית יהיה גבוה יותר מהרעש היחסי בערך הכולל של הרכישות בכל המדינות.

באופן דומה, אם כל שאר התנאים זהים, ערך הרכישה הכולל של נעליים נמוך מערך הרכישה הכולל של כל הפריטים (כולל נעליים).

לכן, הרעש היחסי בערך הכולל של רכישת נעליים יהיה גבוה יותר מהרעש היחסי בערך הכולל של רכישת כל הפריטים.

השפעת הרעש עם מפתחות גרנולריים לעומת מפתחות גסים.
השפעת הרעש עם מפתחות מפורטים לעומת מפתחות גסים.

כשמסכמים ערכים בסיכום (rollups), גם הרעש שלהם מסתכם

כשמסכמים את ערכי הסיכום מדוחות הסיכום כדי לגשת לנתונים ברמה גבוהה יותר, מסכמים גם את הרעש מערכי הסיכום האלה.

רמת הרעש במפתחות גרנולריים עם סיכומי נתונים לעומת מפתחות גסים ללא סיכומי נתונים.
רמת הרעש במפתחות גרנולריים עם סיכומים לעומת מפתחות גסים ללא סיכומים.

נבחן שתי גישות שונות:

  • גישה א': כוללים מזהה גיאוגרפי במפתחות. בדוחות הסיכום מוצגים מפתחות ברמת המזהה הגיאוגרפי, שכל אחד מהם משויך לערך הרכישה בסיכום ברמה של מזהה גיאוגרפי ספציפי.
  • גישה ב': לא כוללים את מזהה המיקום הגיאוגרפי במפתחות. בדוחות הסיכום מוצג ישירות ערך הרכישה המסוכם לכל מזהה גיאוגרפי או מיקום.

כדי לגשת לערך הרכישה ברמת המדינה:

  • בגישה א', מסכמים את ערכי הסיכום ברמת המזהה הגיאוגרפי, ולכן מסכמים גם את הרעש שלהם. סביר להניח שהדבר יגרום להוספת יותר רעשי רקע לערך הרכישה הסופי ברמת המזהה הגיאוגרפי.
  • בגישה ב', בוחנים ישירות את הנתונים שמוצגים בדוחות הסיכום. הרעש נוסף לנתונים האלה רק פעם אחת.

לכן, סביר להניח שערך הרכישה המסכם עבור מזהה גיאוגרפי נתון יהיה פחות מדויק בגישה א'.

באופן דומה, הכללת מאפיין ברמת מיקוד של מיקוד למיקוד במפתחות שלכם כנראה תוביל לתוצאות עם יותר רעשי רקע מאשר שימוש במפתחות גסים יותר עם מאפיין ברמת אזור.

צבירה על פני תקופות ארוכות יותר מגדילה את יחס האות לרעש

אם תבקשו דוחות סיכום בתדירות נמוכה יותר, סביר להניח שכל ערך סיכום יהיה גבוה יותר מאשר אם תבקשו דוחות בתדירות גבוהה יותר, כי סביר שיקרו יותר המרות בפרקי זמן ארוכים יותר.

כמו שצוין קודם, ככל שערך הסיכום גבוה יותר, כך רעשי הרקע היחסיים צפויים להיות נמוכים יותר. לכן, שליחת בקשות לדוחות סיכום בתדירות נמוכה יותר מובילה ליחס גבוה יותר (טוב יותר) בין אות לרעש.

בקשה לדוחות סיכום בתדירות נמוכה יותר מובילה ליחס גבוה יותר בין האות לרעש
אם מבקשים דוחות סיכום בתדירות נמוכה יותר, יחס האות לרעש יהיה גבוה יותר.

דוגמה להמחשה:

  • אם אתם מבקשים דוחות סיכום שעתיים במשך 24 שעות ואז מסכמים את ערך הסיכום מכל דוח שעתי כדי לגשת לנתונים ברמת היום, הרעש מתווסף 24 פעמים.
  • בדוח סיכום יומי אחד, הרעש מתווסף רק פעם אחת.

ערך אפסילון גבוה יותר, רעש נמוך יותר

ככל שערך האפסילון גבוה יותר, הרעש נמוך יותר וההגנה על הפרטיות נמוכה יותר.

שימוש בסינון ובהסרת כפילויות

חלק חשוב בהקצאת תקציב בין אירועים מרכזיים שונים הוא להבין כמה פעמים אירוע נתון יכול להתרחש. לדוגמה, מפרסם מסוים עשוי להתעניין רק ברכישה אחת לכל קליק, אבל עשוי להתעניין בעד 3 המרות מסוג 'צפייה בדף מוצר'. כדי לתמוך בתרחישי השימוש האלה, מומלץ להשתמש גם בתכונות ה-API הבאות, שמאפשרות לכם לשלוט במספר הדוחות שנוצרים ובאילו המרות נספרות:

התנסות עם אפסילון

חברות טכנולוגיית פרסום יכולות להגדיר את האפסילון לערך גדול מ-0 ועד 64 כולל. הטווח הזה מאפשר לבצע בדיקות בצורה גמישה. ערכים נמוכים יותר של אפסילון מספקים הגנה טובה יותר על הפרטיות. מומלץ להתחיל עם אפסילון=10.

המלצות לניסויים

אנחנו ממליצים על הפעולות הבאות:

  • מתחילים עם אפסילון = 10.
  • אם זה גורם לבעיות משמעותיות בשימושיות, צריך להגדיל את אפסילון בהדרגה.
  • אתם יכולים לשתף משוב על נקודות מפנה ספציפיות שאתם מוצאים בהקשר של שימושיות הנתונים.

השתתפות ושיתוף משוב

אתם יכולים להשתתף ולהתנסות ב-API הזה.

השלבים הבאים