מידע על המסמך הזה
במסמך הזה נסביר על הנושאים הבאים:
- לפני שיוצרים דוחות סיכום, חשוב להבין אילו אסטרטגיות כדאי ליצור.
- Noise Lab הוא כלי שעוזר להבין את ההשפעות של פרמטרים שונים של רעש, ומאפשר לבחון ולהעריך במהירות אסטרטגיות שונות לניהול רעש.

שיתוף משוב
במסמך הזה מפורטים כמה עקרונות לעבודה עם דוחות סיכום, אבל יש כמה גישות לניהול רעשי רקע שלא מופיעות כאן. נשמח לקבל הצעות, הוספות ושאלות.
- כדי לשלוח משוב ציבורי על אסטרטגיות לניהול רעשי רקע, על התועלת או על הפרטיות של ה-API (epsilon) ולשתף את התצפיות שלכם במהלך הדמיה באמצעות Noise Lab: פרסום תגובה בנושא הזה
- כדי לשלוח משוב ציבורי על Noise Lab (לשאול שאלה, לדווח על באג או לבקש תכונה): כאן אפשר ליצור בעיה חדשה
- כדי לשלוח משוב ציבורי לגבי היבט אחר של ה-API: כאן אפשר ליצור בעיה חדשה
לפני שמתחילים
- למידע נוסף, אפשר לקרוא את המאמרים דיווח שיוך: דוחות סיכום וסקירה כללית על המערכת המלאה של דיווח השיוך.
- מומלץ לקרוא את המאמרים הסבר על רעש והסבר על מפתחות צבירת נתונים כדי להפיק את המקסימום מהמדריך הזה.
החלטות עיצוב
עקרון עיצוב ליבה
יש הבדלים מהותיים בין האופן שבו פועלים קובצי cookie של צד שלישי לבין האופן שבו פועלים דוחות סיכום. אחד ההבדלים העיקריים הוא הרעש שנוסף לנתוני המדידה בדוחות הסיכום. אפשרות נוספת היא תזמון הדוחות.
כדי לגשת לנתוני מדידה של דוחות סיכום עם יחסי אות/רעש גבוהים יותר, פלטפורמות צד הביקוש (DSP) וספקי מדידת מודעות יצטרכו לעבוד עם המפרסמים שלהם כדי לפתח אסטרטגיות לניהול הרעש. כדי לפתח את האסטרטגיות האלה, פלטפורמות ניהול רשתות המודעות וספקי המדידה צריכים לקבל החלטות בנוגע לעיצוב. ההחלטות האלה מתמקדות במושג אחד חיוני:
ערכי הרעש שמהם מתבצעת חלוקת התפלגות תלויים, באופן מוחלט, רק בשני פרמטרים⏤epsilon ותקציב התרומה⏤, אבל יש לכם כמה אמצעי בקרה אחרים שיכולים להשפיע על יחסי האות לרעש של נתוני המדידה של הפלט.
אנחנו מצפים שתהליך איטרטיבי יוביל לקבלת ההחלטות הטובות ביותר, אבל כל שינוי בהחלטות האלה יוביל להטמעה שונה במקצת. לכן, צריך לקבל את ההחלטות האלה לפני שכותבים כל גרסה של הקוד (ולפני שמפעילים מודעות).
החלטה: רמת הפירוט של המאפיינים
כדאי לנסות את התכונה הזו ב-Noise Lab
- עוברים למצב Advanced.
- בחלונית הצדדית 'פרמטרים', מחפשים את 'נתוני ההמרות שלך'.
- בודקים את פרמטרים שמוגדרים כברירת מחדל. כברירת מחדל, המספר הכולל של ההמרות היומיות שמשויכות הוא 1,000. המספר הממוצע הוא כ-40 לכל קטגוריה אם משתמשים בהגדרת ברירת המחדל (מאפייני ברירת מחדל, מספר ברירת המחדל של ערכים שונים אפשריים לכל מאפיין, אסטרטגיית מפתח א'). הערך הוא 40 בשדה הקלט 'מספר ההמרות המשויך הממוצע ליום לכל קטגוריה'.
- לוחצים על 'סימולציה' כדי להריץ סימולציה עם פרמטרי ברירת המחדל.
- בחלונית הצדדית Parameters (פרמטרים), מחפשים את Dimensions (מאפיינים). משנים את השם של Geography ל-City ומשנים את מספר הערכים השונים האפשריים ל-50.
- שימו לב איך השינוי הזה משפיע על מספר ההמרות הממוצע ליום שמשויכות לקטגוריה. עכשיו הוא נמוך בהרבה. הסיבה לכך היא שאם מגדילים את מספר הערכים האפשריים במאפיין הזה בלי לשנות שום דבר אחר, מגדילים את המספר הכולל של הקטגוריות בלי לשנות את מספר אירועי ההמרה שייכללו בכל קטגוריה.
- לוחצים על 'סימולציה'.
- בודקים את יחסי הרעש של הסימולציה שנוצרה: יחסי הרעש גבוהים יותר עכשיו מאשר בסימולציה הקודמת.
בהתאם לעיקרון העיצוב המרכזי, סביר להניח שערכים קטנים של סיכומים יהיו רועשים יותר מאשר ערכים גדולים של סיכומים. לכן, בחירת ההגדרה משפיעה על מספר אירועי ההמרה המשויכים שייכללו בכל קטגוריה (שנקראת גם מפתח צבירת הנתונים), והכמות הזו משפיעה על רמת הרעש בדוחות הסיכום הסופיים של הפלט.
אחת מההחלטות בתכנון שמשפיעה על מספר אירועי ההמרה שמשויכים לקטגוריה אחת היא רמת הפירוט של המאפיינים. ריכזנו כאן כמה דוגמאות למפתחות צבירת נתונים ולמאפיינים שלהם:
- גישה 1: מבנה מפתח אחד עם מאפיינים כלליים: מדינה x קמפיין פרסום (או הקטגוריה הגדולה ביותר של צבירה של קמפיינים) x סוג מוצר (מתוך 10 סוגי מוצרים אפשריים)
- גישה 2: מבנה מפתח אחד עם מאפיינים מפורטים: עיר x מזהה קריאייטיב x מוצר (מתוך 100 מוצרים אפשריים)
המאפיין עיר הוא מאפיין מפורט יותר מהמאפיין מדינה, המאפיין מזהה קריאייטיב הוא מאפיין מפורט יותר מהמאפיין קמפיין, והמאפיין מוצר הוא מאפיין מפורט יותר מהמאפיין סוג מוצר. לכן, במסגרת הגישה השנייה, מספר האירועים (המרות) לכל קטגוריה (= לכל מפתח) בפלט של דוח הסיכום יהיה נמוך יותר מאשר במסגרת הגישה הראשונה. מכיוון שהרעש שנוסף לתוצאה לא תלוי במספר האירועים בקטגוריה, נתוני המדידה בדוחות הסיכום יהיו רועשים יותר בגישה 2. לכל מפרסם, כדאי להתנסות בפשרות שונות ברמת הפירוט בתכנון המפתח כדי להפיק את התועלת המקסימלית מהתוצאות.
החלטה: מבני מפתח
כדאי לנסות את התכונה הזו ב-Noise Lab
במצב פשוט, נעשה שימוש במבנה המפתחות שמוגדר כברירת מחדל. במצב מתקדם אפשר להתנסות במבנים שונים של מפתחות. יש כמה מאפיינים לדוגמה, ואפשר גם לשנות אותם.
- עוברים למצב Advanced.
- בחלונית הצדדית Parameters (פרמטרים), מחפשים את Key strategy (אסטרטגיית מפתח). שימו לב ששיטת ברירת המחדל, שנקראת A בכלי, משתמשת במבנה מפתח מפורט אחד שכולל את כל המאפיינים: גיאוגרפיה x מזהה קמפיין x קטגוריית מוצר.
- לוחצים על 'סימולציה'.
- בודקים את יחסי הרעש של הסימולציה שנוצרה.
- משנים את שיטת המפתחות ל-B. יוצגו אמצעי בקרה נוספים להגדרת מבנה המפתחות.
- מגדירים את מבנה המפתחות, לדוגמה:
- מספר מבני המפתחות: 2
- מבנה מפתח 1 = מיקום גיאוגרפי x קטגוריית מוצרים.
- מבנה המפתח 2 = מזהה קמפיין x קטגוריית מוצר.
- לוחצים על 'סימולציה'.
- שימו לב: עכשיו מופיעים שני דוחות סיכום לכל סוג של יעד מדידה (שניים למספר הרכישות ושניים לערך הרכישה), כי אתם משתמשים בשתי מבני מפתח נפרדים. בודקים את יחסי הרעש שלהם.
- אפשר גם לנסות את זה עם מאפיינים מותאמים אישית משלכם. כדי לעשות זאת, מחפשים את הנתונים שאחריהם רוצים לעקוב: מאפיינים. מומלץ להסיר את המאפיינים לדוגמה וליצור מאפיינים משלכם באמצעות הלחצנים Add/Remove/Reset (הוספה/הסרה/איפוס) שמתחת למאפיין האחרון.
החלטה נוספת בתכנון שתשפיע על מספר אירועי ההמרה המשויכים בקטגוריה אחת היא מבני המפתחות שבהם תבחרו להשתמש. ריכזנו כאן כמה דוגמאות למפתחות צבירת נתונים:
- מבנה מפתח אחד עם כל המאפיינים. נקרא לאסטרטגיית המפתח הזו א'.
- שתי מבני מפתחות, כל אחד עם קבוצת משנה של מאפיינים. נקראים לשיטה הזו שיטת מפתחות ב'.

אסטרטגיה א' פשוטה יותר – אבל יכול להיות שתצטרכו לקבץ (לסכם) את ערכי הסיכום עם הרעש שכלולים בדוחות הסיכום כדי לגשת לתובנות מסוימות. סיכום הערכים האלה גורם גם לסיכום הרעשים. בשיטה ב', ייתכן שהערכים הסיכומיים שמוצגים בדוחות הסיכום כבר מספקים את המידע הדרוש לכם. כלומר, סביר להניח ששיטת בידינג ב' תוביל ליחסי אות לרעש טובים יותר מאשר שיטת בידינג א'. עם זאת, יכול להיות שהרעש כבר מקובל באסטרטגיה א', ולכן עדיין כדאי להעדיף את אסטרטגיה א' בגלל הפשטות שלה. מידע נוסף זמין בדוגמה המפורטת שמציגה את שתי השיטות האלה.
ניהול מפתחות הוא נושא מורכב. יש כמה שיטות מתוחכמות שאפשר להשתמש בהן כדי לשפר את יחסי האות לרעש. אחת מהן מתוארת בקטע ניהול מפתחות מתקדם.
החלטה: תדירות הקיבוץ
כדאי לנסות את התכונה הזו ב-Noise Lab
- עוברים למצב פשוט (או למצב מתקדם – שני המצבים פועלים באותו אופן בנוגע לתדירות הקיבוץ)
- בחלונית הצדדית Parameters (פרמטרים), מחפשים את האפשרות Your aggregation strategy (אסטרטגיית הצבירה שלך) > Batching frequency (תדירות ארגון הבקשות בקבוצות). הכוונה לתדירות הצבירה של דוחות שניתנים לצבירה, שמעובדים באמצעות שירות הצבירה במשימה אחת.
- בודקים את תדירות הקיבוץ שמוגדרת כברירת מחדל: כברירת מחדל, מתבצעת סימולציה של תדירות קיבוץ יומית.
- לוחצים על 'סימולציה'.
- בודקים את יחסי הרעש של הסימולציה שנוצרה.
- משנים את תדירות הקיבוץ לשבועית.
- בודקים את יחסי הרעש בסימולציה שנוצרה: יחסי הרעש נמוכים יותר (טובים יותר) מאשר בסימולציה הקודמת.
החלטה נוספת בתכנון שתשפיע על מספר אירועי ההמרה המשויכים בקטגוריה אחת היא תדירות הקיבוץ שבה תחליטו להשתמש. תדירות האצווה היא התדירות שבה מעבדים דוחות שאפשר לצבור.
בדוח שמתוזמן לצבירה בתדירות גבוהה יותר (למשל, בכל שעה), ייכללו פחות אירועי המרה בהשוואה לאותו דוח עם לוח זמנים לצבירה בתדירות נמוכה יותר (למשל, בכל שבוע). כתוצאה מכך, הדוח השעתי יכלול יותר רעשי רקע.``` כולל פחות אירועי המרה בהשוואה לאותו דוח עם לוח זמנים פחות תדיר של צבירת נתונים (למשל, כל שבוע). כתוצאה מכך, לדוח השעתי יהיה יחס אות/רעש נמוך יותר מאשר לדוח השבועי, בהנחה שכל שאר הנתונים זהים. כדאי להתנסות בדרישות הדיווח בתדירויות שונות, ולהעריך את יחסי האות לרעש בכל אחת מהן.
מידע נוסף זמין במאמרים אגרגציה בקבוצות ואגרגציה על פני תקופות זמן ארוכות יותר.
החלטה: משתני קמפיין שמשפיעים על המרות שניתנות לשיוך
כדאי לנסות את התכונה הזו ב-Noise Lab
יכול להיות שיהיה קשה לחזות את המספר הזה, ויכול להיות שיהיו בו שינויים משמעותיים בנוסף להשפעות עונתיות. עם זאת, נסו להעריך את מספר ההמרות היומיות שניתן לשייך למגע יחיד לפי חזקה הקרובה ביותר של 10: 10, 100, 1, 000 או 10,000.
- עוברים למצב Advanced.
- בחלונית הצדדית 'פרמטרים', מחפשים את 'נתוני ההמרות שלך'.
- בודקים את פרמטרים שמוגדרים כברירת מחדל. כברירת מחדל, המספר הכולל של ההמרות היומיות שמשויכות הוא 1,000. המספר הממוצע הוא כ-40 לכל קטגוריה אם משתמשים בהגדרת ברירת המחדל (מאפייני ברירת מחדל, מספר ברירת המחדל של ערכים שונים אפשריים לכל מאפיין, אסטרטגיית מפתח א'). הערך הוא 40 בשדה הקלט 'מספר ההמרות המשויך הממוצע ליום לכל קטגוריה'.
- לוחצים על 'סימולציה' כדי להריץ סימולציה עם פרמטרי ברירת המחדל.
- בודקים את יחסי הרעש של הסימולציה שנוצרה.
- עכשיו מגדירים את המספר הכולל של ההמרות היומיות שניתנות לשיוך ל-100. שימו לב שהפעולה הזו מפחיתה את הערך של 'מספר ההמרות הממוצע ליום שמשויכים למודעה' לכל קטגוריה.
- לוחצים על 'סימולציה'.
- שימו לב שיחסי הרעש גבוהים יותר עכשיו: הסיבה לכך היא שככל שיש פחות המרות בכל קטגוריה, כך נעשה שימוש ברעש רב יותר כדי לשמור על הפרטיות.
חשוב להבחין בין המספר הכולל של ההמרות האפשריות למפרסם לבין המספר הכולל של ההמרות האפשריות ששויכו. זהו הגורם שמשפיע בסופו של דבר על רמת הרעש בדוחות הסיכום. המרות משויכות הן קבוצת משנה של סך כל ההמרות, שנתונות לשינויים במשתני הקמפיין, כמו תקציב הפרסום והטירגוט של המודעות. לדוגמה, אם כל שאר הנתונים זהים, צפוי להיות מספר גבוה יותר של המרות שמשויכות לקמפיין מודעות של 10 מיליון ש"ח בהשוואה לקמפיין מודעות של 10,000 ש"ח.
מידע שיש לשקול:
- כדאי לבדוק את ההמרות המשויכות לפי מודל שיוך של מגע יחיד באותו מכשיר, כי הן נכללות בדוחות הסיכום שנאספים באמצעות Attribution Reporting API.
- כדאי להביא בחשבון גם ספירה של המרות משויכות בתרחיש הכי גרוע וגם בתרחיש הכי טוב. לדוגמה, אם כל שאר הנתונים זהים, כדאי להביא בחשבון את התקציבים המינימלי והמקסימלי האפשריים לקמפיין של המפרסם, ולאחר מכן לחזות את ההמרות שניתנות לשיוך לשני התוצאות כנתונים להזנה בסימולציה.
- אם אתם שוקלים להשתמש בארגז החול לפרטיות ב-Android, כדאי לכלול בחשבון המרות שמשויכות לפלטפורמות שונות.
החלטה: שימוש בהתאמה לעומס (scaling)
כדאי לנסות את התכונה הזו ב-Noise Lab
- עוברים למצב Advanced.
- בחלונית הצדדית Parameters (פרמטרים), מחפשים את האפשרות Your aggregation strategy (שיטת הצבירה שלך) > Scaling (שינוי קנה המידה). כברירת מחדל, הערך מוגדר כ-Yes.
- כדי להבין את ההשפעות החיוביות של שינוי קנה המידה על יחס הרעש, קודם צריך להגדיר את האפשרות Scaling ל-No.
- לוחצים על 'סימולציה'.
- בודקים את יחסי הרעש של הסימולציה שנוצרה.
- מגדירים את האפשרות 'שינוי קנה מידה' לערך 'כן'. חשוב לזכור שמערכת Noise Lab מחשבת באופן אוטומטי את גורמי ההתאמה לשימוש, בהתאם לטווחים (הערכים הממוצעים והמקסימליים) של יעדי המדידה בתרחיש שלכם. בהגדרה של מערכת אמיתית או של גרסת טרום-השקה של מקור, מומלץ להטמיע חישוב משלכם של גורמי ההתאמה לעומס.
- לוחצים על 'סימולציה'.
- שימו לב שיחסי הרעש נמוכים יותר (טובים יותר) בסימולציה השנייה. הסיבה לכך היא שאתם משתמשים ביכולת התאמה לעומס.
בהתאם לעיקרון העיצוב המרכזי, הרעש שנוסף הוא פונקציה של תקציב התרומה.
לכן, כדי לשפר את יחסי האות לרעש, אפשר לשנות את הערכים שנאספים במהלך אירוע המרה על ידי שינוי קנה המידה שלהם בהתאם לתקציב התרומה (והסרת שינוי קנה המידה שלהם אחרי הצבירה). שימוש בהתאמה לעומס כדי לשפר את יחסי האות לרעש.
החלטה: מספר יעדי המדידה והחלוקה של תקציב הפרטיות
הנושא הזה קשור להתאמה לעומס. מומלץ לקרוא את המאמר שימוש בהתאמה לעומס.
כדאי לנסות את התכונה הזו ב-Noise Lab
יעד מדידה הוא נקודת נתונים ייחודית שנאספת באירועי המרה.
- עוברים למצב Advanced.
- בחלונית הצדדית 'פרמטרים', מחפשים את הנתונים שרוצים לעקוב אחריהם: יעדים למדידת ביצועים. כברירת מחדל, יש שני יעדים למדידת ביצועים: ערך הרכישה ומספר הרכישות.
- לוחצים על 'הפעלת סימולציה' כדי להריץ סימולציה עם יעדי ברירת המחדל.
- לוחצים על 'הסרה'. הפעולה הזו תגרום להסרת יעד המדידה האחרון (במקרה הזה, מספר הרכישות).
- לוחצים על 'סימולציה'.
- שימו לב שיחסי הרעש של ערך הרכישה נמוכים יותר (טובים יותר) בסימולציה השנייה. הסיבה לכך היא שיש לכם פחות יעדים למדידה, ולכן יעד המדידה היחיד מקבל עכשיו את כל התקציב לתרומות.
- לוחצים על 'איפוס'. עכשיו יש לכם שוב שני יעדי מדידה: ערך הרכישה ומספר הרכישות. חשוב לזכור שמערכת Noise Lab מחשבת באופן אוטומטי את גורמי ההתאמה לשימוש, בהתאם לטווחים (הערכים הממוצעים והמקסימליים) של יעדי המדידה בתרחיש שלכם. כברירת מחדל, התקציב ב-Noise Lab מחולק באופן שווה בין יעדי המדידה.
- לוחצים על 'סימולציה'.
- בודקים את יחסי הרעש של הסימולציה שנוצרה. שימו לב לגורמים לקביעת קנה המידה שמוצגים בסימולציה.
- עכשיו נשנה את חלוקת התקציב לשמירה על הפרטיות כדי לשפר את יחסי האות לרעש.
- משנים את הערך של '% תקציב' שהוקצה לכל יעד מדידה. בהתאם לפרמטר ברירת המחדל, ליעד המדידה 1, כלומר ערך הרכישה, יש טווח רחב יותר (בין 0 ל-1,000) מאשר ליעד המדידה 2, כלומר מספר הרכישות (בין 1 ל-1, כלומר תמיד שווה ל-1). לכן, צריך להקצות יותר תקציב להמרות ליעד המדידה 1 מאשר ליעד המדידה 2, כדי שאפשר יהיה להגדיל אותו בצורה יעילה יותר (ראו 'שינוי קנה המידה').
- מקצים 70% מהתקציב ליעד המדידה 1. מקצים 30% ליעד המדידה השני.
- לוחצים על 'סימולציה'.
- בודקים את יחסי הרעש של הסימולציה שנוצרה. לגבי ערך הרכישה, יחסי הרעש נמוכים עכשיו באופן משמעותי (טובים יותר) בהשוואה לסימולציה הקודמת. במספר הרכישות, הם לא השתנו כמעט.
- כדאי להמשיך לשנות את חלוקת התקציב בין המדדים. בודקים איך זה משפיע על הרעש.
חשוב לזכור שאפשר להגדיר יעדי מדידה מותאמים אישית באמצעות הלחצנים Add (הוספה), Remove (הסרה) ו-Reset (איפוס).
אם מודדים נקודה אחת של נתונים (יעד מדידה) באירוע המרה, כמו מספר ההמרות, נקודה זו יכולה לקבל את כל תקציב התרומה (65,536). אם מגדירים כמה יעדי מדידה באירוע המרה, כמו מספר ההמרות וערך הרכישה, נקודות הנתונים האלה יצטרכו לחלוק את תקציב התרומה. כלומר, יש לכם פחות מרחב תמרון להגדלת הערכים.
לכן, ככל שיש לכם יותר יעדי מדידה, כך סביר להניח שיחסי האות לרעש יהיו נמוכים יותר (רעשי רקע גבוהים יותר).
החלטה נוספת שצריך לקבל לגבי יעדי המדידה היא חלוקת התקציב. אם מחלקים את תקציב התרומות באופן שווה בין שתי נקודות נתונים, לכל נקודה מוקצה תקציב של 32,768 = 65,536/2. האפשרות הזו עשויה להיות אופטימלית או לא, בהתאם לערך המקסימלי האפשרי של כל נקודה בתרשים. לדוגמה, אם אתם מודדים את מספר הרכישות עם ערך מקסימלי של 1, ואת ערך הרכישה עם ערך מינימלי של 1 וערך מקסימלי של 120, כדאי להגדיל את 'המרחבים' של ערך הרכישה כדי להגדיל את היקף הרכישות – כלומר, להקצות לו חלק גדול יותר מתקציב התרומות. תוכלו לראות אם כדאי לתת עדיפות ליעדים מסוימים של מדידה על פני יעדים אחרים, בהתאם להשפעת הרעש.
החלטה: ניהול חריגים
כדאי לנסות את התכונה הזו ב-Noise Lab
יעד מדידה הוא נקודת נתונים ייחודית שנאספת באירועי המרה.
- עוברים למצב Advanced.
- בחלונית הצדדית Parameters (פרמטרים), מחפשים את האפשרות Your aggregation strategy (שיטת הצבירה שלך) > Scaling (שינוי קנה המידה).
- מוודאים שהאפשרות Scaling מוגדרת כ-Yes. לתשומת ליבכם: מערכת Noise Lab מחשבת באופן אוטומטי את גורמי ההתאמה שייעשה בהם שימוש, על סמך הטווחים (הערכים הממוצעים והמקסימליים) שציינתם ליעדים למדידת הביצועים.
- נניח שהרכישה הגדולה ביותר שבוצעה אי פעם הייתה בסך 8,000 ש"ח, אבל רוב הרכישות מתבצעות בטווח של 40-480 ש"ח. קודם נבדוק מה קורה אם משתמשים בגישה של התאמה לגודל מילולי (לא מומלץ): מזינים 2, 000 $בתור הערך המקסימלי של purchaseValue.
- לוחצים על 'סימולציה'.
- שימו לב שיחסי הרעש גבוהים. הסיבה לכך היא שגורם ההתאמה שלנו מחושב כרגע על סמך 2,000$, אבל בפועל רוב ערכי הרכישות יהיו נמוכים בהרבה מכך.
- עכשיו נשתמש בגישה פרגמטית יותר להתאמה לעומס. משנים את ערך הרכישה המקסימלי ל-480 ש"ח.
- לוחצים על 'סימולציה'.
- שימו לב שיחסי הרעש נמוכים יותר (טובים יותר) בסימולציה השנייה.
כדי להטמיע התאמה לעומס, בדרך כלל מחשבים גורם התאמה על סמך הערך המקסימלי האפשרי לאירוע המרה נתון (מידע נוסף זמין בדוגמה הזו).
עם זאת, מומלץ להימנע משימוש בערך מקסימלי מילולי כדי לחשב את גורם ההתאמה, כי הפעולה הזו תגרום להידרדרות של יחסי אות/רעש. במקום זאת, צריך להסיר ערכים חריגים ולהשתמש בערך מקסימלי פרגמטי.
ניהול חריגים הוא נושא מורכב. יש כמה שיטות מתוחכמות שאפשר להשתמש בהן כדי לשפר את יחסי האות לרעש. אחת מהן מתוארת בקטע ניהול מתקדם של חריגים.
השלבים הבאים
אחרי שבדקתם אסטרטגיות שונות לניהול רעשי רקע בתרחיש לדוגמה, תוכלו להתחיל להתנסות בדוחות סיכום על ידי איסוף נתוני מדידה אמיתיים באמצעות ניסיון בגרסת המקור. למדריכים ולטיפים לשימוש ב-API
נספח
סיור קצר ב-Noise Lab
בעזרת Noise Lab תוכלו להעריך במהירות ולשפר את שיטות ניהול הרעשים. אפשר להשתמש בשיטה הזו כדי:
- להבין את הפרמטרים העיקריים שיכולים להשפיע על הרעש ואת ההשפעה שלהם.
- סימולציה של ההשפעה של רעש על נתוני המדידה של הפלט, בהתאם להחלטות עיצוב שונות. משנים את הפרמטרים של העיצוב עד שמגיעים ליחס אות/רעש שמתאים לתרחיש לדוגמה.
- נשמח לקבל מכם משוב על התועלת של דוחות הסיכום: אילו ערכים של הפרמטרים epsilon ו-noise מתאימים לכם ואילו לא? איפה נמצאות נקודות הפיתול?
זהו שלב הכנה. מערכת Noise Lab יוצרת נתוני מדידה כדי לדמות את הפלט של דוחות הסיכום על סמך הקלט שלכם. הוא לא שומר נתונים או משתף אותם.
יש שני מצבים שונים ב-Noise Lab:
- מצב פשוט: הסבר על היסודות של אמצעי הבקרה על הרעש.
- מצב מתקדם: אפשר לבדוק אסטרטגיות שונות לניהול רעשי רקע ולהעריך איזו מהן מניבה את יחסי האות לרעש הטובים ביותר בתרחישי לדוגמה.
לוחצים על הלחצנים בתפריט העליון כדי לעבור בין שני המצבים (מס' 1 בצילום המסך שבהמשך).
מצב פשוט
- במצב פשוט, אתם שולטים בפרמטרים (שמופיעים בצד ימין, או מס' 2 בצילום המסך שבהמשך) כמו Epsilon, ורואים איך הם משפיעים על הרעש.
- לכל פרמטר יש הסבר קצר (לחצן '?'). לוחצים עליהם כדי לראות הסבר על כל פרמטר (מס' 3 בצילום המסך שלמטה)
- כדי להתחיל, לוחצים על הלחצן 'Simulate' (סימולציה) ומתבוננים בתוצאה (מס' 4 בצילום המסך שלמטה).
- בקטע 'פלט' מוצגים פרטים שונים. לצד חלק מהרכיבים מופיעה סימן שאלה. כדאי להקדיש זמן ולחפש את הסמל '?' כדי לראות הסבר על נתוני המידע השונים.
- בקטע Output (פלט), לוחצים על המתג Details (פרטים) כדי להציג גרסה מורחבת של הטבלה (מס' 5 בצילום המסך שבהמשך).
- מתחת לכל טבלת נתונים בקטע הפלט, יש אפשרות להוריד את הטבלה לשימוש במצב אופליין. בנוסף, בפינה השמאלית התחתונה יש אפשרות להוריד את כל טבלאות הנתונים (מס' 6. בצילום המסך שבהמשך).
- בודקים הגדרות שונות של הפרמטרים בקטע Parameters (פרמטרים) ולוחצים על Simulate (סימולציה) כדי לראות איך הן משפיעות על הפלט:
ממשק Noise Lab במצב פשוט.
מצב מתקדם
- במצב מתקדם יש לכם יותר שליטה על הפרמטרים. אפשר להוסיף מאפיינים ויעדים מותאמים אישית למדידה (מס' 1 ו-2 בצילום המסך שבהמשך)
- גוללים למטה בקטע 'פרמטרים' ומאתרים את האפשרות 'אסטרטגיית מפתחות'. אפשר להשתמש באפשרות הזו כדי לבדוק מבני מפתחות שונים (מס' 3 בצילום המסך שבהמשך)
- כדי לבדוק מבני מפתחות שונים, משנים את שיטת המפתחות ל-'B'.
- מזינים את מספר מבני המפתחות השונים שבהם רוצים להשתמש (ברירת המחדל מוגדרת ל-2)
- לוחצים על 'יצירת מבני מפתחות'.
- כדי לציין את מבני המפתחות, לוחצים על התיבות לצד המפתחות שרוצים לכלול בכל מבנה מפתחות.
- לוחצים על 'סימולציה' כדי לראות את הפלט.
ממשק Noise Lab למצב מתקדם. ממשק Noise Lab למצב מתקדם.
מדדי רעש
מושג ליבה
הרעשים מתווספים כדי להגן על פרטיות המשתמשים.
ערך רעש גבוה מציין שהקטגוריות או המפתחות דלילים ומכילים נתונים ממספר מוגבל של אירועים רגישים. הפעולה הזו מתבצעת באופן אוטומטי על ידי Noise Lab, כדי לאפשר לאנשים "להסתתר בתוך ההמון", או במילים אחרות, כדי להגן על הפרטיות של אנשים מוגבלים באמצעות כמות גדולה יותר של רעשים נוספים.
ערך רעש נמוך מציין שהגדרת הנתונים תוכננה כך שכבר מאפשרת לאנשים "להסתתר בתוך ההמון". כלומר, הקטגוריות מכילות נתונים מאירועים מספיקים כדי להבטיח את הגנה על הפרטיות של משתמשים ספציפיים.
ההצהרה הזו נכונה גם לשגיאה הממוצעת באחוזים (APE) וגם ל-RMSRE_T (שגיאה יחסית ריבועית ממוצעת עם ערך סף).
APE (שגיאה ממוצעת באחוזים)
APE הוא היחס בין הרעש לאות, כלומר ערך הסיכום האמיתי.p> ערכים נמוכים יותר של APE מציינים יחסים טובים יותר בין אות לרעש.
נוסחה
בדוח סיכום נתון, הערך של APE מחושב באופן הבא:

True הוא ערך הסיכום האמיתי. APE הוא הממוצע של הרעש בכל ערך סיכום אמיתי, שמחושב לפי כל הרשומות בדוח סיכום. ב-Noise Lab, הערך הזה מוכפל ב-100 כדי לקבל אחוז.
יתרונות וחסרונות
לקטגוריות עם גדלים קטנים יותר יש השפעה לא פרופורציונלית על הערך הסופי של APE. המצב הזה עלול להטעות כשבודקים את רמת הרעש. לכן הוספנו מדד נוסף, RMSRE_T, שנועד לצמצם את המגבלה הזו של APE. פרטים נוספים זמינים בדוגמאות.
קוד
בודקים את קוד המקור של חישוב ה-APE.
RMSRE_T (שגיאה יחסית ריבועית ממוצעת עם סף)
RMSRE_T (שגיאה יחסית ריבועית ממוצעת עם ערך סף) הוא מדד אחר לרעש.
איך לפרש את RMSRE_T
ככל שערכים של RMSRE_T נמוכים יותר, כך יחסי האות לרעש טובים יותר.
לדוגמה, אם יחס הרעש המקובל בתרחיש לדוגמה הוא 20%, ו-RMSRE_T הוא 0.2, אפשר להיות בטוחים שרמות הרעש נמצאות בטווח המקובל.
נוסחה
בדוח סיכום נתון, הערך של RMSRE_T מחושב באופן הבא:

יתרונות וחסרונות
ה-RMSRE_T קצת יותר מורכב להבנה מאשר ה-APE. עם זאת, יש לו כמה יתרונות שגורמים לכך שבמקרים מסוימים הוא מתאים יותר מ-APE לניתוח רעשי רקע בדוחות סיכום:
- הערך של RMSRE_T יציב יותר. 'T' הוא ערך סף. הערך 'T' משמש כדי לתת משקל נמוך יותר בחישוב של RMSRE_T לקטגוריות עם פחות המרות, ולכן הן רגישות יותר לרעש בגלל הגודל הקטן שלהן. כשמשתמשים ב-T, המדד לא מגיע לשיאים בקטגוריות עם מעט המרות. אם הערך של T הוא 5, ערך רעש קטן כמו 1 בקטגוריה עם 0 המרות לא יוצג כערך גבוה בהרבה מ-1. במקום זאת, הערך יהיה מוגבל ל-0.2, שזהו ערך שווה ערך ל-1/5, כי T שווה ל-5. המדד הזה יציב יותר כי הוא נותן משקל נמוך יותר לקטגוריות קטנות יותר, שהן רגישות יותר לרעש. לכן, קל יותר להשוות בין שתי סימולציות.
- בעזרת RMSRE_T אפשר לבצע צבירת נתונים בקלות. אם ידועים הערכים של RMSRE_T בכמה קטגוריות, יחד עם המספרים האמיתיים שלהן, אפשר לחשב את הערך של RMSRE_T של הסכום שלהן. כך תוכלו גם לבצע אופטימיזציה של הערכים המשולבים האלה לפי RMSRE_T.
אפשר לבצע צבירת נתונים ב-APE, אבל הנוסחה מורכבת למדי כי היא כוללת את הערך המוחלט של סכום הרעשים של Laplace. לכן קשה יותר לבצע אופטימיזציה של APE.
קוד
בודקים את קוד המקור של החישוב של RMSRE_T.
דוגמאות
דוח סיכום עם שלושה קטגוריות:
- bucket_1 = noise: 10, trueSummaryValue: 100
- bucket_2 = noise: 20, trueSummaryValue: 100
- bucket_3 = רעש: 20, trueSummaryValue: 200
APE = (0.1 + 0.2 + 0.1) / 3 = 13%
RMSRE_T = sqrt( ( (10/max(5,100))^2 + (20/max(5,100))^2 + (20/max(5,200))^2) / 3) = sqrt( (0.01 + 0.04 + 0.01) / 3) = 0.14
דוח סיכום עם שלושה קטגוריות:
- bucket_1 = noise: 10, trueSummaryValue: 100
- bucket_2 = noise: 20, trueSummaryValue: 100
- bucket_3 = noise: 20, trueSummaryValue: 20
APE = (0.1 + 0.2 + 1) / 3 = 43%
RMSRE_T = sqrt( ( (10/max(5,100))^2 + (20/max(5,100))^2 + (20/max(5,20))^2) / 3) = sqrt( (0.01 + 0.04 + 1.0) / 3) = 0.59
דוח סיכום עם שלושה קטגוריות:
- bucket_1 = noise: 10, trueSummaryValue: 100
- bucket_2 = noise: 20, trueSummaryValue: 100
- bucket_3 = noise: 20, trueSummaryValue: 0
APE = (0.1 + 0.2 + Infinity) / 3 = Infinity
RMSRE_T = sqrt( ( (10/max(5,100))^2 + (20/max(5,100))^2 + (20/max(5,0))^2) / 3) = sqrt( (0.01 + 0.04 + 16.0) / 3) = 2.31
ניהול מפתחות מתקדם
ל-DSP או לחברת מדידת מודעות יכולים להיות אלפי לקוחות פרסום ברחבי העולם, מתחומים שונים, עם מטבעות שונים ורמות שונות של מחירי רכישה פוטנציאליים. המשמעות היא שיהיה לא מעשי ליצור ולנהל מפתח צביר אחד לכל מפרסם. בנוסף, יהיה קשה לבחור ערך מקסימלי שאפשר לצבור ותקציבים לצבירה שיכולים להגביל את ההשפעה של הרעש על אלפי המפרסמים הגלובליים האלה. במקום זאת, נבחן את התרחישים הבאים:
אסטרטגיית מפתח א'
ספק טכנולוגיית הפרסום מחליט ליצור ולנהל מפתח אחד לכל לקוחות הפרסום שלו. בכל המפרסמים ובכל המטבעות, טווח הרכישות משתנה מרכישות בנפח נמוך ובמחיר גבוה לרכישות בנפח גבוה ובמחיר נמוך. התוצאה היא המפתח הבא:
מפתח (מטבעות מרובים) | |
---|---|
הערך המקסימלי שאפשר לצבור | 5,000,000 |
טווח ערכי הרכישות | [120 - 5000000] |
אסטרטגיית מפתחות ב'
ספק טכנולוגיית הפרסום מחליט ליצור ולנהל שני מפתחות לכל לקוחות הפרסום שלו. הם מחליטים להפריד בין המפתחות לפי מטבע. אצל כל המפרסמים ובכל המטבעות, טווח הרכישות משתנה מרכישות בנפח נמוך ובמחיר גבוה לרכישות בנפח גבוה ובמחיר נמוך. הם יוצרים 2 מפתחות לפי מטבע:
מפתח 1 (USD) | מקש 2 (¥) | |
---|---|---|
הערך המקסימלי שאפשר לצבור | 40,000$ | ¥5,000,000 |
טווח ערכי הרכישות | [120 - 40,000] | [15,000 עד 5,000,000] |
בשיטה 'אסטרטגיית מפתח ב' תהיה פחות רעשי רקע בתוצאה מאשר בשיטה 'אסטרטגיית מפתח א', כי ערכי המטבעות לא מתחלקים באופן אחיד בין המטבעות. לדוגמה, נניח שרכישות ב-¥ מעורבות עם רכישות ב-USD. איך זה ישפיע על הנתונים הבסיסיים ועל הפלט הרועש שנוצר?
אסטרטגיית מפתחות C
ספק טכנולוגיית הפרסום מחליט ליצור ולנהל ארבעה מפתחות לכל לקוחות הפרסום שלו, ולהפריד ביניהם לפי מטבע x תחום פעילות של המפרסם:
מקש 1 (USD x מפרסמים של תכשיטים יוקרתיים) |
מפתח 2 (¥ x מפרסמים של תכשיטים יוקרתיים) |
מפתח 3 (USD x מפרסמים של קמעונאות בגדים) |
מפתח 4 (¥ x מפרסמים של קמעונאות בגדים) |
|
---|---|---|---|---|
הערך המקסימלי שאפשר לצבור | 40,000$ | ¥5,000,000 | 2,000 ש"ח | ¥65,000 |
טווח ערכי הרכישות | [10,000 עד 40,000] | [1,250,000 עד 5,000,000] | [120 - 500] | [15,000 - 65,000] |
בשיטה C יהיו פחות רעשי רקע בתוצאה מאשר בשיטה B, כי ערכי הרכישות של המפרסמים לא מתחלקים באופן אחיד בין המפרסמים. לדוגמה, נניח שרכישות של תכשיטים יוקרתיים מעורבבות עם רכישות של כובעי בייסבול. המצב הזה ישנה את הנתונים הבסיסיים ואת הפלט הרועש שייווצר כתוצאה מכך.
כדי לצמצם את הרעש בפלט, מומלץ ליצור ערכים מצטברים מקסימליים משותפים וגורמי שינוי משותפים לגורמים משותפים בין מספר מפרסמים. לדוגמה, תוכלו לנסות את השיטות הבאות למפרסמים שלכם:
- אסטרטגיה אחת עם הפרדה לפי מטבע (USD, ¥, CAD וכו')
- אסטרטגיה אחת שמחולקת לפי התחום של המפרסם (ביטוח, רכב, קמעונאות וכו')
- שיטה אחת שמחולקת לפי טווחי ערכי רכישה דומים ([100], [1,000], [10,000] וכו')
כשיוצרים אסטרטגיות מפתחות שמבוססות על מאפיינים משותפים של מפרסמים, קל יותר לנהל את המפתחות ואת הקוד התואם, ויחסי האות לרעש יהיו גבוהים יותר. כדאי להתנסות בשיטות שונות עם מאפיינים משותפים שונים של מפרסמים כדי לזהות נקודות מפנה שבהן אפשר למקסם את ההשפעה של הרעש לעומת ניהול הקוד.
ניהול מתקדם של חריגים
נבחן תרחיש של שני מפרסמים:
- מפרסם א':
- בכל המוצרים באתר של מפרסם א', אפשרויות מחיר הרכישה הן בין [$120 - $1,000] , בטווח של 880$.
- מחירי הרכישה מתחלקים באופן שווה בטווח של 880$, ללא חריגים מחוץ לשתי סטיות סטנדרטיות ממחיר הרכישה החציוני.
- מפרסם ב':
- בכל המוצרים באתר של מפרסם ב', אפשרויות מחיר הרכישה הן בין [$120 - $1,000] , בטווח של 880$.
- מחירי הרכישות נמצאים בעיקר בטווח של 420-1,600 ש"ח, ורק 5% מהרכישות מתבצעות בטווח של 1,600-4,200 ש"ח.
בהתאם לדרישות התקציב לתרומה ולשיטת הוספת הרעש לתוצאות הסופיות, מפרסם ב' יקבל כברירת מחדל פלט עם רעש גבוה יותר ממפרסם א', כי יש למפרסם ב' פוטנציאל גבוה יותר לחריגים שמשפיעים על החישובים הבסיסיים.
אפשר לצמצם את הבעיה הזו באמצעות הגדרת מפתח ספציפית. כדאי לבדוק אסטרטגיות למפתחות שיעזרו לכם לנהל נתונים חריגים ולחלק בצורה שווה יותר את ערכי הרכישה בטווח הרכישות של המפתח.
למפרסם ב', אפשר ליצור שני מפתחות נפרדים כדי לתעד שני טווחי ערכים שונים של רכישות. בדוגמה הזו, טכנולוגיית הפרסום זיהתה ערכים חריגים מעל ערך הרכישה של 500$. כדאי לנסות להטמיע שני מפתחות נפרדים למפרסם הזה:
- מבנה מפתח 1 : מפתח שמתעד רק רכישות בטווח של 420-1,200 ש"ח (כ-95% מתוך נפח הרכישות הכולל).
- מבנה מפתח 2: מפתח שמתעד רק רכישות בסכום של מעל 1,500 ש"ח (כ-5% מתוך נפח הרכישות הכולל).
יישום האסטרטגיה הזו אמור לעזור למפרסם ב' לנהל טוב יותר את הרעש ולנצל בצורה מיטבית את הדוחות הסיכומיים. עקב טווחי הנתונים הקטנים יותר, עכשיו אמורה להיות למפתח A ולמפתח B חלוקה אחידה יותר של נתונים בכל מפתח בהשוואה למפתח היחיד הקודם. כך תהיה פחות השפעה של רעש בפלט של כל מפתח בהשוואה למפתח היחיד הקודם.