מדריך לבדיקת מדידה

המטרה של המדריך הזה היא לספק הנחיות להפעלת בדיקה עצמאית של Attribution Reporting API בארגז החול לפרטיות. פרטים נוספים זמינים בקטע 12.

  • הסבר על מדידת התוצאות של קבוצת הבקרה וקבוצת הניסוי בעיצובים הניסויים 1 ו-2 של CMA מופיע בהנחיות לבדיקת ממשקי Relevance API, כי המטרה של הניסויים האלה היא לבדוק את היעילות של השימוש ב-Protected Audience וב-Topics. פרטים נוספים זמינים בסעיף 11.

לפני שמתחילים

יעדי ההערכה והגדרת הניסוי המוצעת

יעד 1 – קביעת היעילות של Attribution Reporting API לצורך דיווח

אנחנו מציעים להגדיר ניסוי A/A כדי למדוד את ההשפעה על הדיווח

  • ההצעה הזו תואמת להנחיות של CMA לגבי הערכה של מדדים מבוססי-המרות. פרטים נוספים זמינים בסעיף 21 ובסעיף 12.
  • אנחנו מעדיפים את השיטה הזו על פני בדיקת A/B במצב א' כי אפשר לבדוק את Attribution Reporting API ‏ (ARA) על ידי מדידת המרות בו-זמנית באותו מערך חשיפות באמצעות שתי מתודולוגיות מדידה שונות (קובצי Cookie של צד שלישי + נתונים שלא מבוססים על קובצי Cookie של צד שלישי, ו-ARA + נתונים שלא מבוססים על קובצי Cookie של צד שלישי).
  • בנוסף, ניסוי A/A מבודד את ההשפעה של Attribution Reporting API על מעקב ההמרות (לדוגמה, הוא מונע שינויים בשיעורי ההמרה עקב היעדר קובצי Cookie של צד שלישי).

הצעות לנקודות ניתוח

  • בוחרים פרוסת תנועה גדולה מספיק כדי לקבל תוצאות בעלות מובהקות סטטיסטית, שכוללת גם קובצי Cookie של צד שלישי וגם ממשקי API של ארגז החול לפרטיות. הכי טוב להפעיל את ההגדרות האלה על כל התנועה, למעט במצב ב' (שבו מושבתים קובצי Cookie של צד שלישי).
    • מומלץ להחריג את מצב ב' מניסוי A/A, כי קובצי Cookie של צד שלישי לא יהיו זמינים ולא תוכלו להשוות בין תוצאות שיוך (Attribution) של ARA לבין תוצאות שיוך שמבוססות על קובצי Cookie של צד שלישי.
    • אם רוצים לכלול את מצב B, כדאי להפעיל דוחות ניפוי באגים עבור פרוסת התנועה של מצב B. דוחות ניפוי הבאגים יעזרו לכם לפתור בעיות בהגדרות או בהטמעה.
  • אם אתם מתכננים לבצע בדיקה על חלק קטן יותר מתנועת הגולשים, צפויות תוצאות מדידה עם רמת רעש גבוהה מהצפוי. מומלץ לציין בניתוח את חלקיק התנועה שבו נעשה שימוש, ואם הדוחות מבוססים על דוחות עם רעשי רקע או על דוחות ניפוי באגים ללא רעשי רקע.
    • בדוחות סיכום, ערכי הסיכום יהיו כנראה נמוכים יותר, ו-Aggregation Service יוסיף רעשי רקע מאותו פיזור בלי קשר לערך הסיכום.
  • בדיקת מתודולוגיות שונות למדידה בפלח התנועה הזה
    • קבוצת ביקורת 1 – שימוש במתודולוגיות מדידה נוכחיות (נתונים מקובצי Cookie של צד שלישי + נתונים מקובצי Cookie שאינם של צד שלישי)
    • (אופציונלי) קבוצת ביקורת 2 – ללא ארגז החול לפרטיות וללא קובצי Cookie של צד שלישי, כלומר רק נתונים של קובצי Cookie שאינם של צד שלישי
      • חשוב לדעת שעדיין יכולים להיות קובצי Cookie של צד שלישי שזמינים לחלק מהאתרים. כדי לקבל את התוצאות הכי מדויקות, לא מומלץ להשתמש בקובצי Cookie האלה של צד שלישי למדידה בשיטות בקרה 2 או בשיטות הטיפול.
    • קבוצת הטיפול – נתונים מממשקי API של ארגז החול לפרטיות ומקובצי Cookie שאינם של צד שלישי
      • חשוב לדעת שעדיין יכולים להיות קובצי Cookie של צד שלישי שזמינים לחלק מהאתרים. כדי לקבל את התוצאות הכי מדויקות, לא מומלץ להשתמש בקובצי Cookie האלה של צד שלישי למדידה בשיטות בקרה 2 או בשיטות הטיפול.

מדדים

  • הגדירו אילו מדדים מתאימים לעסק שלכם למדידת התוצאות, וציינו תיאור של משמעות המדד ושל אופן המדידה שלו.
    • מומלץ להתמקד במאפיינים ובמדדים שחשובים למפרסמים שלכם. לדוגמה, אם המפרסמים מתמקדים בהמרות מסוג רכישה, הם צריכים למדוד את מספר ההמרות האלה ואת ערך הרכישה.
  • מדדים שמבוססים על ספירה או על סכום (לדוגמה, שיעור המרה) מתאימים יותר לעבודה מאשר מדדים שמבוססים על עלות (לדוגמה, עלות להמרה). לניתוח A/A, מדדי העלות יכולים להיגזר באופן מלא ממספר ההמרות או מסכום ערכי ההמרות.
  • מציינים אם המדדים מבוססים על דוחות ברמת האירוע, על דוחות סיכום או על שילוב של שני סוגי הדוחות (ואם נעשה שימוש בדוחות ניפוי באגים).
  • כדי לדעת איך לעצב משוב כמותי, אפשר לעיין בטבלאות של תבניות מוצעות.

ניתוח

  • כיסוי:
    • האם אפשר למדוד נתונים של קבוצת משתמשים דומה בהשוואה לקובצי Cookie של צד שלישי? האם אתם רואים כיסוי רחב יותר (למשל, עם מעבר מאפליקציה לאתר)?
    • האם יש לך אפשרות למדוד את ההמרות (ואת המאפיינים או המדדים) שהכי חשובים לך או למפרסמים שלך?
  • משוב כמותי
    • לדוגמה, בדוחות של מפרסמים, איזה אחוז מההמרות העיקריות תוכלו לדווח למפרסם הזה, או איזה אחוז מהקמפיינים עומדים ברף איכות הדיווח (הגדרת רף איכות עוזרת לבצע התאמות לקמפיינים עם מספר קטן של המרות)
    • לדוגמה, אם מסננים לפי מפרסם, האם יש מפרסמים שנסמכים יותר או פחות על קובצי Cookie של צד שלישי לצורך דיווח כיום?
  • משוב איכותי אחר:
    • איך ARA משפיע על המורכבות של הגדרת המדידה או השיוך של מפרסמים?
    • האם ARA עוזרת למפרסמים להתמקד במדדים וביעדים שחשובים להם, או פוגעת בהם?

טבלאות תבניות מוצעות לדיווח על ההשפעה

(דיווח) טבלה 1:

טבלת תבנית לדוגמה לדיווח על תוצאות ניסויים ל-CMA (נלקח מעמוד 18, אבל בודקים צריכים לשקול אילו מדדים הם הכי משמעותיים או מעשיים לדיווח, ולהתאים את הטבלה לפי הצורך).

קבוצת הניסוי לעומת קבוצת הבקרה 1
השוואה בין המצב הסופי המוצע לבין המצב הנוכחי
קבוצת טיפול לעומת קבוצת ביקורת 2
השוואה בין המצב הסופי המוצע לבין מצב ללא ממשקי PS API בכלל.
קבוצת ביקורת 2 לעומת קבוצת ביקורת 1
השוואה בין מדידת המרות עם קובצי Cookie של צד שלישי לבין מדידת המרות ללא קובצי Cookie של צד שלישי, ללא ממשקי API של PS.
מתודולוגיית המדידה השוואה בין מעקב ההמרות בקבוצת הניסוי (ARA עם נתונים שלא מגיעים מקובצי Cookie של צד שלישי) לבין קבוצת הבקרה 1 (נתונים שמגיעים מקובצי Cookie של צד שלישי ונתונים שלא מגיעים מקובצי Cookie של צד שלישי) השוואה בין מעקב ההמרות בקבוצת הניסוי (ARA עם נתונים שלא מגיעים מקובצי Cookie של צד שלישי) לבין קבוצת הבקרה 2 (נתונים שלא מגיעים מקובצי Cookie של צד שלישי בלבד) השוואה בין מדידת ההמרות בקבוצת הביקורת 2 (נתונים שאינם קובצי Cookie של צד שלישי בלבד) לבין קבוצת הביקורת 1 (קובצי Cookie של צד שלישי ונתונים שאינם קובצי Cookie של צד שלישי)
המרות לכל דולר השפעה השפעה השפעה
שגיאה רגילה שגיאה רגילה שגיאה רגילה
95% רווח בר-סמך 95% רווח בר-סמך 95% רווח בר-סמך
סך כל ההמרות השפעה השפעה השפעה
שגיאה רגילה שגיאה רגילה שגיאה רגילה
95% רווח בר-סמך 95% רווח בר-סמך 95% רווח בר-סמך
שיעור המרה השפעה השפעה השפעה
שגיאה רגילה שגיאה רגילה שגיאה רגילה
95% רווח בר-סמך 95% רווח בר-סמך 95% רווח בר-סמך
(הוספת מדדים משלכם)
(דיווח) טבלה 2:

דוגמה לטבלת תבנית לדיווח על סטטיסטיקה תיאורית של מדדים בקבוצות הניסוי והבקרה (לקוח מעמוד 20, אבל בודקים צריכים לשקול אילו מדדים הכי משמעותיים או אפשריים לדיווח, ולשנות את הטבלה בהתאם).

מדד הטיפול
מדידת המרות באמצעות ARA וכל נתון שאינו נתון של קובץ Cookie של צד שלישי שבו אתם משתמשים
קבוצת בקרה 1
מדידת המרות באמצעות קובצי Cookie של צד שלישי ונתונים שאינם נתונים מקובצי Cookie של צד שלישי שבהם אתם משתמשים
אמצעי בקרה 2
מדידת המרות באמצעות נתונים מקובצי Cookie שאינם של צד שלישי בלבד
המרות לכל דולר ממוצע ממוצע ממוצע
סטיית תקן סטיית תקן סטיית תקן
אחוזון 25 ואחוזון 75 אחוזון 25 ואחוזון 75 אחוזון 25 ואחוזון 75
סך כל ההמרות ממוצע ממוצע ממוצע
סטיית תקן סטיית תקן סטיית תקן
אחוזון 25 ואחוזון 75 אחוזון 25 ואחוזון 75 אחוזון 25 ואחוזון 75
שיעור המרה ממוצע ממוצע ממוצע
סטיית תקן סטיית תקן סטיית תקן
אחוזון 25 ואחוזון 75 אחוזון 25 ואחוזון 75 אחוזון 25 ואחוזון 75
(הוספת מדדים משלכם)

יעד 2 – קביעת היעילות של Attribution Reporting API לצורך אופטימיזציה של בידינג

אנחנו מציעים להגדיר בדיקת A/B כדי למדוד את ההשפעה על אופטימיזציית הבידינג.

  • כדי למדוד את ההשפעה על האופטימיזציה של הצעות המחיר, תצטרכו לאמן שני מודלים שונים של למידת מכונה ולהשתמש בהם בשני פלחי תנועה – מודל אחד שאומן על מתודולוגיות מדידה עדכניות (קובצי Cookie של צד שלישי + נתונים שלא מבוססים על קובצי Cookie של צד שלישי) שיוחל על קבוצת הבקרה, ומודל אחד שאומן על Attribution Reporting API + נתונים שלא מבוססים על קובצי Cookie של צד שלישי שיוחל על קבוצת הניסוי.
  • האימון של המודל צריך להתבסס על כמה שיותר תנועה, בהתאם למה שהבודק רואה לנכון כדי למקסם את הביצועים, גם אם זרוע הטיפול היא חלק קטן יותר מהתנועה ויש חפיפה בין אוכלוסיות האימון (לדוגמה, שימוש במודל הקיים של קובצי Cookie של צד שלישי שמתאמן על כל התנועה, ואימון של מודל ה-ARA על כל התנועה של ARA שהופעלה עבור יעד 1).
    • אם שולחים תוצאות ל-CMA, חשוב לציין אם יש הבדל משמעותי בין פרוסות התנועה שמשמשות לאימון מודלים שונים (לדוגמה, אם מודלים שמבוססים על קובצי Cookie של צד שלישי מאומנים על 100% מהתנועה, אבל מודלים שמבוססים על ARA מאומנים רק על 1% מהתנועה).
  • אם אפשר, האימון של שני מודלים לבידינג (קבוצת הניסוי וקבוצת הבקרה) צריך להתבצע למשך אותו פרק זמן.
  • כדאי לשקול אם צריך להמשיך לאמן ולעדכן את מודלי הבידינג במהלך הניסוי, ואם כן, האם צריך לאמן את המודלים על כמה שיותר תנועה או רק על תנועה מזרועות הטיפול והבקרה.
  • צריך להשתמש במודלים השונים בפלחים נפרדים של תנועה כניסוי A/B. כדי להקצות משתמשים באופן אקראי לקבוצות הניסוי והבקרה, מומלץ להשתמש בקבוצות דפדפנים מסומנות שמופעלות על ידי Chrome (מצב א') או להריץ ניסוי משלכם עם קבוצות אקראיות של דפדפנים. לא מומלץ להשתמש במצב ב' כי היעדר קובצי Cookie של צד שלישי יקשה על דיווח מדדים שמבוססים על המרות.
    • קבוצות דפדפנים שנוצרו באמצעות Chrome לא יכללו מקרים מסוימים של Chrome, כמו משתמשי Chrome Enterprise, בעוד שקבוצות דפדפנים אקראיות משלכם עשויות לא לכלול את המקרים האלה של Chrome. לכן, כדי להימנע מהשוואה בין מדדים שהתקבלו מקבוצות שנוצרו באמצעות Chrome לבין מדדים שהתקבלו מקבוצות שלא נוצרו באמצעות Chrome, מומלץ להריץ את הניסוי רק על קבוצות במצב א' או רק על קבוצות שלא במצב א' או במצב ב'.
    • אם לא משתמשים בקבוצות דפדפנים עם תוויות שנוצרו באמצעות Chrome (לדוגמה, אם מריצים ניסוי על תנועה אחרת):
      • מוודאים שהחלוקה של המשתמשים לקבוצת הניסוי ולקבוצת הבקרה היא אקראית וללא הטיה. לא משנה איך הגדרתם את קבוצת הניסוי, חשוב להעריך את המאפיינים של זרועות הניסוי והבקרה כדי לוודא שהקבוצות ניתנות להשוואה. (ראו: סעיף 15)
      • מוודאים שמאפייני המשתמשים והגדרות הקמפיין של קבוצות הניסוי והבקרה זהים (לדוגמה, משתמשים באזורים גיאוגרפיים דומים בשתי הקבוצות). (ראו: סעיף 28)
        • דוגמאות ספציפיות כוללות: אימות של מדידת סוגי המרות דומים באמצעות אותו חלון שיוך ואותה לוגיקת שיוך, טירגוט קהלים דומים, קבוצות של משתמשים עם תחומי עניין משותפים ומיקומים גיאוגרפיים דומים בקמפיינים, ושימוש בטקסטים דומים של מודעות ובפורמטים דומים של מודעות.
      • √ גודל האוכלוסייה הראשוני של קבוצת הניסוי וקבוצת הבקרה גדול מספיק כדי לאפשר גמישות בבידינג ובניסויים.
    • אם משתמשים בקבוצות דפדפן עם תוויות שמופעלות על ידי Chrome (מצב א'), ההקצאה האקראית של מופעי דפדפן Chrome לקבוצות מתבצעת על ידי Chrome. מומלץ לבדוק, כמו קודם, שהאקראיות מובילה לקבוצות לא מוטות / בנות השוואה למטרות שלכם.

הצעות לנקודות ניתוח

  • מומלץ להגדיר זרוע בקרה וזרוע ניסוי, ולהשתמש במודל שונה של למידת מכונה לאופטימיזציה של הבידינג בכל זרוע:
    • קבוצת ביקורת 1 – שימוש במודל לאופטימיזציה של הבידינג שאומן על בסיס מתודולוגיות המדידה הנוכחיות (קובצי Cookie של צד שלישי + נתונים שלא מגיעים מקובצי Cookie של צד שלישי)
    • (אופציונלי) קבוצת ביקורת 2 – שימוש במודל לאופטימיזציה של הצעות מחיר שאומן ללא ארגז החול לפרטיות וללא קובצי Cookie של צד שלישי, כלומר רק על נתונים שאינם קובצי Cookie של צד שלישי
      • חשוב לזכור שעדיין יכול להיות שקובצי Cookie של צד שלישי יהיו זמינים לחלק מהאתרים. כדי לקבל את התוצאות הכי מדויקות, אל תשתמשו בקובצי ה-Cookie האלה של צד שלישי למדידה במתודולוגיות של קבוצת הבקרה 2 או קבוצת הניסוי.
    • הטיפול – שימוש במודל אופטימיזציה של הבידינג שאומן על נתונים מ-Attribution Reporting API ומנתונים שאינם קובצי Cookie של צד שלישי
      • חשוב לזכור שעדיין יכול להיות שקובצי Cookie של צד שלישי יהיו זמינים לחלק מהאתרים. כדי לקבל את התוצאות הכי מדויקות, אל תשתמשו בקובצי ה-Cookie האלה של צד שלישי למדידה במתודולוגיות של קבוצת הבקרה 2 או קבוצת הניסוי.

מדדים

  • הגדירו אילו מדדים מתאימים לעסק שלכם למדידת התוצאות, וציינו תיאור של משמעות המדד ושל אופן המדידה שלו.
    • לדוגמה, המדד המשמעותי יכול להיות הוצאות (הכנסות של בעל האתר), שמתאים להנחיות של CMA להבנת ההשפעה של הוצאה משימוש של קובצי Cookie של צד שלישי על 'הכנסות לכל חשיפה'. פרטים נוספים מופיעים בקטע 19.
  • אם אתם מדווחים על מדדים שמבוססים על המרות, אתם צריכים להשתמש באותה מתודולוגיית מדידה לכל קבוצה, כדי להימנע מבדיקות רב-משתנים (בדיקת ההשפעה על האופטימיזציה והדיווח בניסוי אחד). כדי לדעת איך לעצב משוב כמותי, אפשר לעיין בטבלאות של תבניות מוצעות.
  • כדאי לשקול דרכים אחרות לאיסוף מדדים לגבי ההשפעה של אופטימיזציית הבידינג – למשל, שימוש בסימולציה של הצעות מחיר. האם יש מדדים מסימולציות שיכולים לעזור לכם להבין את ההשפעה של קובצי Cookie של צד שלישי ושל ARA על מודלים לבידינג?
  • מציינים אם המדדים מבוססים על דוחות ברמת האירוע, על דוחות סיכום או על שילוב של שני סוגי הדוחות (ואם נעשה שימוש בדוחות ניפוי באגים).

ניתוח

  • כיסוי:
    • האם אפשר למדוד נתונים של קבוצת משתמשים דומה בהשוואה לקובצי Cookie של צד שלישי? האם הבחנת בשינויים בכיסוי (לדוגמה, באפליקציות שמובילות לאתרים)?
    • האם אתם יכולים למדוד את ההמרות (ואת המאפיינים או המדדים) שהכי חשובים לכם או למפרסמים שלכם?
  • איך ההבדלים בין הקבוצות ישפיעו על הדברים הבאים:
    • לדוגמה, דיווח למפרסמים על אחוז ההמרות המרכזיות שניתן לדווח עליהן.
    • לדוגמה, בתהליך האימון והאופטימיזציה המערכת מדמה את ההשפעה של נתוני המרות שונים על ביצועי המודל.
  • משוב איכותי אחר:
    • איך ARA משפיע על המורכבות של הגדרת אופטימיזציה של בידינג אצל מפרסמים?
    • האם ARA עוזרת למפרסמים להתמקד במדדים וביעדים שחשובים להם, או פוגעת בכך?

טבלאות תבנית מוצעות להערכת ההשפעה על הבידינג

‫(Bidding) Table 1:

דוגמה לטבלת תבנית של תוצאות ניסוי שמשתתפים בשוק צריכים לשלוח ל-CMA (לקוחה מעמוד 18, אבל בודקים צריכים לשקול אילו מדדים הכי משמעותיים או אפשריים לספק ולהתאים את הטבלה לפי הצורך).

קבוצת הניסוי לעומת קבוצת הבקרה 1
השוואה בין המצב הסופי המוצע לבין המצב הנוכחי
קבוצת טיפול לעומת קבוצת ביקורת 2
השוואה בין המצב הסופי המוצע לבין מצב ללא ממשקי PS API בכלל.
קבוצת ביקורת 2 לעומת קבוצת ביקורת 1
השוואה בין אופטימיזציה של הצעות מחיר עם קובצי Cookie של צד שלישי לבין אופטימיזציה ללא קובצי Cookie של צד שלישי, ללא ממשקי API של PS.
מתודולוגיית המדידה כדי להימנע מבדיקות רבות-משתנים, צריך להשתמש בנתונים של קובצי Cookie של צד שלישי ושל קובצי Cookie שאינם של צד שלישי כדי למדוד מדדים מבוססי-המרות בשתי קבוצות הניסוי בכל ניסוי.
הכנסות לכל חשיפה השפעה השפעה השפעה
שגיאה רגילה שגיאה רגילה שגיאה רגילה
95% רווח בר-סמך 95% רווח בר-סמך 95% רווח בר-סמך
(הוספת מדדים משלכם)
(בידינג) טבלה 2:

דוגמה לטבלת תבנית לדיווח על סטטיסטיקה תיאורית של מדדים בקבוצות הניסוי והבקרה (לקוח מעמוד 20, אבל בודקים צריכים לשקול אילו מדדים הכי משמעותיים או אפשריים לדיווח, ולשנות את הטבלה בהתאם).

הטיפול
אופטימיזציה של הבידינג באמצעות ARA וכל נתון שאתם משתמשים בו שלא מגיע מקובצי Cookie של צד שלישי
קבוצת ביקורת 1
אופטימיזציה של הבידינג באמצעות קובצי Cookie של צד שלישי ונתונים שאינם קובצי Cookie של צד שלישי שבהם אתם משתמשים
קבוצת ביקורת 2
אופטימיזציה של הבידינג באמצעות נתונים שלא מגיעים מקובצי Cookie של צד שלישי בלבד
מתודולוגיית המדידה כדי להימנע מבדיקות רב-משתנים, משתמשים בנתונים של קובצי Cookie של צד שלישי ושל קובצי Cookie שאינם של צד שלישי כדי למדוד מדדים שמבוססים על המרות בכל קבוצות הניסוי.
הכנסות לכל חשיפה ממוצע ממוצע ממוצע
סטיית תקן סטיית תקן סטיית תקן
אחוזון 25 ואחוזון 75 אחוזון 25 ואחוזון 75 אחוזון 25 ואחוזון 75
(הוספת מדדים משלכם)

מטרה 3 – בדיקת עומסים ב-Aggregation Service

מידע נוסף זמין במאמר Aggregation Service Load Testing Framework.