סמנטיקה של פרטיות דיפרנציאלית להתאמה אישית במכשיר

במסמך הזה נסכם את הגישה שלנו לפרטיות בהקשר של התאמה אישית במכשיר (ODP) ספציפית, בהקשר של פרטיות דיפרנציאלית. השמטנו במכוון השלכות אחרות על הפרטיות וקביעות עיצוב, כמו צמצום השימוש בנתונים, כדי לשמור על המיקוד של המסמך הזה.

פרטיות דיפרנציאלית

פרטיות דיפרנציאלית 1 היא תקן מקובל להגנה על הפרטיות בניתוח נתונים סטטיסטי ובלמידת מכונה 2 3. באופן לא רשמי, המשמעות היא שאויב לומד כמעט את אותו הדבר על משתמש מהפלט של אלגוריתם עם פרטיות דיפרנציאלית, בין שהרשומה שלו מופיעה במערך הנתונים הבסיסי ובין שלא. המשמעות היא הגנה חזקה על אנשים פרטיים: כל מסקנה לגבי אדם מסוים יכולה להתקבל רק על סמך מאפיינים מצטברים של מערך הנתונים, שיישמרו גם אם הרשומה של אותו אדם תהיה במערך וגם אם לא.

בהקשר של למידת מכונה, צריך להתייחס לפלט של האלגוריתם כפרמטרים של המודל המאומן. הביטוי כמעט אותו הדבר מקבל ערך כמותי מבחינה מתמטית באמצעות שני פרמטרים (ε, δ), כאשר ε נבחר בדרך כלל כקבוע קטן, ו-δ≪1/(מספר המשתמשים).

סמנטיקה של פרטיות

תכנון ה-ODP נועד להבטיח שכל הרצה של אימון תהיה עם פרטיות נגזרת (ε,δ) ברמת המשתמש. בהמשך מפורטת הגישה שלנו להשגת הסמנטיקה הזו.

מודל איומים

אנחנו מגדירים את הגורמים השונים ומציינים הנחות לגבי כל אחד מהם:

  • משתמש: המשתמש שבבעלותו המכשיר, והוא צורך מוצרים או שירותים שסופקו על ידי המפתח. המידע הפרטי שלהם זמין רק להם.
  • סביבת מחשוב אמינה (TEE): נתונים וחישובים מהימנים שמתרחשים בסביבות TEE מוגנים מפני תוקפים באמצעות מגוון טכנולוגיות. לכן, אין צורך בהגנה נוספת על החישובים והנתונים. סביבות TEE קיימות עשויות לאפשר לאדמינים של הפרויקט לגשת למידע שבתוכן. אנחנו מציעים יכולות בהתאמה אישית כדי לאשר או לא לאשר גישה לאדמין, ולוודא שהיא לא זמינה.
  • התוקף: יכול להיות שיש לו מידע צדדי על המשתמש ו יש לו גישה מלאה לכל מידע שיוצא מ-TEE (כמו הפרמטרים של המודל שפורסמו).
  • מפתח: מי שמגדיר את המודל ומאמן אותו. נחשבת לא מהימנה (ומאפשרת למתקפה להשתמש בכל היכולות שלה).

אנחנו שואפים לתכנן את ODP עם הסמנטיקה הבאה של פרטיות דיפרנציאלית:

  • גבול האמון: מנקודת המבט של משתמש אחד, גבול האמון מורכב מהמכשיר של המשתמש עצמו יחד עם ה-TEE. כל מידע שיוצא מגבולות האמון האלה צריך להיות מוגן באמצעות פרטיות דיפרנציאלית.
  • תוקף: הגנה מלאה על פרטיות דיפרנציאלית ביחס לתוקף. כל ישות מחוץ לגבולות האמון יכולה להיות תוקף (כולל המפתחים ומשתמשים אחרים, שיכול להיות שהם עובדים יחד). הפורץ, עם כל המידע מחוץ לגבולות האמון (לדוגמה, המודל שפורסם), כל מידע צדדי על המשתמש ומשאבים אינסופיים, לא יכול להסיק נתונים פרטיים נוספים על המשתמש (מעבר לאלה שכבר נמצאים במידע הצדדי), עד לסיכויים שצוינו בתקציב הפרטיות. באופן ספציפי, המשמעות היא הגנה מלאה על פרטיות דיפרנציאלית ביחס למפתח. כל המידע שיפורסם למפתח (כמו פרמטרים של מודל מאומן או מסקנות מצטברות) מוגן באמצעות פרטיות דיפרנציאלית.

פרמטרים של מודל מקומי

סמנטיקה הקודמת של הפרטיות מתאימה למקרה שבו חלק מהפרמטרים של המודל מקומיים למכשיר (לדוגמה, מודל שמכיל הטמעת משתמש ספציפית לכל משתמש, ולא משותפת בין משתמשים). במודלים כאלה, הפרמטרים המקומיים האלה נשארים בגבולות האמון (הם לא מתפרסמים) ולא נדרשת הגנה עליהם, בעוד שפרמטרים של מודלים משותפים מתפרסמים (ומוגנים על ידי פרטיות דיפרנציאלית). המודל הזה נקרא לפעמים מודל הפרטיות של מודעת המודעות 4.

תכונות גלויות לכולם

באפליקציות מסוימות, חלק מהתכונות גלויות לכולם. לדוגמה, בבעיה של המלצות לסרטים, המאפיינים של הסרט (הבמאי, הז'אנר או שנת ההשקה של הסרט) הם מידע ציבורי שאין צורך להגן עליו, בעוד שמאפיינים שקשורים למשתמש (כמו מידע דמוגרפי או הסרטים שהמשתמש צפה בהם) הם נתונים פרטיים שצריך להגן עליהם.

המידע הציבורי מנוסח כמטריצה ציבורית של תכונות (בדוגמה הקודמת, המטריצה הזו תכלול שורה אחת לכל סרט ועמודה אחת לכל תכונה בסרט), שזמינה לכל הצדדים. אלגוריתם האימון עם פרטיות דיפרנציאלית יכול להשתמש במטריצה הזו בלי צורך להגן עליה. למשל, 5. בפלטפורמת ODP אנחנו מתכננים להטמיע אלגוריתמים כאלה.

גישה לשמירה על פרטיות במהלך חיזוי או היסק

ההסקות מבוססות על פרמטרים של המודל ועל מאפייני קלט. הפרמטרים של המודל עוברים אימון באמצעות סמנטיקה של פרטיות דיפרנציאלית. כאן נדון בתפקיד של מאפייני הקלט.

בתרחישי שימוש מסוימים, כשלמפתח כבר יש גישה מלאה לתכונות שבהן נעשה שימוש בתהליך ההסקה, אין חשש לפגיעה בפרטיות כתוצאה מהסקה, ותוצאת ההסקה עשויה להיות גלויה למפתח.

במקרים אחרים (כשהתכונות שמשמשות להסקה הן פרטיות ולא נגישות למפתח), יכול להיות שתוצאת ההסקה תהיה מוסתרת מהמפתח. לדוגמה, ההסקה (וכל תהליך במורד הזרם שמשתמש בתוצאת ההסקה) תרוץ במכשיר, בתהליך ובאזור תצוגה שבבעלות מערכת ההפעלה, עם תקשורת מוגבלת מחוץ לתהליך הזה.

תהליך ההדרכה

ארכיטקטורה ברמה גבוהה של מערכת אימון
איור 1: ארכיטקטורה ברמה גבוהה של מערכת ההדרכה.

סקירה כללית

בקטע הזה נספק סקירה כללית של הארכיטקטורה ושל תהליך האימון. ראו איור 1. ODP מטמיע את הרכיבים הבאים:

  • מפיץ מהימן, כמו 'בחירה מאוחדת', 'הורדה מהימנה' או 'אחזור מידע פרטי', שממלא את התפקיד של הפרמטרים של מודל השידור. ההנחה היא שהמפיץ המהימן יכול לשלוח לכל לקוח קבוצת משנה של פרמטרים, בלי לחשוף אילו פרמטרים הורדקו על ידי איזה לקוח. 'השידור החלקי' הזה מאפשר למערכת לצמצם את טביעת הרגל במכשיר של משתמש הקצה: במקום לשלוח עותק מלא של המודל, רק חלק מפרמטרים המודל נשלחים לכל משתמש נתון.

  • אגרגטור מהימן שמאגד מידע מכמה לקוחות (למשל, שיפועים או נתונים סטטיסטיים אחרים), מוסיף רעש ושולח את התוצאה לשרת. ההנחה היא שיש ערוצים מהימנים בין הלקוח לבין המאגר, ובין הלקוח לבין המפיץ.

  • אלגוריתמים של אימון למידת מכונה שמריצים בתשתית הזו. כל אלגוריתם אימון מורכב מחישובים שונים שפועלים ברכיבים השונים (שרת, לקוח, שירות צבירה, מפיץ).

סיבוב אימון אופייני כולל את השלבים הבאים:

  1. השרת משדר את הפרמטרים של המודל למפיץ המהימן.
  2. חישוב בצד הלקוח
    • כל מכשיר לקוח מקבל את מודל השידור (או את קבוצת המשנה של הפרמטרים הרלוונטיים למשתמש).
    • כל לקוח מבצע חישוב כלשהו (לדוגמה, חישוב שיפועים או סטטיסטיקות מספיקות אחרות).
    • כל לקוח שולח את תוצאת החישוב למאגר המהימן.
    • המאגר המהימן אוסף את הנתונים הסטטיסטיים מהלקוחות, מצטבר אותם ומגן עליהם באמצעות מנגנוני פרטיות דיפרנציאלית מתאימים, ולאחר מכן שולח את התוצאה לשרת.
  3. חישוב בשרת
  4. השרת (לא מהימן) מפעיל חישובים על הנתונים הסטטיסטיים המוגנים בפרטיות דיפרנציאלית (לדוגמה, משתמש בגרדיאנטים מצטברים עם פרטיות דיפרנציאלית כדי לעדכן את הפרמטרים של המודל).

מודלים מחולקים ו-Alternating Minimization עם פרטיות דיפרנציאלית

פלטפורמת ODP תספק אלגוריתמים כלליים לאימון עם פרטיות דיפרנציאלית שאפשר להחיל על כל ארכיטקטורת מודל (כמו DP-SGD‏ 6 7 8 או DP-FTRL‏ 9 10), וגם אלגוריתמים שמותאמים במיוחד למודלים מפורטים.

מודלים מפוצלים הם מודלים שאפשר לפרק למודלים משנה (שנקראים מקודדים או מגדלים). לדוגמה, נניח שיש מודל מסוג f(u(θu, xu), v(θv, xv)), שבו u() מקודד מאפייני משתמשים xu (ויש לו פרמטרים θu), ו-v() מקודד מאפיינים שאינם של משתמשים xv (ויש לו פרמטרים θv). שני הקידודים משולבים באמצעות f() כדי ליצור את התחזית הסופית של המודל. לדוגמה, במודל להמלצות על סרטים, xu הן תכונות המשתמש ו-xv הן תכונות הסרט.

מודלים כאלה מתאימים לארכיטקטורה של המערכת המפוזרת שצוינה למעלה (כי הם מפרידים בין התכונות של המשתמשים לבין התכונות שאינן של משתמשים).

מודלים מפוכחים יתאמנו באמצעות 'הפחתה לסירוגין עם פרטיות דיפרנציאלית' (DPAM), שמחליפה בין אופטימיזציה של הפרמטרים θu (כש-θv קבוע) לבין אופטימיזציה של θv (כש-θu קבוע). הוכח שהאלגוריתמים של DPAM מניבים תועלת טובה יותר במגוון הגדרות 4 11, במיוחד בנוכחות תכונות ציבוריות.

קובצי עזר