معنای متفاوت حریم خصوصی برای شخصی سازی در دستگاه

این سند، رویکرد حریم خصوصی برای شخصی‌سازی روی دستگاه (ODP) را به‌طور خاص در زمینه حریم خصوصی تفاضلی خلاصه می‌کند. سایر پیامدهای حریم خصوصی و تصمیمات طراحی مانند کمینه‌سازی داده‌ها عمداً حذف شده‌اند تا این سند متمرکز باقی بماند.

حریم خصوصی دیفرانسیلی

حریم خصوصی تفاضلی ۱ یک استاندارد گسترده برای حفاظت از حریم خصوصی در تحلیل داده‌های آماری و یادگیری ماشینی ۲ ۳ است. به طور غیررسمی، این استاندارد می‌گوید که یک دشمن تقریباً همان چیز را در مورد یک کاربر از خروجی یک الگوریتم تفاضلی خصوصی می‌آموزد، چه رکورد او در مجموعه داده‌های اصلی ظاهر شود و چه نشود. این به معنای محافظت قوی برای افراد است: هرگونه استنتاجی که در مورد یک شخص انجام می‌شود، فقط می‌تواند به دلیل ویژگی‌های کلی مجموعه داده‌ها باشد که با یا بدون رکورد آن شخص برقرار است.

در زمینه یادگیری ماشین، خروجی الگوریتم باید به عنوان پارامترهای مدل آموزش دیده در نظر گرفته شود. عبارت تقریباً یکسانی از نظر ریاضی با دو پارامتر (ε، δ) کمیت‌بندی می‌شود، که در آن ε معمولاً به عنوان یک ثابت کوچک انتخاب می‌شود و δ≪1/(تعداد کاربران).

معناشناسی حریم خصوصی

طراحی ODP به دنبال اطمینان از این است که هر اجرای آموزشی (ε,δ)-سطح کاربر به صورت تفاضلی خصوصی باشد. در ادامه، رویکرد ما برای رسیدن به این معنا تشریح شده است.

مدل تهدید

ما احزاب مختلف را تعریف می‌کنیم و فرضیات مربوط به هر یک را بیان می‌کنیم:

  • کاربر: کاربری که مالک دستگاه است و مصرف‌کننده محصولات یا خدمات ارائه شده توسط توسعه‌دهنده می‌باشد. اطلاعات خصوصی آنها کاملاً در دسترس خودشان است.
  • محیط اجرای مطمئن (TEE): داده‌ها و محاسبات مطمئنی که درون TEEها رخ می‌دهند، با استفاده از فناوری‌های متنوع از مهاجمان محافظت می‌شوند. بنابراین، محاسبات و داده‌ها نیازی به حفاظت اضافی ندارند. TEEهای موجود ممکن است به مدیران پروژه خود اجازه دسترسی به اطلاعات داخل را بدهند. ما قابلیت‌های سفارشی را برای عدم اجازه و تأیید عدم دسترسی مدیر پیشنهاد می‌کنیم.
  • مهاجم: ممکن است اطلاعات جانبی در مورد کاربر داشته باشد و به هرگونه اطلاعاتی که از TEE خارج می‌شود (مانند پارامترهای مدل منتشر شده) دسترسی کامل دارد.
  • توسعه‌دهنده: کسی که مدل را تعریف و آموزش می‌دهد. غیرقابل اعتماد در نظر گرفته می‌شود (و تمام توانایی‌های یک مهاجم را دارد).

ما به دنبال طراحی ODP با معانی زیر از حریم خصوصی تفاضلی هستیم:

  • مرز اعتماد: از دیدگاه یک کاربر، مرز اعتماد شامل دستگاه خود کاربر به همراه TEE است. هر اطلاعاتی که از این مرز اعتماد خارج می‌شود، باید توسط حریم خصوصی تفاضلی محافظت شود.
  • مهاجم: محافظت کامل از حریم خصوصی تفاضلی در رابطه با مهاجم. هر موجودیتی خارج از مرز اعتماد می‌تواند یک مهاجم باشد (این شامل توسعه‌دهنده و سایر کاربران می‌شود که همگی به طور بالقوه در حال تبانی هستند). مهاجم، با توجه به تمام اطلاعات خارج از مرز اعتماد (به عنوان مثال، مدل منتشر شده)، هرگونه اطلاعات جانبی در مورد کاربر و منابع نامحدود، قادر به استنباط داده‌های خصوصی اضافی در مورد کاربر (فراتر از اطلاعات موجود در اطلاعات جانبی) تا حد احتمالات داده شده توسط بودجه حریم خصوصی نیست. به طور خاص، این به معنای محافظت کامل از حریم خصوصی تفاضلی در رابطه با توسعه‌دهنده است. هرگونه اطلاعاتی که به توسعه‌دهنده منتشر می‌شود (مانند پارامترهای مدل آموزش دیده یا استنتاج‌های کلی) محافظت شده از حریم خصوصی تفاضلی هستند.

پارامترهای مدل محلی

معنای حریم خصوصی قبلی، حالتی را در بر می‌گیرد که برخی از پارامترهای مدل، محلی برای دستگاه هستند (برای مثال، مدلی که شامل یک جاسازی کاربر مختص به هر کاربر است و بین کاربران مشترک نیست). برای چنین مدل‌هایی، این پارامترهای محلی در مرز اعتماد باقی می‌مانند (منتشر نمی‌شوند) و نیازی به محافظت ندارند، در حالی که پارامترهای مدل مشترک منتشر می‌شوند (و توسط حریم خصوصی تفاضلی محافظت می‌شوند). این گاهی اوقات به عنوان مدل حریم خصوصی بیلبورد ۴ شناخته می‌شود.

ویژگی‌های عمومی

در برخی از برنامه‌ها، برخی از ویژگی‌ها عمومی هستند. برای مثال، در یک مسئله پیشنهاد فیلم، ویژگی‌های یک فیلم (کارگردان، ژانر یا سال انتشار فیلم) اطلاعات عمومی هستند و نیازی به حفاظت ندارند، در حالی که ویژگی‌های مربوط به کاربر (مانند اطلاعات جمعیت‌شناختی یا فیلم‌هایی که کاربر تماشا کرده است) داده‌های خصوصی هستند و نیاز به حفاظت دارند.

اطلاعات عمومی به صورت یک ماتریس ویژگی عمومی (در مثال قبلی، این ماتریس شامل یک ردیف برای هر فیلم و یک ستون برای هر ویژگی فیلم است) رسمی‌سازی می‌شود که برای همه طرفین در دسترس است. الگوریتم آموزش خصوصی تفاضلی می‌تواند بدون نیاز به محافظت از این ماتریس، از آن استفاده کند، برای مثال به 5 مراجعه کنید. پلتفرم ODP قصد دارد چنین الگوریتم‌هایی را پیاده‌سازی کند.

رویکردی به حریم خصوصی در طول پیش‌بینی یا استنتاج

استنتاج‌ها بر اساس پارامترهای مدل و ویژگی‌های ورودی انجام می‌شوند. پارامترهای مدل با معناشناسی حریم خصوصی تفاضلی آموزش داده می‌شوند. در اینجا، نقش ویژگی‌های ورودی مورد بحث قرار می‌گیرد.

در برخی موارد استفاده، زمانی که توسعه‌دهنده از قبل به ویژگی‌های مورد استفاده در استنتاج دسترسی کامل دارد، هیچ نگرانی در مورد حریم خصوصی از استنتاج وجود ندارد و نتیجه استنتاج ممکن است برای توسعه‌دهنده قابل مشاهده باشد.

در موارد دیگر (زمانی که ویژگی‌های استفاده‌شده در استنتاج خصوصی هستند و برای توسعه‌دهنده قابل دسترسی نیستند)، نتیجه استنتاج ممکن است از توسعه‌دهنده پنهان بماند، برای مثال، با اجرای استنتاج (و هر فرآیند پایین‌دستی که از نتیجه استنتاج استفاده می‌کند) روی دستگاه، در یک فرآیند و ناحیه نمایش متعلق به سیستم عامل، با ارتباطات محدود در خارج از آن فرآیند.

رویه آموزش

معماری سطح بالای سیستم آموزشی
شکل ۱: معماری سطح بالای سیستم آموزشی.

نمای کلی

این بخش، مروری بر معماری و نحوه‌ی انجام آموزش ارائه می‌دهد، به شکل ۱ مراجعه کنید. ODP اجزای زیر را پیاده‌سازی می‌کند:

  • یک توزیع‌کننده‌ی قابل اعتماد، مانند انتخاب فدرال، دانلود قابل اعتماد یا بازیابی اطلاعات خصوصی، که نقش پخش پارامترهای مدل را ایفا می‌کند. فرض بر این است که توزیع‌کننده‌ی قابل اعتماد می‌تواند زیرمجموعه‌ای از پارامترها را به هر کلاینت ارسال کند، بدون اینکه مشخص شود کدام پارامترها توسط کدام کلاینت دانلود شده‌اند. این "پخش جزئی" به سیستم اجازه می‌دهد تا ردپای خود را در دستگاه کاربر نهایی به حداقل برساند: به جای ارسال یک کپی کامل از مدل، تنها کسری از پارامترهای مدل به هر کاربر مشخص ارسال می‌شود.

  • یک تجمیع‌کننده‌ی قابل اعتماد، که اطلاعات را از چندین کلاینت (مثلاً گرادیان‌ها یا سایر آمارها) تجمیع می‌کند، نویز اضافه می‌کند و نتیجه را به سرور ارسال می‌کند. فرض بر این است که کانال‌های قابل اعتمادی بین کلاینت و تجمیع‌کننده و بین کلاینت و توزیع‌کننده وجود دارد.

  • الگوریتم‌های آموزش DP که روی این زیرساخت اجرا می‌شوند. هر الگوریتم آموزشی شامل محاسبات مختلفی است که روی اجزای مختلف (سرور، کلاینت، تجمیع‌کننده، توزیع‌کننده) اجرا می‌شوند.

یک دوره آموزشی معمولی شامل مراحل زیر است:

  1. سرور پارامترهای مدل را به توزیع‌کننده‌ی مورد اعتماد ارسال می‌کند.
  2. محاسبات کلاینت
    • هر دستگاه کلاینت، مدل پخش (یا زیرمجموعه‌ای از پارامترهای مربوط به کاربر) را دریافت می‌کند.
    • هر کلاینت مقداری محاسبه انجام می‌دهد (برای مثال محاسبه گرادیان یا سایر آمارهای کافی).
    • هر کلاینت نتیجه محاسبات را به تجمیع‌کننده مورد اعتماد ارسال می‌کند.
    • تجمیع‌کننده‌ی مورد اعتماد، آمار را از کلاینت‌ها جمع‌آوری، تجمیع و با استفاده از مکانیسم‌های مناسب حریم خصوصی تفاضلی محافظت می‌کند، سپس نتیجه را به سرور ارسال می‌کند.
  3. محاسبات سرور
  4. سرور (غیرقابل اعتماد) محاسبات را روی آماره‌های محافظت‌شده با حریم خصوصی تفاضلی اجرا می‌کند (برای مثال از گرادیان‌های تجمیع‌شده با حریم خصوصی تفاضلی برای به‌روزرسانی پارامترهای مدل استفاده می‌کند).

مدل‌های فاکتورگیری شده و کمینه‌سازی متناوب خصوصی تفاضلی

پلتفرم ODP قصد دارد الگوریتم‌های آموزش خصوصی تفاضلی همه‌منظوره را ارائه دهد که می‌توانند برای هر معماری مدلی (مانند DP-SGD 6 7 8 یا DP-FTRL 9 10 ) و همچنین الگوریتم‌های مخصوص مدل‌های فاکتورگیری شده اعمال شوند.

مدل‌های فاکتورگیری شده، مدل‌هایی هستند که می‌توانند به زیرمدل‌ها (به نام رمزگذار یا برج) تجزیه شوند. به عنوان مثال، مدلی به شکل f(u(θu, xu), v(θv, xv)) را در نظر بگیرید، که در آن u() ویژگی‌های کاربر xu را کدگذاری می‌کند (و پارامترهای θu را دارد)، و v() ویژگی‌های غیرکاربر xv را کدگذاری می‌کند (و پارامترهای θv را دارد). این دو کدگذاری با استفاده از f() ترکیب می‌شوند تا پیش‌بینی نهایی مدل را تولید کنند. به عنوان مثال، در یک مدل توصیه فیلم، xu ویژگی‌های کاربر و xv ویژگی‌های فیلم هستند.

چنین مدل‌هایی برای معماری سیستم توزیع‌شده‌ی مذکور بسیار مناسب هستند (زیرا ویژگی‌های کاربر و غیرکاربر را از هم جدا می‌کنند).

مدل‌های فاکتورگیری شده با استفاده از کمینه‌سازی متناوب خصوصی تفاضلی (DPAM) آموزش داده خواهند شد، که بین بهینه‌سازی پارامترهای θu (در حالی که θv ثابت است) و برعکس، متناوباً تغییر می‌کند. نشان داده شده است که الگوریتم‌های DPAM در تنظیمات مختلف 411 ، به ویژه در حضور ویژگی‌های عمومی ، به کاربرد بهتری دست می‌یابند.

منابع