يلخِّص هذا المستند نهج الخصوصية للميزة "التخصيص على الجهاز" (ODP) تحديدًا في سياق الخصوصية التفاضلية. تمّ عمدًا استبعاد بعض التأثيرات الأخرى للخصوصية وقرارات التصميم، مثل الحدّ الأدنى من البيانات، وذلك للحفاظ على تركيز هذا المستند.
الخصوصية التفاضلية
إنّ الخصوصية التفاضلية 1 هي معيار مُتّبع على نطاق واسع لحماية الخصوصية في تحليل البيانات الإحصائية والتعلم الآلي 2 3. بعبارة أخرى، يتعرّف المهاجم على الشيء نفسه تقريبًا عن أحد المستخدِمين من خلال ناتج خوارزمية الخصوصية التفاضلية، سواء كان سجلّه يظهر في مجموعة البيانات الأساسية أم لا. ويشير ذلك إلى توفير حماية قوية للأفراد: أي استنتاجات يتمّ إجراؤها بشأن شخص ما لا يمكن أن تكون إلا بسبب السمات المجمّعة لمجموعة البيانات التي يمكن أن تظلّ صحيحة مع أو بدون سجلّ هذا الشخص.
في سياق تعلُّم الآلة، يجب اعتبار مخرجات الخوارزمية هي مَعلمات النموذج المدربة. يتم قياس عبارة تقريبًا الشيء نفسه رياضيًا باستخدام مَعلمتَين (ε وδ)، حيث يتم اختيار ε عادةً ليكون ثابتًا صغيرًا، وδ≪1/(عدد المستخدِمين).
معاني الخصوصية
يهدف تصميم ODP إلى ضمان أن تكون كل عملية تدريب خصوصية متباينة على مستوى المستخدم (ε,δ). في ما يلي مخطّطنا لتحقيق هذه الدلالات.
نموذج التهديد
نحدّد الجهات المختلفة ونوضّح افتراضات عن كلّ جهة:
- المستخدم: المستخدم الذي يملك الجهاز، وهو مستهلك للمنتجات أو الخدمات التي يوفّرها المطوّر. تكون معلوماتهم الخاصة متاحة لهم بالكامل.
- بيئة التنفيذ الموثوقة (TEE): يتم حماية البيانات والعمليات الحسابية الموثوق بها التي تحدث في بيئات التنفيذ الموثوقة من المهاجمين باستخدام مجموعة متنوعة من التقنيات. وبالتالي، لا تتطلّب العمليات الحسابية والبيانات أي حماية إضافية. قد تسمح TEEs الحالية لمشرفي المشاريع بالوصول إلى المعلومات داخلها. نقترح إمكانات مخصّصة لحظر الوصول إلى المشرف والتحقّق من أنّه غير متاح.
- المهاجم: قد يكون لديه معلومات جانبية عن المستخدم ويملك إذن الوصول الكامل إلى أي معلومات تغادر وحدة TEE (مثل مَعلمات النموذج المنشورة).
- المطوّر: هو الشخص الذي يحدّد النموذج ويُدرِّبه. يُعتبر غير موثوق به (ويملك الحد الأقصى من قدرات المهاجم).
نسعى إلى تصميم نموذج ODP باستخدام الدلالات التالية للخصوصية التفاضلية:
- حدود الثقة: من منظور مستخدم واحد، تتألف حدود الثقة من جهاز المستخدم الخاص به بالإضافة إلى وحدة TEE. ويجب حماية أي معلومات تخرج من حدود الثقة هذه باستخدام أسلوب الخصوصية التفاضلية.
- المهاجم: حماية كاملة للخصوصية التفاضلية في ما يتعلق بالمهاجم يمكن أن يكون أيّ كيان خارج حدود الثقة مهاجمًا (ويشمل ذلك المطوّر والمستخدمين الآخرين الذين يُحتمَل أن يكونوا متواطئين). لا يمكن للمهاجم استنتاج بيانات خاصة إضافية عن المستخدم (باستثناء تلك الواردة في المعلومات الجانبية) استنادًا إلى جميع المعلومات خارج حدود الثقة (مثل النموذج المنشور) وأي معلومات جانبية عن المستخدم والموارد اللانهائية، وذلك وفقًا لاحتمالات الخصوصية. ويعني ذلك على وجه التحديد توفير حماية كاملة للخصوصية التفاضلية للمطوّر. إنّ أي معلومات يتم الإفصاح عنها للمطوّر (مثل مَعلمات النماذج المدربة أو الاستنتاجات المجمّعة) محمية بموجب سياسة الخصوصية التفاضلية.
مَعلمات النموذج على الجهاز
تتوافق دلالات الخصوصية السابقة مع الحالة التي تكون فيها بعض مَعلمات النموذج محلية على الجهاز (على سبيل المثال، نموذج يحتوي على إدراج مستخدم خاص بكل مستخدم ولا تتم مشاركته بين جميع المستخدمين). بالنسبة إلى هذه النماذج، تظل هذه المَعلمات المحلية ضمن حدود الثقة (لا يتم نشرها) ولا تتطلّب أي حماية، في حين يتم نشر مَعلمات النماذج المشترَكة (وتتم حمايتها من خلال الخصوصية التفاضلية). يُشار إلى ذلك أحيانًا باسم نموذج الخصوصية في لوحات الإعلانات 4.
الميزات المتاحة للجميع
في بعض التطبيقات، تكون بعض الميزات علنية. على سبيل المثال، في مشكلة اقتراح الأفلام، تكون ميزات الفيلم (مثل المخرج أو النوع أو سنة الإصدار) معلومات عامة ولا تتطلّب الحماية، في حين أنّ الميزات ذات الصلة بالمستخدم (مثل المعلومات الديمغرافية أو الأفلام التي شاهدها المستخدم) هي بيانات خاصة وتتطلّب الحماية.
يتم تنسيق المعلومات المتاحة للجميع على شكل مصفوفة ميزات عامة (في المثال السابق، ستتضمّن هذه المصفوفة صفًا واحدًا لكل فيلم وعمودًا واحدًا لكل ميزة من ميزات الفيلم)، وهي متاحة لجميع الأطراف. يمكن أن تستخدِم خوارزمية التدريب التي تراعي الخصوصية التفاضلية هذه المصفوفة بدون الحاجة إلى حمايتها، راجِع على سبيل المثال 5. وتخطّط منصة ODP لتطبيق هذه الخوارزميات.
نهج للخصوصية أثناء التنبؤ أو الاستنتاج
تستند الاستنتاجات إلى مَعلمات النموذج وسمات الإدخال. يتم تدريب مَعلمات النموذج باستخدام دلالات الخصوصية التفاضلية. في ما يلي مناقشة دور ميزات الإدخال.
في بعض حالات الاستخدام، عندما يكون لدى المطوّر إذن وصول كامل إلى الميزات المستخدَمة في الاستنتاج، لا يشكّل الاستنتاج أيّ قلق بشأن الخصوصية، وقد تكون نتيجة الاستنتاج مرئية للمطوّر.
في الحالات الأخرى (عندما تكون الميزات المستخدَمة في الاستنتاج خاصة ولا يمكن للمطوّر الوصول إليها)، قد يتم إخفاء نتيجة الاستنتاج عن المطوّر، على سبيل المثال، من خلال تشغيل الاستنتاج (وأي عملية لاحقة تستخدم نتيجة الاستنتاج) على الجهاز، في عملية مملوكة لنظام التشغيل ومنطقة عرض، مع تقييد الاتصال خارج هذه العملية.
إجراءات التدريب

نظرة عامة
يقدّم هذا القسم نظرة عامة على البنية وكيفية إجراء التدريب، راجِع الشكل 1. تُنفِّذ ميزة "الإعلانات على شبكة البحث" المكوّنات التالية:
موزّع موثوق به، مثل "الاختيار الموحّد" أو "التنزيل الموثوق به" أو "استرداد المعلومات الخاصة"، الذي يلعب دور مَعلمات نموذج البث من المفترض أنّه يمكن للموزّع الموثوق به إرسال مجموعة فرعية من المَعلمات إلى كل عميل، بدون الكشف عن المَعلمات التي نزّلها كل عميل. يسمح هذا "البث الجزئي" للنظام بتقليل المساحة التي يشغلها على جهاز المستخدم النهائي: بدلاً من إرسال نسخة كاملة من النموذج، يتم إرسال جزء من مَعلمات النموذج فقط إلى أي مستخدم معيّن.
مجمّع موثوق يجمع المعلومات من عملاء متعدّدين (مثل التدرجات أو الإحصاءات الأخرى)، ويضيف تشويشًا ويرسل النتيجة إلى الخادم ويفترض أنّ هناك قنوات موثوق بها بين العميل والمجمّع، وبين العميل والموزّع.
خوارزميات تدريب الذكاء الاصطناعي (AI) التي تعمل على هذه البنية الأساسية تتألف كل خوارزمية تدريب من عمليات حسابية مختلفة يتم تنفيذها على المكوّنات المختلفة (الخادم والعميل والمجمّع والموزّع).
تتألف جولة التدريب النموذجية من الخطوات التالية:
- يُرسِل الخادم مَعلمات التصميم إلى الموزّع الموثوق به.
- العمليات الحسابية للعميل
- يتلقّى كل جهاز عميل نموذج البث (أو المجموعة الفرعية من المَعلمات ذات الصلة بالمستخدم).
- يُجري كلّ عميل بعض العمليات الحسابية (مثل احتساب التدرجات أو إحصاءات كافية أخرى).
- يُرسِل كل عميل نتيجة الحساب إلى المجمّع الموثوق به.
- يجمع المجمّع الموثوق به الإحصاءات من العملاء ويجمّعها ويحميها باستخدام آليات الخصوصية التفاضلية المناسبة، ثم يرسل النتيجة إلى الخادم.
- العمليات الحسابية على الخادم
- يُجري الخادم (غير الموثوق به) عمليات حسابية على الإحصاءات المحمية بالخصوصية التفاضلية (على سبيل المثال، يستخدم الخادم التدرّجات المجمّعة المحمية بالخصوصية التفاضلية لتعديل مَعلمات النموذج).
النماذج المقسّمة وطريقة "التقليل بالتناوب مع الخصوصية التفاضلية"
تخطّط منصة ODP لتوفير خوارزميات تدريب مصمّمة للأغراض العامة تحافظ على الخصوصية التفاضلية ويمكن تطبيقها على أي بنية نموذج (مثل DP-SGD 6 7 8 أو DP-FTRL 9 10، بالإضافة إلى خوارزميات مخصّصة للنمذجة المقسّمة.
النماذج المقسّمة هي نماذج يمكن تقسيمها إلى نماذج فرعية (تُعرف باسم "المشفّرات" أو "الأبراج"). على سبيل المثال، لنفترض نموذجًا من النوع f(u(θu, xu), v(θv, xv))
، حيث يُشفِّر u()
سمات المستخدِم xu
(وتتضمّن المَعلمات θu
)، ويُشفِّر v()
سمات غير المستخدِم xv
(وتتضمّن المَعلمات θv
). ويتم دمج أسلوبَي التشفير باستخدام f()
لإنتاج التوقّعات النهائية للنموذج. على سبيل المثال، في نموذج اقتراحات الأفلام، xu
هي ميزات المستخدم وxv
هي ميزات الفيلم.
تتناسب هذه النماذج بشكل جيد مع بنية النظام الموزّع المذكورة أعلاه (لأنّها تفصل بين ميزات المستخدمين وغير المستخدمين).
سيتم تدريب النماذج المقسّمة باستخدام أسلوب "التقليل بالتناوب مع الخصوصية التفاضلية" (DPAM)، الذي يتناوب بين تحسين المَعلمات θu
(عندما تكون θv
ثابتة) والعكس. تبيّن أنّ خوارزميات إدارة الوصول المبرمَج للبيانات (DPAM) تحقّق فائدة أفضل في مجموعة متنوّعة من الإعدادات 4 11، لا سيما في حال توفّر ميزات عامة.
المراجع
- 1: Dwork et al. Calibrating Noise to Sensitivity in Private Data Analysis, TCC'06
- 2: مكتب التعداد السكاني الأمريكي Understanding Differential Privacy, 2020
- 3: Federated Learning with Formal Differential Privacy Guarantees, Google AI Blog Post, 2020 (التعلم الموحّد مع ضمانات الخصوصية التفاضلية الرسمية، منشور في مدوّنة الذكاء الاصطناعي من Google، 2020)
- 4: Jain et al. Differentially Private Model Personalization, NeurIPS'21
- 5: Krichene et al. Private Learning with Public Features, 2023
- 6: Song et al. Stochastic gradient descent with differentially private updates, GlobalSIP'13
- 7: Differentially Private Empirical Risk Minimization: Efficient Algorithms and Tight Error Bounds, FOCS'14
- 8: Abadi et al. Deep Learning with Differential Privacy, CCS '16
- 9: Smith et al. (Nearly) Optimal Algorithms for Private Online Learning in Full-information and Bandit Settings, NeurIPS'13
- 10: Kairouz et al., Practical and Private (Deep) Learning without Sampling or Shuffling, ICML'21
- 11: Chien et al. Private Alternating Least Squares, ICML'21