डिवाइस पर पर्सनलाइज़ेशन के लिए, डिफ़रेंशियल प्राइवसी से जुड़े शब्द

इस दस्तावेज़ में, डिवाइस पर उपयोगकर्ता के हिसाब से अनुभव को बेहतर बनाने (ओडीपी) के लिए, निजता से जुड़े तरीके के बारे में खास जानकारी दी गई है. यह जानकारी, खास तौर पर डिफ़रेंशियल प्राइवसी के संदर्भ में दी गई है. इस दस्तावेज़ को फ़ोकस में रखने के लिए, निजता से जुड़े अन्य पहलुओं और डिज़ाइन से जुड़े फ़ैसलों, जैसे कि डेटा को कम से कम इस्तेमाल करने के सिद्धांत को जान-बूझकर शामिल नहीं किया गया है.

डिफ़रेंशियल प्राइवसी

डिफ़रेंशियल प्राइवसी 1, निजता की सुरक्षा का एक ऐसा स्टैंडर्ड है जिसे सांख्यिकीय डेटा विश्लेषण और मशीन लर्निंग 2 3 में बड़े पैमाने पर अपनाया जाता है. आसान शब्दों में कहें, तो इसका मतलब है कि डिफ़रेंशियल प्राइवसी वाले एल्गोरिदम के आउटपुट से, किसी विरोधी को उपयोगकर्ता के बारे में लगभग वही जानकारी मिलती है. भले ही, उपयोगकर्ता का रिकॉर्ड डेटासेट में मौजूद हो या न हो. इसका मतलब है कि लोगों के लिए, निजता की सुरक्षा के कड़े इंतज़ाम किए गए हैं: किसी व्यक्ति के बारे में कोई भी अनुमान सिर्फ़ डेटासेट की एग्रीगेट प्रॉपर्टी की वजह से लगाया जा सकता है. यह अनुमान, उस व्यक्ति के रिकॉर्ड के साथ या उसके बिना भी लगाया जा सकता है.

मशीन लर्निंग के संदर्भ में, एल्गोरिदम के आउटपुट को ट्रेन किए गए मॉडल पैरामीटर के तौर पर देखा जाना चाहिए. लगभग एक जैसी चीज़ वाक्यांश को गणित के हिसाब से दो पैरामीटर (ε, δ) से तय किया जाता है. इसमें ε को आम तौर पर एक छोटा कॉन्स्टेंट चुना जाता है और δ≪1/(उपयोगकर्ताओं की संख्या) होती है.

निजता से जुड़े सिमेंटिक

ODP का डिज़ाइन यह पक्का करता है कि ट्रेनिंग का हर रन, (ε,δ)-उपयोगकर्ता लेवल पर अलग-अलग निजता वाला हो. इस सिमैंटिक तक पहुंचने के लिए, हम यहां दिए गए तरीके का इस्तेमाल करते हैं.

खतरे का मॉडल

हम अलग-अलग पक्षों के बारे में बताते हैं. साथ ही, हर पक्ष के बारे में अनुमानित जानकारी देते हैं:

  • उपयोगकर्ता: वह व्यक्ति जिसके पास डिवाइस का मालिकाना हक है. साथ ही, वह डेवलपर के प्रॉडक्ट या सेवाओं का इस्तेमाल करता है. उनकी निजी जानकारी, सिर्फ़ उन्हें दिखती है.
  • ट्रस्टेड एक्ज़ीक्यूशन एनवायरमेंट (टीईई): टीईई में मौजूद डेटा और भरोसेमंद कंप्यूटेशन को, कई तरह की टेक्नोलॉजी का इस्तेमाल करके हमलावरों से सुरक्षित रखा जाता है. इसलिए, डेटा और कंप्यूटेशन को किसी अतिरिक्त सुरक्षा की ज़रूरत नहीं होती. मौजूदा टीईई, अपने प्रोजेक्ट एडमिन को अंदर मौजूद जानकारी ऐक्सेस करने की अनुमति दे सकते हैं. हम कस्टम सुविधाएं उपलब्ध कराते हैं, ताकि यह पुष्टि की जा सके कि एडमिन के पास ऐक्सेस नहीं है.
  • हमलावर: इसके पास उपयोगकर्ता के बारे में कुछ जानकारी हो सकती है और इसके पास टीईई से बाहर जाने वाली किसी भी जानकारी का पूरा ऐक्सेस होता है. जैसे, पब्लिश किए गए मॉडल पैरामीटर.
  • डेवलपर: मॉडल को तय करने और उसे ट्रेन करने वाला व्यक्ति. इसे भरोसेमंद नहीं माना जाता. साथ ही, इस पर हमलावर का पूरा कंट्रोल होता है.

हम डिफ़रेंशियल प्राइवसी के इन सिमैंटिक के साथ ओडीपी को डिज़ाइन करना चाहते हैं:

  • भरोसेमंद सीमा: किसी उपयोगकर्ता के हिसाब से, भरोसेमंद सीमा में उपयोगकर्ता का डिवाइस और टीईई शामिल होता है. इस ट्रस्ट बाउंड्री से बाहर जाने वाली किसी भी जानकारी को डिफ़रेंशियल प्राइवसी से सुरक्षित रखा जाना चाहिए.
  • हमलावर: हमलावर के हिसाब से, डिफ़रेंशियल प्राइवसी की पूरी सुरक्षा. भरोसेमंद सीमा से बाहर की कोई भी इकाई हमलावर हो सकती है. इसमें डेवलपर और अन्य उपयोगकर्ता शामिल हैं. ये सभी मिलकर हमला कर सकते हैं. हमलावर को भरोसेमंद सीमा के बाहर की सभी जानकारी (जैसे, पब्लिश किया गया मॉडल), उपयोगकर्ता के बारे में कोई भी अन्य जानकारी, और असीमित संसाधन दिए जाते हैं. इसके बावजूद, वह उपयोगकर्ता के बारे में अतिरिक्त निजी डेटा का अनुमान नहीं लगा पाता. यह डेटा, अन्य जानकारी में मौजूद डेटा के अलावा होता है. ऐसा निजता बजट के हिसाब से तय की गई संभावनाओं के आधार पर होता है. खास तौर पर, इसका मतलब है कि डेवलपर के लिए, डिफ़रेंशियल प्राइवसी की पूरी सुरक्षा उपलब्ध है. डेवलपर को रिलीज़ की गई किसी भी जानकारी (जैसे, ट्रेन किए गए मॉडल के पैरामीटर या एग्रीगेट अनुमान) को डिफ़रेंशियल प्राइवसी से सुरक्षित रखा जाता है.

लोकल मॉडल के पैरामीटर

निजता से जुड़े पिछले सिमैंटिक में, ऐसे मामले को शामिल किया गया है जहां मॉडल के कुछ पैरामीटर डिवाइस के हिसाब से अलग-अलग होते हैं. उदाहरण के लिए, ऐसा मॉडल जिसमें हर उपयोगकर्ता के लिए खास तौर पर तैयार की गई एम्बेडिंग होती है और जिसे उपयोगकर्ताओं के साथ शेयर नहीं किया जाता है. ऐसे मॉडल के लिए, ये लोकल पैरामीटर भरोसेमंद सीमा के अंदर ही रहते हैं. इन्हें पब्लिश नहीं किया जाता और इनकी सुरक्षा करने की ज़रूरत नहीं होती. वहीं, शेयर किए गए मॉडल पैरामीटर पब्लिश किए जाते हैं और इन्हें डिफ़रेंशियल प्राइवसी से सुरक्षित रखा जाता है. इसे कभी-कभी बिलबोर्ड प्राइवसी मॉडल 4 भी कहा जाता है.

सार्वजनिक सुविधाएं

कुछ ऐप्लिकेशन में, कुछ सुविधाएं सार्वजनिक होती हैं. उदाहरण के लिए, फ़िल्म का सुझाव देने की समस्या में, फ़िल्म की सुविधाओं (फ़िल्म के निर्देशक, शैली या रिलीज़ होने का साल) की जानकारी सार्वजनिक होती है और इसे सुरक्षित रखने की ज़रूरत नहीं होती. वहीं, उपयोगकर्ता से जुड़ी सुविधाओं (जैसे, डेमोग्राफ़िक जानकारी या उपयोगकर्ता ने कौनसी फ़िल्में देखीं) का डेटा निजी होता है और इसे सुरक्षित रखने की ज़रूरत होती है.

सार्वजनिक जानकारी को सार्वजनिक फ़ीचर मैट्रिक्स के तौर पर फ़ॉर्मलाइज़ किया जाता है. ऊपर दिए गए उदाहरण में, इस मैट्रिक्स में हर फ़िल्म के लिए एक लाइन और हर फ़िल्म की सुविधा के लिए एक कॉलम होगा. यह मैट्रिक्स सभी पक्षों के लिए उपलब्ध होता है. डिफ़रेंशियल प्राइवसी वाले ट्रेनिंग एल्गोरिदम, इस मैट्रिक्स का इस्तेमाल कर सकते हैं. इसके लिए, उन्हें इसे सुरक्षित रखने की ज़रूरत नहीं होती. उदाहरण के लिए, 5 देखें. ओडीपी प्लैटफ़ॉर्म, इस तरह के एल्गोरिदम लागू करने का प्लान बना रहा है.

अनुमान या अनुमान लगाने के दौरान निजता बनाए रखने का तरीका

अनुमान, मॉडल के पैरामीटर और इनपुट सुविधाओं के आधार पर लगाए जाते हैं. मॉडल के पैरामीटर को डिफ़रेंशियल प्राइवसी सिमैंटिक के साथ ट्रेन किया जाता है. यहां इनपुट सुविधाओं की भूमिका के बारे में बताया गया है.

कुछ मामलों में, जब डेवलपर के पास अनुमान लगाने के लिए इस्तेमाल की गई सुविधाओं का पूरा ऐक्सेस होता है, तो अनुमान लगाने से जुड़ी निजता की कोई समस्या नहीं होती. साथ ही, अनुमान लगाने के नतीजे डेवलपर को दिख सकते हैं.

अन्य मामलों में, अनुमान लगाने के लिए इस्तेमाल की जाने वाली सुविधाएं निजी होती हैं और डेवलपर के लिए उपलब्ध नहीं होती हैं. ऐसे में, अनुमान के नतीजे को डेवलपर से छिपाया जा सकता है. उदाहरण के लिए, अनुमान लगाने की प्रोसेस और अनुमान के नतीजे का इस्तेमाल करने वाली किसी भी डाउनस्ट्रीम प्रोसेस को डिवाइस पर चलाया जा सकता है. साथ ही, इसे ओएस के मालिकाना हक वाली प्रोसेस और डिसप्ले एरिया में चलाया जा सकता है. इसके अलावा, इस प्रोसेस के बाहर कम्यूनिकेशन को सीमित किया जा सकता है.

ट्रेनिंग का तरीका

ट्रेनिंग सिस्टम का हाई-लेवल आर्किटेक्चर
पहली इमेज: ट्रेनिंग सिस्टम का हाई-लेवल आर्किटेक्चर.

खास जानकारी

इस सेक्शन में, आर्किटेक्चर और ट्रेनिंग के तरीके के बारे में खास जानकारी दी गई है. इसके लिए, इमेज 1 देखें. ODP इन कॉम्पोनेंट को लागू करता है:

  • भरोसेमंद डिस्ट्रिब्यूटर, जैसे कि फ़ेडरेटेड सिलेक्ट, भरोसेमंद डाउनलोड या निजी जानकारी को वापस पाना. यह ब्रॉडकास्टिंग मॉडल पैरामीटर की भूमिका निभाता है. यह माना जाता है कि भरोसेमंद डिस्ट्रिब्यूटर, हर क्लाइंट को पैरामीटर का सबसेट भेज सकता है. हालांकि, वह यह ज़ाहिर नहीं करेगा कि किस क्लाइंट ने कौनसे पैरामीटर डाउनलोड किए हैं. "आंशिक ब्रॉडकास्ट" की मदद से, सिस्टम को एंड-यूज़र डिवाइस पर फ़ुटप्रिंट को कम करने की अनुमति मिलती है: मॉडल की पूरी कॉपी भेजने के बजाय, मॉडल के पैरामीटर का सिर्फ़ एक हिस्सा किसी भी उपयोगकर्ता को भेजा जाता है.

  • एक भरोसेमंद एग्रीगेटर, जो कई क्लाइंट से जानकारी इकट्ठा करता है.जैसे, ग्रेडिएंट या अन्य आंकड़े. इसके बाद, वह इसमें नॉइज़ जोड़ता है और नतीजे को सर्वर पर भेजता है. यह माना जाता है कि क्लाइंट और एग्रीगेटर के बीच, साथ ही क्लाइंट और डिस्ट्रिब्यूटर के बीच भरोसेमंद चैनल मौजूद हैं.

  • इस इंफ़्रास्ट्रक्चर पर काम करने वाले डीपी ट्रेनिंग एल्गोरिदम. हर ट्रेनिंग एल्गोरिदम में अलग-अलग तरह की कंप्यूटिंग होती है. ये अलग-अलग कॉम्पोनेंट (सर्वर, क्लाइंट, एग्रीगेटर, डिस्ट्रिब्यूटर) पर चलती हैं.

ट्रेनिंग के सामान्य राउंड में ये चरण शामिल होते हैं:

  1. सर्वर, मॉडल के पैरामीटर को भरोसेमंद डिस्ट्रिब्यूटर के साथ ब्रॉडकास्ट करता है.
  2. क्लाइंट कंप्यूटेशन
    • हर क्लाइंट डिवाइस को ब्रॉडकास्ट मॉडल मिलता है. इसके अलावा, उपयोगकर्ता के लिए काम के पैरामीटर का सबसेट भी मिलता है.
    • हर क्लाइंट कुछ हिसाब-किताब करता है. उदाहरण के लिए, ग्रेडिएंट या अन्य ज़रूरी आंकड़े का हिसाब लगाना.
    • हर क्लाइंट, कंप्यूटेशन का नतीजा भरोसेमंद एग्रीगेटर को भेजता है.
    • भरोसेमंद एग्रीगेटर, क्लाइंट से मिले आंकड़ों को इकट्ठा करता है, उन्हें एग्रीगेट करता है, और डिफ़रेंशियल प्राइवसी के सही तरीकों का इस्तेमाल करके उनकी सुरक्षा करता है. इसके बाद, वह सर्वर को नतीजे भेजता है.
  3. सर्वर पर कंप्यूटेशन
  4. (अनट्रस्टेड) सर्वर, डिफ़रेंशियल प्राइवसी से सुरक्षित आंकड़ों पर कंप्यूटेशन करता है. उदाहरण के लिए, मॉडल के पैरामीटर को अपडेट करने के लिए, डिफ़रेंशियल प्राइवसी से सुरक्षित एग्रीगेटेड ग्रेडिएंट का इस्तेमाल करता है.

फ़ैक्टराइज़्ड मॉडल और डिफ़रेंशियली प्राइवेट अल्टरनेटिंग मिनिमाइज़ेशन

ODP प्लैटफ़ॉर्म, सामान्य मकसद के लिए अलग-अलग तरह के ट्रेनिंग एल्गोरिदम उपलब्ध कराने का प्लान बना रहा है. इन्हें किसी भी मॉडल आर्किटेक्चर पर लागू किया जा सकता है. जैसे, DP-SGD 6 7 8 या DP-FTRL 9 10. साथ ही, फ़ैक्टराइज़्ड मॉडल के लिए खास एल्गोरिदम भी उपलब्ध कराए जाएंगे.

फ़ैक्टराइज़्ड मॉडल ऐसे मॉडल होते हैं जिन्हें सब-मॉडल (जिन्हें एनकोडर या टावर कहा जाता है) में बांटा जा सकता है. उदाहरण के लिए, f(u(θu, xu), v(θv, xv)) फ़ॉर्मैट वाले मॉडल पर विचार करें. इसमें u(), उपयोगकर्ता की सुविधाओं xu को कोड में बदलता है और इसमें पैरामीटर θu होते हैं. वहीं, v(), उपयोगकर्ता से जुड़ी सुविधाओं xv को कोड में बदलता है और इसमें पैरामीटर θv होते हैं. दोनों एन्कोडिंग को f() का इस्तेमाल करके जोड़ा जाता है, ताकि मॉडल की फ़ाइनल भविष्यवाणी की जा सके. उदाहरण के लिए, फ़िल्म के सुझाव देने वाले मॉडल में, xu उपयोगकर्ता की विशेषताएं हैं और xv फ़िल्म की विशेषताएं हैं.

इस तरह के मॉडल, ऊपर बताए गए डिस्ट्रिब्यूटेड सिस्टम आर्किटेक्चर के लिए सबसे सही होते हैं. ऐसा इसलिए, क्योंकि ये मॉडल उपयोगकर्ता और गैर-उपयोगकर्ता की सुविधाओं को अलग-अलग करते हैं.

फ़ैक्टराइज़्ड मॉडल को, डिफ़रेंशियल प्राइवेट अल्टरनेटिंग मिनिमाइज़ेशन (डीपीएएम) का इस्तेमाल करके ट्रेन किया जाएगा. यह θu पैरामीटर को ऑप्टिमाइज़ करने के लिए (जबकि θv को फ़िक्स किया जाता है) और इसके उलट काम करता है. DPAM एल्गोरिदम, कई तरह की सेटिंग में बेहतर परफ़ॉर्म करते हैं 4 11. खास तौर पर, सार्वजनिक सुविधाओं के मामले में.

रेफ़रंस