इस दस्तावेज़ में, डिवाइस पर उपयोगकर्ता के हिसाब से कॉन्टेंट दिखाने की सुविधा (ODP) के लिए निजता के तरीके के बारे में खास जानकारी दी गई है. इसमें, खास तौर पर अलग-अलग उपयोगकर्ताओं के लिए अलग-अलग निजता बनाए रखने के तरीके के बारे में बताया गया है. इस दस्तावेज़ को खास तौर पर डेटा को कम करने जैसे निजता के अन्य पहलुओं और डिज़ाइन से जुड़े फ़ैसलों से दूर रखा गया है.
डिफ़रेंशियल प्राइवसी
अलग-अलग उपयोगकर्ताओं की निजता बनाए रखने की सुविधा 1, आंकड़ों के डेटा के विश्लेषण और मशीन लर्निंग 2 3 में, निजता की सुरक्षा के लिए व्यापक रूप से अपनाया जाने वाला स्टैंडर्ड है. आम तौर पर, इसका मतलब है कि डिफ़रेंशियल प्राइवसी एल्गोरिदम के आउटपुट से, किसी उपयोगकर्ता के बारे में लगभग वही जानकारी मिलती है, भले ही उसका रिकॉर्ड डेटासेट में दिखे या नहीं. इसका मतलब है कि लोगों की निजता को बेहतर तरीके से सुरक्षित किया जा सकता है: किसी व्यक्ति के बारे में कोई भी अनुमान सिर्फ़ डेटासेट की एग्रीगेट प्रॉपर्टी की वजह से लगाया जा सकता है. यह अनुमान, उस व्यक्ति के रिकॉर्ड के साथ या उसके बिना भी लगाया जा सकता है.
मशीन लर्निंग के संदर्भ में, एल्गोरिदम के आउटपुट को ट्रेन किए गए मॉडल पैरामीटर के तौर पर देखा जाना चाहिए. लगभग एक जैसी चीज़ वाक्यांश को गणितीय तौर पर दो पैरामीटर (ε, δ) से मेज़र किया जाता है. आम तौर पर, ε को एक छोटा कॉन्स्टेंट चुना जाता है और δ≪1/(उपयोगकर्ताओं की संख्या).
निजता से जुड़े सिमेंटिक्स
ओडीपी के डिज़ाइन का मकसद यह पक्का करना है कि हर ट्रेनिंग रन, उपयोगकर्ता के लेवल पर (ε,δ)-डीफ़रेंशियल प्राइवसी के हिसाब से हो. इस सेमैंटिक तक पहुंचने के लिए, हमने जो तरीका अपनाया है उसके बारे में यहां बताया गया है.
खतरे का मॉडल
हम अलग-अलग पक्षों की परिभाषा देते हैं और हर पक्ष के बारे में मान्यताएं बताते हैं:
- उपयोगकर्ता: वह व्यक्ति जिसके पास डिवाइस का मालिकाना हक है और जो डेवलपर के प्रॉडक्ट या सेवाओं का इस्तेमाल करता है. उनकी निजी जानकारी सिर्फ़ उन्हें ही दिखती है.
- ट्रस्टेड एक्ज़ीक्यूशन एनवायरमेंट (टीईई): टीईई में होने वाली प्रोसेसिंग और डेटा को कई तरह की टेक्नोलॉजी का इस्तेमाल करके, हमलावरों से सुरक्षित रखा जाता है. इसलिए, कैलकुलेशन और डेटा को किसी और सुरक्षा की ज़रूरत नहीं होती. मौजूदा टीईई, अपने प्रोजेक्ट एडमिन को उसमें मौजूद जानकारी को ऐक्सेस करने की अनुमति दे सकते हैं. हम कस्टम सुविधाओं का सुझाव देते हैं, ताकि एडमिन के लिए ऐक्सेस को बंद किया जा सके और यह पुष्टि की जा सके कि ऐक्सेस उपलब्ध नहीं है.
- हमलावर: उसके पास उपयोगकर्ता के बारे में साइड जानकारी हो सकती है और उसके पास टीईई से बाहर निकलने वाली किसी भी जानकारी का पूरा ऐक्सेस होता है. जैसे, पब्लिश किए गए मॉडल पैरामीटर.
- डेवलपर: वह व्यक्ति जो मॉडल को तय करता है और उसे ट्रेनिंग देता है. इसे भरोसेमंद नहीं माना जाता है. साथ ही, इसमें हमलावर की पूरी क्षमता होती है.
हम ओडीपी को डिफ़रेंशियल प्राइवसी के इन सेमेटिक्स के साथ डिज़ाइन करना चाहते हैं:
- ट्रस्ट बाउंड्री: किसी उपयोगकर्ता के नज़रिए से, ट्रस्ट बाउंड्री में उपयोगकर्ता का डिवाइस और टीईई शामिल होता है. इस ट्रस्ट बाउंड्री से बाहर की जानकारी को डिफ़रेंशियल प्राइवसी की मदद से सुरक्षित किया जाना चाहिए.
- हमलावर: हमलावर के लिए, डीपी का पूरा फ़ायदा. भरोसे की सीमा के बाहर की कोई भी इकाई, हमलावर हो सकती है. इसमें डेवलपर और दूसरे उपयोगकर्ता शामिल हैं, जो सभी संभावित रूप से मिलकर काम कर सकते हैं. हमलावर, ट्रस्ट बाउंड्री (उदाहरण के लिए, पब्लिश किया गया मॉडल) के बाहर की सभी जानकारी, उपयोगकर्ता के बारे में किसी भी तरह की साइड जानकारी, और अनलिमिटेड संसाधनों के बावजूद, उपयोगकर्ता के बारे में अतिरिक्त निजी डेटा का अनुमान नहीं लगा सकता. यह अनुमान, निजता बजट के हिसाब से लगाया जाता है. खास तौर पर, इसका मतलब है कि डेवलपर के लिए डिफ़रेंशियल प्राइवसी की पूरी सुरक्षा उपलब्ध है. डेवलपर को दी गई किसी भी जानकारी (जैसे, ट्रेन किए गए मॉडल के पैरामीटर या एग्रीगेट किए गए अनुमान) को अलग-अलग निजता के हिसाब से सुरक्षित किया जाता है.
लोकल मॉडल के पैरामीटर
निजता से जुड़े पिछले सेमेटिक्स में, ऐसे मामले शामिल होते हैं जहां मॉडल के कुछ पैरामीटर डिवाइस पर ही मौजूद होते हैं. उदाहरण के लिए, ऐसा मॉडल जिसमें हर उपयोगकर्ता के लिए खास तौर पर उपयोगकर्ता एम्बेडिंग शामिल होती है और उसे सभी उपयोगकर्ताओं के साथ शेयर नहीं किया जाता. ऐसे मॉडल के लिए, ये लोकल पैरामीटर ट्रस्ट बाउंड्री में ही रहते हैं (इन्हें पब्लिश नहीं किया जाता) और इन्हें सुरक्षित रखने की ज़रूरत नहीं होती. वहीं, शेयर किए गए मॉडल पैरामीटर पब्लिश किए जाते हैं और इन्हें अलग-अलग निजता से सुरक्षित रखा जाता है. इसे कभी-कभी बिलबोर्ड निजता मॉडल 4 भी कहा जाता है.
सार्वजनिक सुविधाएं
कुछ ऐप्लिकेशन में, कुछ सुविधाएं सार्वजनिक होती हैं. उदाहरण के लिए, फ़िल्म के सुझाव से जुड़ी समस्या में, फ़िल्म की सुविधाएं (फ़िल्म का डायरेक्टर, शैली या रिलीज़ का साल) सार्वजनिक जानकारी होती हैं और उन्हें सुरक्षित रखने की ज़रूरत नहीं होती. वहीं, उपयोगकर्ता से जुड़ी सुविधाएं (जैसे, डेमोग्राफ़िक जानकारी या उपयोगकर्ता ने कौनसी फ़िल्में देखी हैं) निजी डेटा होती हैं और उन्हें सुरक्षित रखने की ज़रूरत होती है.
सार्वजनिक जानकारी को सार्वजनिक सुविधाओं के मैट्रिक के तौर पर तैयार किया जाता है. पिछले उदाहरण में, इस मैट्रिक में हर फ़िल्म के लिए एक लाइन और हर फ़िल्म की सुविधा के लिए एक कॉलम होगा. यह मैट्रिक सभी पक्षों के लिए उपलब्ध होती है. डिफ़रेंशियल प्राइवसी के साथ ट्रेनिंग करने वाला एल्गोरिदम, इस मैट्रिक का इस्तेमाल कर सकता है. इसके लिए, उसे सुरक्षित रखने की ज़रूरत नहीं होती. उदाहरण के लिए, 5 देखें. ओडीपी प्लैटफ़ॉर्म पर ऐसे एल्गोरिदम लागू करने की योजना है.
अनुमान या अनुमान लगाने के दौरान निजता बनाए रखने का तरीका
अनुमान, मॉडल पैरामीटर और इनपुट फ़ीचर के आधार पर लगाए जाते हैं. मॉडल के पैरामीटर को, डिफ़रेंशियल निजता से जुड़े सेमेटिक्स के साथ ट्रेन किया जाता है. यहां इनपुट सुविधाओं की भूमिका के बारे में बताया गया है.
कुछ इस्तेमाल के उदाहरणों में, जब डेवलपर के पास पहले से ही अनुमान लगाने के लिए इस्तेमाल की जाने वाली सुविधाओं का पूरा ऐक्सेस होता है, तो अनुमान लगाने से निजता से जुड़ी कोई समस्या नहीं होती. साथ ही, डेवलपर को अनुमान का नतीजा दिख सकता है.
अन्य मामलों में, जब अनुमान लगाने के लिए इस्तेमाल की जाने वाली सुविधाएं निजी होती हैं और डेवलपर के पास उनका ऐक्सेस नहीं होता, तो अनुमान का नतीजा डेवलपर से छिपाया जा सकता है. उदाहरण के लिए, अनुमान लगाने की प्रोसेस (और अनुमान के नतीजे का इस्तेमाल करने वाली कोई भी डाउनस्ट्रीम प्रोसेस) को डिवाइस पर, ओएस के मालिकाना हक वाली प्रोसेस और डिसप्ले एरिया में चलाकर, उस प्रोसेस से बाहर कम्यूनिकेशन को प्रतिबंधित किया जा सकता है.
ट्रेनिंग का तरीका

खास जानकारी
इस सेक्शन में, आर्किटेक्चर के बारे में खास जानकारी दी गई है. साथ ही, यह भी बताया गया है कि ट्रेनिंग कैसे होती है. इसके लिए, पहला इलस्ट्रेशन देखें. ODP में ये कॉम्पोनेंट लागू होते हैं:
भरोसेमंद डिस्ट्रिब्यूटर, जैसे कि फ़ेडरेटेड चुनें, भरोसेमंद डाउनलोड या निजी जानकारी वापस पाना. यह ब्रॉडकास्टिंग मॉडल पैरामीटर की भूमिका निभाता है. यह माना जाता है कि भरोसेमंद डिस्ट्रिब्यूटर, हर क्लाइंट को पैरामीटर का सबसेट भेज सकता है. ऐसा करने के लिए, यह ज़रूरी नहीं है कि वह यह बताए कि किस क्लाइंट ने कौनसे पैरामीटर डाउनलोड किए हैं. इस "कुछ हिस्से को ब्रॉडकास्ट करने" की सुविधा की मदद से, सिस्टम को असली उपयोगकर्ता के डिवाइस पर फ़ुटप्रिंट को कम करने में मदद मिलती है: मॉडल की पूरी कॉपी भेजने के बजाय, किसी भी उपयोगकर्ता को मॉडल के पैरामीटर का सिर्फ़ एक हिस्सा भेजा जाता है.
भरोसेमंद एग्रीगेटर, जो एक से ज़्यादा क्लाइंट (जैसे, ग्रेडिएंट या अन्य आंकड़े) से जानकारी इकट्ठा करता है, नॉइज़ जोड़ता है, और नतीजे को सर्वर पर भेजता है. यह माना जाता है कि क्लाइंट और एग्रीगेटर के बीच, और क्लाइंट और डिस्ट्रिब्यूटर के बीच भरोसेमंद चैनल मौजूद हैं.
इस इंफ़्रास्ट्रक्चर पर चलने वाले डीपी ट्रेनिंग एल्गोरिदम. हर ट्रेनिंग एल्गोरिदम में अलग-अलग कॉम्पोनेंट (सर्वर, क्लाइंट, एग्रीगेटर, डिस्ट्रिब्यूटर) पर चलने वाले अलग-अलग कैलकुलेशन होते हैं.
ट्रेनिंग के एक सामान्य राउंड में ये चरण शामिल होते हैं:
- सर्वर, भरोसेमंद डिस्ट्रिब्यूटर को मॉडल पैरामीटर ब्रॉडकास्ट करता है.
- क्लाइंट कैलकुलेशन
- हर क्लाइंट डिवाइस को ब्रॉडकास्ट मॉडल या उपयोगकर्ता के लिए काम के पैरामीटर का सबसेट मिलता है.
- हर क्लाइंट कुछ हिसाब लगाता है. उदाहरण के लिए, ग्रेडिएंट या अन्य ज़रूरी आंकड़े कैलकुलेट करना.
- हर क्लाइंट, कैलकुलेशन का नतीजा भरोसेमंद एग्रीगेटर को भेजता है.
- भरोसेमंद एग्रीगेटर, क्लाइंट से आंकड़े इकट्ठा करता है, उन्हें इकट्ठा करता है, और डिफ़रेंशियल प्राइवसी के सही तरीकों का इस्तेमाल करके उन्हें सुरक्षित रखता है. इसके बाद, वह नतीजे को सर्वर पर भेजता है.
- सर्वर पर कैलकुलेशन
- (भरोसेमंद नहीं) सर्वर, अलग-अलग निजता से सुरक्षित आंकड़ों पर कैलकुलेशन करता है. उदाहरण के लिए, मॉडल पैरामीटर को अपडेट करने के लिए, अलग-अलग निजता से सुरक्षित एग्रीगेट किए गए ग्रेडिएंट का इस्तेमाल करता है.
फ़ैक्टराइज़्ड मॉडल और डिफ़रेंशियल प्राइवेट ऐल्टरनेटिंग माइनिमाइज़ेशन
ODP प्लैटफ़ॉर्म, अलग-अलग निजता के लिए ट्रेनिंग एल्गोरिदम उपलब्ध कराने की योजना बना रहा है. इन एल्गोरिदम को किसी भी मॉडल आर्किटेक्चर पर लागू किया जा सकता है. जैसे, DP-SGD 6 7 8 या DP-FTRL 9 10. साथ ही, फ़ैक्टर किए गए मॉडल के लिए खास तौर पर बनाए गए एल्गोरिदम भी उपलब्ध कराए जाएंगे.
फ़ैक्टराइज़ किए गए मॉडल, ऐसे मॉडल होते हैं जिन्हें सब-मॉडल (जिन्हें एन्कोडर या टावर कहा जाता है) में बांटा जा सकता है. उदाहरण के लिए, f(u(θu, xu), v(θv, xv))
फ़ॉर्म के मॉडल पर विचार करें, जहां u()
उपयोगकर्ता की सुविधाओं xu
को कोड में बदलता है (और इसमें पैरामीटर θu
होते हैं) और v()
, उपयोगकर्ता से जुड़ी सुविधाओं xv
को कोड में बदलता है (और इसमें पैरामीटर θv
होते हैं). मॉडल का आखिरी अनुमान देने के लिए, f()
का इस्तेमाल करके दोनों कोड को जोड़ा जाता है. उदाहरण के लिए, फ़िल्म के सुझाव देने वाले मॉडल में, xu
उपयोगकर्ता की सुविधाएं हैं और xv
फ़िल्म की सुविधाएं हैं.
ऐसे मॉडल, ऊपर बताए गए डिस्ट्रिब्यूटेड सिस्टम आर्किटेक्चर के लिए सबसे सही हैं. ऐसा इसलिए है, क्योंकि वे उपयोगकर्ता और गैर-उपयोगकर्ता सुविधाओं को अलग करते हैं.
फ़ैक्टराइज़ किए गए मॉडल को, अलग-अलग निजता वाले वैरिएंट के बीच वैरिएशन को कम करने (डीपीएम) का इस्तेमाल करके ट्रेन किया जाएगा. यह θu
पैरामीटर को ऑप्टिमाइज़ करने के दौरान θv
पैरामीटर को फ़िक्स रखता है और इसके उलट भी करता है. DPAM एल्गोरिदम, अलग-अलग सेटिंग 4 11 में बेहतर परफ़ॉर्म करते हैं. खास तौर पर, सार्वजनिक सुविधाओं की मौजूदगी में.
रेफ़रंस
- 1: Dwork et al. Calibrating Noise to Sensitivity in Private Data Analysis, TCC'06
- 2: अमेरिका का सेंसस ब्यूरो. डिफ़रेंशियल प्राइवसी को समझना, 2020
- तीसरा: Google के एआई ब्लॉग पोस्ट में, 2020 में फ़ेडरेटेड लर्निंग के बारे में बताया गया है. इसमें, निजता की अलग-अलग सुरक्षा देने की आधिकारिक गारंटी के बारे में बताया गया है
- 4: जैन वगैरह. निजता बनाए रखते हुए मॉडल को उपयोगकर्ताओं के हिसाब से बनाने की सुविधा, NeurIPS'21
- 5: Krichene et al. Private Learning with Public Features, 2023
- 6: Song et al. Stochastic gradient descent with differentially private updates, GlobalSIP'13
- 7: अलग-अलग निजता वाले एम्प्रिकल रिस्क को कम करना: बेहतर एल्गोरिदम और गड़बड़ी की तय सीमा, FOCS'14
- 8: Abadi et al. Deep Learning with Differential Privacy, CCS '16
- 9: Smith et al. (Nearly) Optimal Algorithms for Private Online Learning in Full-information and Bandit Settings, NeurIPS'13
- 10: Kairouz et al., सैंपलिंग या शफ़ल किए बिना, प्रैक्टिकल और निजी (डीप) लर्निंग, ICML'21
- 11: Chien et al. Private Alternating Least Squares, ICML'21