এই নথিতে অন-ডিভাইস পার্সোনালাইজেশন (ODP) এর জন্য গোপনীয়তা পদ্ধতির সারসংক্ষেপ বিশেষভাবে ডিফারেনশিয়াল গোপনীয়তার প্রেক্ষাপটে তুলে ধরা হয়েছে। এই নথিতে ফোকাস রাখার জন্য অন্যান্য গোপনীয়তার প্রভাব এবং ডেটা মিনিমাইজেশনের মতো নকশার সিদ্ধান্তগুলি ইচ্ছাকৃতভাবে বাদ দেওয়া হয়েছে।
ডিফারেনশিয়াল গোপনীয়তা
ডিফারেনশিয়াল প্রাইভেসি ১ হল পরিসংখ্যানগত তথ্য বিশ্লেষণ এবং মেশিন লার্নিং ২ ৩- এ গোপনীয়তা সুরক্ষার একটি ব্যাপকভাবে গৃহীত মান। অনানুষ্ঠানিকভাবে, এটি বলে যে একজন প্রতিপক্ষ একটি ডিফারেনশিয়াল প্রাইভেট অ্যালগরিদমের আউটপুট থেকে একজন ব্যবহারকারী সম্পর্কে প্রায় একই জিনিস শিখে, তার রেকর্ড অন্তর্নিহিত ডেটাসেটে প্রদর্শিত হোক বা না হোক। এর অর্থ ব্যক্তিদের জন্য শক্তিশালী সুরক্ষা: একজন ব্যক্তির সম্পর্কে যে কোনও অনুমান কেবলমাত্র ডেটাসেটের সামগ্রিক বৈশিষ্ট্যের কারণে হতে পারে যা সেই ব্যক্তির রেকর্ডের সাথে বা ছাড়াই ধারণ করবে।
মেশিন লার্নিংয়ের প্রেক্ষাপটে, অ্যালগরিদমের আউটপুটকে প্রশিক্ষিত মডেল প্যারামিটার হিসাবে ভাবা উচিত। প্রায় একই জিনিসটি গাণিতিকভাবে দুটি পরামিতি (ε, δ) দ্বারা পরিমাপ করা হয়, যেখানে ε সাধারণত একটি ছোট ধ্রুবক হিসাবে নির্বাচিত হয়, এবং δ≪1/(ব্যবহারকারীর সংখ্যা)।
গোপনীয়তা শব্দার্থবিদ্যা
ODP নকশাটি নিশ্চিত করার চেষ্টা করে যে প্রতিটি প্রশিক্ষণ পরিচালনা (ε,δ)-ব্যবহারকারী স্তরের পৃথকভাবে ব্যক্তিগত। এই শব্দার্থে পৌঁছানোর জন্য আমাদের পদ্ধতির রূপরেখা নীচে দেওয়া হয়েছে।
হুমকি মডেল
আমরা বিভিন্ন পক্ষকে সংজ্ঞায়িত করি এবং প্রতিটি সম্পর্কে অনুমানগুলি বর্ণনা করি:
- ব্যবহারকারী: ডিভাইসটির মালিক এবং ডেভেলপার কর্তৃক প্রদত্ত পণ্য বা পরিষেবার ভোক্তা। তাদের ব্যক্তিগত তথ্য তাদের নিজস্ব।
- বিশ্বস্ত কার্যকরকরণ পরিবেশ (TEE): TEE-এর মধ্যে ঘটে যাওয়া ডেটা এবং বিশ্বস্ত গণনা বিভিন্ন প্রযুক্তি ব্যবহার করে আক্রমণকারীদের থেকে সুরক্ষিত থাকে। অতএব, গণনা এবং ডেটার জন্য কোনও অতিরিক্ত সুরক্ষার প্রয়োজন হয় না। বিদ্যমান TEE-গুলি তার প্রকল্প প্রশাসকদের ভিতরের তথ্য অ্যাক্সেস করার অনুমতি দিতে পারে। আমরা প্রশাসকের কাছে অ্যাক্সেস অনুপলব্ধ এবং যাচাই করার জন্য কাস্টম ক্ষমতা প্রস্তাব করি।
- আক্রমণকারী: ব্যবহারকারী সম্পর্কে পার্শ্ব তথ্য থাকতে পারে এবং TEE ব্যতীত যেকোনো তথ্যে (যেমন প্রকাশিত মডেল প্যারামিটার) সম্পূর্ণ অ্যাক্সেস থাকতে পারে।
- ডেভেলপার: যিনি মডেলটি সংজ্ঞায়িত করেন এবং প্রশিক্ষণ দেন। তাকে অবিশ্বস্ত বলে মনে করা হয় (এবং আক্রমণকারীর সম্পূর্ণ ক্ষমতার অধিকারী)।
আমরা ডিফারেনশিয়াল গোপনীয়তার নিম্নলিখিত অর্থবোধকতা সহ ODP ডিজাইন করতে চাই:
- বিশ্বাসের সীমানা: একজন ব্যবহারকারীর দৃষ্টিকোণ থেকে, বিশ্বাসের সীমানা হল ব্যবহারকারীর নিজস্ব ডিভাইস এবং TEE। এই বিশ্বাসের সীমানা ত্যাগকারী যেকোনো তথ্য ডিফারেনশিয়াল গোপনীয়তা দ্বারা সুরক্ষিত থাকা উচিত।
- আক্রমণকারী: আক্রমণকারীর ক্ষেত্রে সম্পূর্ণ ডিফারেনশিয়াল গোপনীয়তা সুরক্ষা। বিশ্বাসের সীমানার বাইরের যেকোনো সত্তা আক্রমণকারী হতে পারে (এর মধ্যে ডেভেলপার এবং অন্যান্য ব্যবহারকারীরাও অন্তর্ভুক্ত, যারা সম্ভাব্যভাবে যোগসাজশ করতে পারে)। বিশ্বাসের সীমানার বাইরের সমস্ত তথ্য (উদাহরণস্বরূপ, প্রকাশিত মডেল), ব্যবহারকারী সম্পর্কে যেকোনো পার্শ্ব তথ্য এবং অসীম সম্পদ থাকলে, আক্রমণকারী গোপনীয়তা বাজেট দ্বারা প্রদত্ত সম্ভাবনার উপর নির্ভর করে ব্যবহারকারী সম্পর্কে অতিরিক্ত ব্যক্তিগত তথ্য (পার্শ্ব তথ্যে ইতিমধ্যে থাকা তথ্যের বাইরে) অনুমান করতে সক্ষম হয় না। বিশেষ করে, এটি বিকাশকারীর ক্ষেত্রে সম্পূর্ণ ডিফারেনশিয়াল গোপনীয়তা সুরক্ষা বোঝায়। বিকাশকারীর কাছে প্রকাশিত যেকোনো তথ্য (যেমন প্রশিক্ষিত মডেল প্যারামিটার বা সামগ্রিক অনুমান) পৃথক গোপনীয়তা-সুরক্ষিত।
স্থানীয় মডেল পরামিতি
পূর্ববর্তী গোপনীয়তা শব্দার্থবিদ্যা সেই ক্ষেত্রে প্রযোজ্য যেখানে কিছু মডেল প্যারামিটার ডিভাইসের স্থানীয় (উদাহরণস্বরূপ, এমন একটি মডেল যেখানে প্রতিটি ব্যবহারকারীর জন্য নির্দিষ্ট একটি ব্যবহারকারী এম্বেডিং থাকে এবং ব্যবহারকারীদের মধ্যে ভাগ করা হয় না)। এই ধরনের মডেলগুলির জন্য, এই স্থানীয় প্যারামিটারগুলি বিশ্বাসের সীমানার মধ্যে থাকে (এগুলি প্রকাশিত হয় না) এবং কোনও সুরক্ষার প্রয়োজন হয় না, যখন ভাগ করা মডেল প্যারামিটারগুলি প্রকাশিত হয় (এবং ডিফারেনশিয়াল গোপনীয়তা দ্বারা সুরক্ষিত)। এটিকে কখনও কখনও বিলবোর্ড গোপনীয়তা মডেল 4 হিসাবে উল্লেখ করা হয়।
পাবলিক ফিচার
কিছু অ্যাপ্লিকেশনে, কিছু বৈশিষ্ট্য সর্বজনীন। উদাহরণস্বরূপ, একটি চলচ্চিত্র সুপারিশ সমস্যায়, একটি চলচ্চিত্রের বৈশিষ্ট্য (পরিচালক, ধরণ, অথবা চলচ্চিত্রের মুক্তির বছর) জনসাধারণের তথ্য এবং সুরক্ষার প্রয়োজন হয় না, অন্যদিকে ব্যবহারকারীর সাথে সম্পর্কিত বৈশিষ্ট্যগুলি (যেমন জনসংখ্যাতাত্ত্বিক তথ্য বা ব্যবহারকারী কোন সিনেমা দেখেছেন) ব্যক্তিগত তথ্য এবং সুরক্ষার প্রয়োজন হয়।
পাবলিক তথ্য একটি পাবলিক ফিচার ম্যাট্রিক্স হিসেবে আনুষ্ঠানিকভাবে রূপায়িত হয় (পূর্ববর্তী উদাহরণে, এই ম্যাট্রিক্সে প্রতিটি সিনেমার জন্য একটি সারি এবং প্রতিটি সিনেমার জন্য একটি কলাম থাকবে), যা সকল পক্ষের জন্য উপলব্ধ। ডিফারেনশিয়ালি প্রাইভেট ট্রেনিং অ্যালগরিদম এই ম্যাট্রিক্সকে সুরক্ষিত করার প্রয়োজন ছাড়াই ব্যবহার করতে পারে, উদাহরণস্বরূপ 5 দেখুন। ODP প্ল্যাটফর্ম এই ধরনের অ্যালগরিদম বাস্তবায়নের পরিকল্পনা করছে।
ভবিষ্যদ্বাণী বা অনুমানের সময় গোপনীয়তার প্রতি একটি দৃষ্টিভঙ্গি
মডেল প্যারামিটার এবং ইনপুট বৈশিষ্ট্যের উপর ভিত্তি করে অনুমান করা হয়। মডেল প্যারামিটারগুলিকে ডিফারেনশিয়াল প্রাইভেসি সেমান্টিক্স দিয়ে প্রশিক্ষিত করা হয়। এখানে, ইনপুট বৈশিষ্ট্যের ভূমিকা নিয়ে আলোচনা করা হয়েছে।
কিছু ব্যবহারের ক্ষেত্রে, যখন ডেভেলপারের কাছে ইতিমধ্যেই ইনফারেন্সে ব্যবহৃত বৈশিষ্ট্যগুলিতে সম্পূর্ণ অ্যাক্সেস থাকে, তখন ইনফারেন্স থেকে কোনও গোপনীয়তার উদ্বেগ থাকে না এবং ইনফারেন্স ফলাফল ডেভেলপারের কাছে দৃশ্যমান হতে পারে।
অন্যান্য ক্ষেত্রে (যখন অনুমানে ব্যবহৃত বৈশিষ্ট্যগুলি ব্যক্তিগত থাকে এবং ডেভেলপারের কাছে অ্যাক্সেসযোগ্য না থাকে), তখন অনুমানের ফলাফলটি ডেভেলপারের কাছ থেকে লুকানো থাকতে পারে, উদাহরণস্বরূপ, অনুমান (এবং অনুমানের ফলাফল ব্যবহার করে এমন যেকোনো ডাউনস্ট্রিম প্রক্রিয়া) ডিভাইসে, একটি OS-মালিকানাধীন প্রক্রিয়া এবং প্রদর্শন এলাকায় চালানোর মাধ্যমে, সেই প্রক্রিয়ার বাইরে সীমিত যোগাযোগের মাধ্যমে।
প্রশিক্ষণ পদ্ধতি

সংক্ষিপ্ত বিবরণ
এই অংশটি স্থাপত্যের একটি সারসংক্ষেপ এবং প্রশিক্ষণ কীভাবে এগিয়ে যায় তা চিত্র ১ দেখুন। ODP নিম্নলিখিত উপাদানগুলি বাস্তবায়ন করে:
একটি বিশ্বস্ত পরিবেশক, যেমন ফেডারেটেড সিলেক্ট, বিশ্বস্ত ডাউনলোড বা ব্যক্তিগত তথ্য পুনরুদ্ধার, যা সম্প্রচার মডেল প্যারামিটারের ভূমিকা পালন করে। ধারণা করা হয় যে বিশ্বস্ত পরিবেশক প্রতিটি ক্লায়েন্টকে প্যারামিটারের একটি উপসেট পাঠাতে পারে, কোন ক্লায়েন্ট কোন প্যারামিটার ডাউনলোড করেছে তা প্রকাশ না করেই। এই "আংশিক সম্প্রচার" সিস্টেমটিকে শেষ-ব্যবহারকারী ডিভাইসে পদচিহ্ন কমাতে দেয়: মডেলের সম্পূর্ণ কপি পাঠানোর পরিবর্তে, মডেল প্যারামিটারের একটি ভগ্নাংশই যেকোনো ব্যবহারকারীকে পাঠানো হয়।
একটি বিশ্বস্ত সমষ্টিকারী, যা একাধিক ক্লায়েন্ট (যেমন গ্রেডিয়েন্ট, বা অন্যান্য পরিসংখ্যান) থেকে তথ্য একত্রিত করে, শব্দ যোগ করে এবং ফলাফল সার্ভারে পাঠায়। ধারণা করা হচ্ছে যে ক্লায়েন্ট এবং সমষ্টিকারীর মধ্যে এবং ক্লায়েন্ট এবং পরিবেশকের মধ্যে বিশ্বস্ত চ্যানেল রয়েছে।
এই অবকাঠামোর উপর পরিচালিত ডিপি প্রশিক্ষণ অ্যালগরিদম। প্রতিটি প্রশিক্ষণ অ্যালগরিদমে বিভিন্ন উপাদানের (সার্ভার, ক্লায়েন্ট, অ্যাগ্রিগেটর, ডিস্ট্রিবিউটর) উপর চলমান বিভিন্ন গণনা থাকে।
একটি সাধারণ প্রশিক্ষণ পর্বে নিম্নলিখিত ধাপগুলি থাকে:
- সার্ভারটি বিশ্বস্ত পরিবেশকের কাছে মডেল প্যারামিটার সম্প্রচার করে।
- ক্লায়েন্ট গণনা
- প্রতিটি ক্লায়েন্ট ডিভাইস ব্রডকাস্ট মডেল (অথবা ব্যবহারকারীর সাথে প্রাসঙ্গিক প্যারামিটারের উপসেট) গ্রহণ করে।
- প্রতিটি ক্লায়েন্ট কিছু গণনা সম্পাদন করে (উদাহরণস্বরূপ কম্পিউটিং গ্রেডিয়েন্ট বা অন্যান্য পর্যাপ্ত পরিসংখ্যান)।
- প্রতিটি ক্লায়েন্ট গণনার ফলাফল বিশ্বস্ত সমষ্টির কাছে পাঠায়।
- বিশ্বস্ত অ্যাগ্রিগেটর ক্লায়েন্টদের কাছ থেকে পরিসংখ্যান সংগ্রহ করে, একত্রিত করে এবং যথাযথ ডিফারেনশিয়াল গোপনীয়তা ব্যবস্থা ব্যবহার করে সুরক্ষিত করে, তারপর ফলাফল সার্ভারে পাঠায়।
- সার্ভার গণনা
- (অবিশ্বস্ত) সার্ভারটি ডিফারেন্সিয়ালি প্রাইভেসি সুরক্ষিত পরিসংখ্যানের উপর গণনা চালায় (উদাহরণস্বরূপ, মডেল প্যারামিটার আপডেট করার জন্য ডিফারেন্সিয়ালি প্রাইভেট অ্যাগ্রিগেটেড গ্রেডিয়েন্ট ব্যবহার করে)।
ফ্যাক্টরাইজড মডেল এবং ডিফারেনশিয়ালি প্রাইভেট অল্টারনেটিং মিনিমাইজেশন
ODP প্ল্যাটফর্মটি সাধারণ-উদ্দেশ্যে পৃথকভাবে ব্যক্তিগত প্রশিক্ষণ অ্যালগরিদম প্রদানের পরিকল্পনা করেছে যা যেকোনো মডেল আর্কিটেকচারে (যেমন DP-SGD 6 7 8 বা DP-FTRL 9 10 , সেইসাথে ফ্যাক্টরাইজড মডেলগুলিতে বিশেষায়িত অ্যালগরিদমগুলিতে) প্রয়োগ করা যেতে পারে।
ফ্যাক্টরাইজড মডেল হলো এমন মডেল যা সাব-মডেলে বিভক্ত করা যায় (যাদের এনকোডার বা টাওয়ার বলা হয়)। উদাহরণস্বরূপ, f(u(θu, xu), v(θv, xv)) ফর্মের একটি মডেল বিবেচনা করুন, যেখানে u() ব্যবহারকারীর বৈশিষ্ট্য xu এনকোড করে (এবং এর প্যারামিটার θu থাকে), এবং v() ব্যবহারকারী-বহির্ভূত বৈশিষ্ট্য xv এনকোড করে (এবং এর প্যারামিটার θv থাকে)। চূড়ান্ত মডেল ভবিষ্যদ্বাণী তৈরি করতে f() ব্যবহার করে দুটি এনকোডিং একত্রিত করা হয়। উদাহরণস্বরূপ, একটি মুভি সুপারিশ মডেলে, xu হল ব্যবহারকারীর বৈশিষ্ট্য এবং xv হল মুভি বৈশিষ্ট্য।
এই ধরনের মডেলগুলি উপরে উল্লিখিত বিতরণ সিস্টেম আর্কিটেকচারের সাথে বেশ উপযুক্ত (যেহেতু তারা ব্যবহারকারী এবং অ-ব্যবহারকারী বৈশিষ্ট্যগুলিকে পৃথক করে)।
ফ্যাক্টরাইজড মডেলগুলিকে ডিফারেনশিয়ালি প্রাইভেট অল্টারনেটিং মিনিমাইজেশন (DPAM) ব্যবহার করে প্রশিক্ষণ দেওয়া হবে, যা θu প্যারামিটারগুলিকে অপ্টিমাইজ করার মধ্যে বিকল্প করে (যখন θv স্থির থাকে) এবং তদ্বিপরীত। DPAM অ্যালগরিদমগুলি বিভিন্ন সেটিংস 4 11 তে, বিশেষ করে পাবলিক বৈশিষ্ট্যগুলির উপস্থিতিতে আরও ভাল উপযোগিতা অর্জন করতে দেখা গেছে।
তথ্যসূত্র
- ১ : ডিওয়ার্ক এবং অন্যান্য। ব্যক্তিগত তথ্য বিশ্লেষণে সংবেদনশীলতার সাথে শব্দের ক্যালিব্রেশন, TCC'06
- ২ : মার্কিন আদমশুমারি ব্যুরো। ডিফারেনশিয়াল প্রাইভেসি বোঝা, ২০২০
- ৩ : আনুষ্ঠানিক ডিফারেনশিয়াল গোপনীয়তা গ্যারান্টি সহ ফেডারেটেড লার্নিং, গুগল এআই ব্লগ পোস্ট, ২০২০
- ৪ : জৈন এবং অন্যান্যরা ডিফারেনশিয়ালি প্রাইভেট মডেল পার্সোনালাইজেশন, নিউরআইপিএস'২১
- 5 : ক্রিচেন এট আল। পাবলিক ফিচার সহ প্রাইভেট লার্নিং, 2023
- ৬ : সং এবং অন্যান্য। পৃথকভাবে ব্যক্তিগত আপডেট সহ স্টোকাস্টিক গ্রেডিয়েন্ট ডিসেন্ট, গ্লোবালএসআইপি'১৩
- ৭ : ডিফারেনশিয়ালি প্রাইভেট এম্পিরিক্যাল রিস্ক মিনিমাইজেশন: দক্ষ অ্যালগরিদম এবং টাইট ত্রুটি সীমানা, FOCS'14
- ৮ : আবাদী এবং অন্যান্যরা ডিফারেনশিয়াল প্রাইভেসি সহ গভীর শিক্ষা, সিসিএস '১৬
- ৯ : স্মিথ এবং অন্যান্যরা (প্রায়) পূর্ণ-তথ্য এবং ব্যান্ডিট সেটিংসে ব্যক্তিগত অনলাইন শিক্ষার জন্য সর্বোত্তম অ্যালগরিদম, নিউরআইপিএস'১৩
- ১০ : কাইরুজ প্রমুখ, নমুনা বা পরিবর্তন ছাড়াই ব্যবহারিক এবং ব্যক্তিগত (গভীর) শিক্ষা, ICML'21
- ১১ : চিয়েন এবং অন্যান্য প্রাইভেট অল্টারনেটিং লিস্ট স্কোয়ার, ICML'21