অন-ডিভাইস ব্যক্তিগতকরণের জন্য ডিফারেনশিয়াল প্রাইভেসি শব্দার্থ

এই নথিতে অন-ডিভাইস পার্সোনালাইজেশন (ODP) এর জন্য গোপনীয়তা পদ্ধতির সারসংক্ষেপ বিশেষভাবে ডিফারেনশিয়াল গোপনীয়তার প্রেক্ষাপটে তুলে ধরা হয়েছে। এই নথিতে ফোকাস রাখার জন্য অন্যান্য গোপনীয়তার প্রভাব এবং ডেটা মিনিমাইজেশনের মতো নকশার সিদ্ধান্তগুলি ইচ্ছাকৃতভাবে বাদ দেওয়া হয়েছে।

ডিফারেনশিয়াল গোপনীয়তা

ডিফারেনশিয়াল প্রাইভেসি ^১ হল পরিসংখ্যানগত তথ্য বিশ্লেষণ এবং মেশিন লার্নিং ^২ ^৩- এ গোপনীয়তা সুরক্ষার একটি ব্যাপকভাবে গৃহীত মান। অনানুষ্ঠানিকভাবে, এটি বলে যে একজন প্রতিপক্ষ একটি ডিফারেনশিয়াল প্রাইভেট অ্যালগরিদমের আউটপুট থেকে একজন ব্যবহারকারী সম্পর্কে প্রায় একই জিনিস শিখে, তার রেকর্ড অন্তর্নিহিত ডেটাসেটে প্রদর্শিত হোক বা না হোক। এর অর্থ ব্যক্তিদের জন্য শক্তিশালী সুরক্ষা: একজন ব্যক্তির সম্পর্কে যে কোনও অনুমান কেবলমাত্র ডেটাসেটের সামগ্রিক বৈশিষ্ট্যের কারণে হতে পারে যা সেই ব্যক্তির রেকর্ডের সাথে বা ছাড়াই ধারণ করবে।

মেশিন লার্নিংয়ের প্রেক্ষাপটে, অ্যালগরিদমের আউটপুটকে প্রশিক্ষিত মডেল প্যারামিটার হিসাবে ভাবা উচিত। প্রায় একই জিনিসটি গাণিতিকভাবে দুটি পরামিতি (ε, δ) দ্বারা পরিমাপ করা হয়, যেখানে ε সাধারণত একটি ছোট ধ্রুবক হিসাবে নির্বাচিত হয়, এবং δ≪1/(ব্যবহারকারীর সংখ্যা)।

গোপনীয়তা শব্দার্থবিদ্যা

ODP নকশাটি নিশ্চিত করার চেষ্টা করে যে প্রতিটি প্রশিক্ষণ পরিচালনা (ε,δ)-ব্যবহারকারী স্তরের পৃথকভাবে ব্যক্তিগত। এই শব্দার্থে পৌঁছানোর জন্য আমাদের পদ্ধতির রূপরেখা নীচে দেওয়া হয়েছে।

হুমকি মডেল

আমরা বিভিন্ন পক্ষকে সংজ্ঞায়িত করি এবং প্রতিটি সম্পর্কে অনুমানগুলি বর্ণনা করি:

ব্যবহারকারী: ডিভাইসটির মালিক এবং ডেভেলপার কর্তৃক প্রদত্ত পণ্য বা পরিষেবার ভোক্তা। তাদের ব্যক্তিগত তথ্য তাদের নিজস্ব।
বিশ্বস্ত কার্যকরকরণ পরিবেশ (TEE): TEE-এর মধ্যে ঘটে যাওয়া ডেটা এবং বিশ্বস্ত গণনা বিভিন্ন প্রযুক্তি ব্যবহার করে আক্রমণকারীদের থেকে সুরক্ষিত থাকে। অতএব, গণনা এবং ডেটার জন্য কোনও অতিরিক্ত সুরক্ষার প্রয়োজন হয় না। বিদ্যমান TEE-গুলি তার প্রকল্প প্রশাসকদের ভিতরের তথ্য অ্যাক্সেস করার অনুমতি দিতে পারে। আমরা প্রশাসকের কাছে অ্যাক্সেস অনুপলব্ধ এবং যাচাই করার জন্য কাস্টম ক্ষমতা প্রস্তাব করি।
আক্রমণকারী: ব্যবহারকারী সম্পর্কে পার্শ্ব তথ্য থাকতে পারে এবং TEE ব্যতীত যেকোনো তথ্যে (যেমন প্রকাশিত মডেল প্যারামিটার) সম্পূর্ণ অ্যাক্সেস থাকতে পারে।
ডেভেলপার: যিনি মডেলটি সংজ্ঞায়িত করেন এবং প্রশিক্ষণ দেন। তাকে অবিশ্বস্ত বলে মনে করা হয় (এবং আক্রমণকারীর সম্পূর্ণ ক্ষমতার অধিকারী)।

আমরা ডিফারেনশিয়াল গোপনীয়তার নিম্নলিখিত অর্থবোধকতা সহ ODP ডিজাইন করতে চাই:

বিশ্বাসের সীমানা: একজন ব্যবহারকারীর দৃষ্টিকোণ থেকে, বিশ্বাসের সীমানা হল ব্যবহারকারীর নিজস্ব ডিভাইস এবং TEE। এই বিশ্বাসের সীমানা ত্যাগকারী যেকোনো তথ্য ডিফারেনশিয়াল গোপনীয়তা দ্বারা সুরক্ষিত থাকা উচিত।
আক্রমণকারী: আক্রমণকারীর ক্ষেত্রে সম্পূর্ণ ডিফারেনশিয়াল গোপনীয়তা সুরক্ষা। বিশ্বাসের সীমানার বাইরের যেকোনো সত্তা আক্রমণকারী হতে পারে (এর মধ্যে ডেভেলপার এবং অন্যান্য ব্যবহারকারীরাও অন্তর্ভুক্ত, যারা সম্ভাব্যভাবে যোগসাজশ করতে পারে)। বিশ্বাসের সীমানার বাইরের সমস্ত তথ্য (উদাহরণস্বরূপ, প্রকাশিত মডেল), ব্যবহারকারী সম্পর্কে যেকোনো পার্শ্ব তথ্য এবং অসীম সম্পদ থাকলে, আক্রমণকারী গোপনীয়তা বাজেট দ্বারা প্রদত্ত সম্ভাবনার উপর নির্ভর করে ব্যবহারকারী সম্পর্কে অতিরিক্ত ব্যক্তিগত তথ্য (পার্শ্ব তথ্যে ইতিমধ্যে থাকা তথ্যের বাইরে) অনুমান করতে সক্ষম হয় না। বিশেষ করে, এটি বিকাশকারীর ক্ষেত্রে সম্পূর্ণ ডিফারেনশিয়াল গোপনীয়তা সুরক্ষা বোঝায়। বিকাশকারীর কাছে প্রকাশিত যেকোনো তথ্য (যেমন প্রশিক্ষিত মডেল প্যারামিটার বা সামগ্রিক অনুমান) পৃথক গোপনীয়তা-সুরক্ষিত।

স্থানীয় মডেল পরামিতি

পূর্ববর্তী গোপনীয়তা শব্দার্থবিদ্যা সেই ক্ষেত্রে প্রযোজ্য যেখানে কিছু মডেল প্যারামিটার ডিভাইসের স্থানীয় (উদাহরণস্বরূপ, এমন একটি মডেল যেখানে প্রতিটি ব্যবহারকারীর জন্য নির্দিষ্ট একটি ব্যবহারকারী এম্বেডিং থাকে এবং ব্যবহারকারীদের মধ্যে ভাগ করা হয় না)। এই ধরনের মডেলগুলির জন্য, এই স্থানীয় প্যারামিটারগুলি বিশ্বাসের সীমানার মধ্যে থাকে (এগুলি প্রকাশিত হয় না) এবং কোনও সুরক্ষার প্রয়োজন হয় না, যখন ভাগ করা মডেল প্যারামিটারগুলি প্রকাশিত হয় (এবং ডিফারেনশিয়াল গোপনীয়তা দ্বারা সুরক্ষিত)। এটিকে কখনও কখনও বিলবোর্ড গোপনীয়তা মডেল ⁴ হিসাবে উল্লেখ করা হয়।

পাবলিক ফিচার

কিছু অ্যাপ্লিকেশনে, কিছু বৈশিষ্ট্য সর্বজনীন। উদাহরণস্বরূপ, একটি চলচ্চিত্র সুপারিশ সমস্যায়, একটি চলচ্চিত্রের বৈশিষ্ট্য (পরিচালক, ধরণ, অথবা চলচ্চিত্রের মুক্তির বছর) জনসাধারণের তথ্য এবং সুরক্ষার প্রয়োজন হয় না, অন্যদিকে ব্যবহারকারীর সাথে সম্পর্কিত বৈশিষ্ট্যগুলি (যেমন জনসংখ্যাতাত্ত্বিক তথ্য বা ব্যবহারকারী কোন সিনেমা দেখেছেন) ব্যক্তিগত তথ্য এবং সুরক্ষার প্রয়োজন হয়।

পাবলিক তথ্য একটি পাবলিক ফিচার ম্যাট্রিক্স হিসেবে আনুষ্ঠানিকভাবে রূপায়িত হয় (পূর্ববর্তী উদাহরণে, এই ম্যাট্রিক্সে প্রতিটি সিনেমার জন্য একটি সারি এবং প্রতিটি সিনেমার জন্য একটি কলাম থাকবে), যা সকল পক্ষের জন্য উপলব্ধ। ডিফারেনশিয়ালি প্রাইভেট ট্রেনিং অ্যালগরিদম এই ম্যাট্রিক্সকে সুরক্ষিত করার প্রয়োজন ছাড়াই ব্যবহার করতে পারে, উদাহরণস্বরূপ ⁵ দেখুন। ODP প্ল্যাটফর্ম এই ধরনের অ্যালগরিদম বাস্তবায়নের পরিকল্পনা করছে।

ভবিষ্যদ্বাণী বা অনুমানের সময় গোপনীয়তার প্রতি একটি দৃষ্টিভঙ্গি

মডেল প্যারামিটার এবং ইনপুট বৈশিষ্ট্যের উপর ভিত্তি করে অনুমান করা হয়। মডেল প্যারামিটারগুলিকে ডিফারেনশিয়াল প্রাইভেসি সেমান্টিক্স দিয়ে প্রশিক্ষিত করা হয়। এখানে, ইনপুট বৈশিষ্ট্যের ভূমিকা নিয়ে আলোচনা করা হয়েছে।

কিছু ব্যবহারের ক্ষেত্রে, যখন ডেভেলপারের কাছে ইতিমধ্যেই ইনফারেন্সে ব্যবহৃত বৈশিষ্ট্যগুলিতে সম্পূর্ণ অ্যাক্সেস থাকে, তখন ইনফারেন্স থেকে কোনও গোপনীয়তার উদ্বেগ থাকে না এবং ইনফারেন্স ফলাফল ডেভেলপারের কাছে দৃশ্যমান হতে পারে।

অন্যান্য ক্ষেত্রে (যখন অনুমানে ব্যবহৃত বৈশিষ্ট্যগুলি ব্যক্তিগত থাকে এবং ডেভেলপারের কাছে অ্যাক্সেসযোগ্য না থাকে), তখন অনুমানের ফলাফলটি ডেভেলপারের কাছ থেকে লুকানো থাকতে পারে, উদাহরণস্বরূপ, অনুমান (এবং অনুমানের ফলাফল ব্যবহার করে এমন যেকোনো ডাউনস্ট্রিম প্রক্রিয়া) ডিভাইসে, একটি OS-মালিকানাধীন প্রক্রিয়া এবং প্রদর্শন এলাকায় চালানোর মাধ্যমে, সেই প্রক্রিয়ার বাইরে সীমিত যোগাযোগের মাধ্যমে।

প্রশিক্ষণ পদ্ধতি

প্রশিক্ষণ ব্যবস্থা উচ্চ-স্তরের স্থাপত্য — **চিত্র ১:** প্রশিক্ষণ ব্যবস্থার উচ্চ-স্তরের স্থাপত্য।

সংক্ষিপ্ত বিবরণ

এই অংশটি স্থাপত্যের একটি সারসংক্ষেপ এবং প্রশিক্ষণ কীভাবে এগিয়ে যায় তা চিত্র ১ দেখুন। ODP নিম্নলিখিত উপাদানগুলি বাস্তবায়ন করে:

একটি বিশ্বস্ত পরিবেশক, যেমন ফেডারেটেড সিলেক্ট, বিশ্বস্ত ডাউনলোড বা ব্যক্তিগত তথ্য পুনরুদ্ধার, যা সম্প্রচার মডেল প্যারামিটারের ভূমিকা পালন করে। ধারণা করা হয় যে বিশ্বস্ত পরিবেশক প্রতিটি ক্লায়েন্টকে প্যারামিটারের একটি উপসেট পাঠাতে পারে, কোন ক্লায়েন্ট কোন প্যারামিটার ডাউনলোড করেছে তা প্রকাশ না করেই। এই "আংশিক সম্প্রচার" সিস্টেমটিকে শেষ-ব্যবহারকারী ডিভাইসে পদচিহ্ন কমাতে দেয়: মডেলের সম্পূর্ণ কপি পাঠানোর পরিবর্তে, মডেল প্যারামিটারের একটি ভগ্নাংশই যেকোনো ব্যবহারকারীকে পাঠানো হয়।
একটি বিশ্বস্ত সমষ্টিকারী, যা একাধিক ক্লায়েন্ট (যেমন গ্রেডিয়েন্ট, বা অন্যান্য পরিসংখ্যান) থেকে তথ্য একত্রিত করে, শব্দ যোগ করে এবং ফলাফল সার্ভারে পাঠায়। ধারণা করা হচ্ছে যে ক্লায়েন্ট এবং সমষ্টিকারীর মধ্যে এবং ক্লায়েন্ট এবং পরিবেশকের মধ্যে বিশ্বস্ত চ্যানেল রয়েছে।
এই অবকাঠামোর উপর পরিচালিত ডিপি প্রশিক্ষণ অ্যালগরিদম। প্রতিটি প্রশিক্ষণ অ্যালগরিদমে বিভিন্ন উপাদানের (সার্ভার, ক্লায়েন্ট, অ্যাগ্রিগেটর, ডিস্ট্রিবিউটর) উপর চলমান বিভিন্ন গণনা থাকে।

একটি সাধারণ প্রশিক্ষণ পর্বে নিম্নলিখিত ধাপগুলি থাকে:

সার্ভারটি বিশ্বস্ত পরিবেশকের কাছে মডেল প্যারামিটার সম্প্রচার করে।
ক্লায়েন্ট গণনা
- প্রতিটি ক্লায়েন্ট ডিভাইস ব্রডকাস্ট মডেল (অথবা ব্যবহারকারীর সাথে প্রাসঙ্গিক প্যারামিটারের উপসেট) গ্রহণ করে।
- প্রতিটি ক্লায়েন্ট কিছু গণনা সম্পাদন করে (উদাহরণস্বরূপ কম্পিউটিং গ্রেডিয়েন্ট বা অন্যান্য পর্যাপ্ত পরিসংখ্যান)।
- প্রতিটি ক্লায়েন্ট গণনার ফলাফল বিশ্বস্ত সমষ্টির কাছে পাঠায়।
- বিশ্বস্ত অ্যাগ্রিগেটর ক্লায়েন্টদের কাছ থেকে পরিসংখ্যান সংগ্রহ করে, একত্রিত করে এবং যথাযথ ডিফারেনশিয়াল গোপনীয়তা ব্যবস্থা ব্যবহার করে সুরক্ষিত করে, তারপর ফলাফল সার্ভারে পাঠায়।
সার্ভার গণনা
(অবিশ্বস্ত) সার্ভারটি ডিফারেন্সিয়ালি প্রাইভেসি সুরক্ষিত পরিসংখ্যানের উপর গণনা চালায় (উদাহরণস্বরূপ, মডেল প্যারামিটার আপডেট করার জন্য ডিফারেন্সিয়ালি প্রাইভেট অ্যাগ্রিগেটেড গ্রেডিয়েন্ট ব্যবহার করে)।

ফ্যাক্টরাইজড মডেল এবং ডিফারেনশিয়ালি প্রাইভেট অল্টারনেটিং মিনিমাইজেশন

ODP প্ল্যাটফর্মটি সাধারণ-উদ্দেশ্যে পৃথকভাবে ব্যক্তিগত প্রশিক্ষণ অ্যালগরিদম প্রদানের পরিকল্পনা করেছে যা যেকোনো মডেল আর্কিটেকচারে (যেমন DP-SGD ⁶ ⁷ ⁸ বা DP-FTRL ⁹ ¹⁰ , সেইসাথে ফ্যাক্টরাইজড মডেলগুলিতে বিশেষায়িত অ্যালগরিদমগুলিতে) প্রয়োগ করা যেতে পারে।

ফ্যাক্টরাইজড মডেল হলো এমন মডেল যা সাব-মডেলে বিভক্ত করা যায় (যাদের এনকোডার বা টাওয়ার বলা হয়)। উদাহরণস্বরূপ, f(u(θu, xu), v(θv, xv)) ফর্মের একটি মডেল বিবেচনা করুন, যেখানে u() ব্যবহারকারীর বৈশিষ্ট্য xu এনকোড করে (এবং এর প্যারামিটার θu থাকে), এবং v() ব্যবহারকারী-বহির্ভূত বৈশিষ্ট্য xv এনকোড করে (এবং এর প্যারামিটার θv থাকে)। চূড়ান্ত মডেল ভবিষ্যদ্বাণী তৈরি করতে f() ব্যবহার করে দুটি এনকোডিং একত্রিত করা হয়। উদাহরণস্বরূপ, একটি মুভি সুপারিশ মডেলে, xu হল ব্যবহারকারীর বৈশিষ্ট্য এবং xv হল মুভি বৈশিষ্ট্য।

এই ধরনের মডেলগুলি উপরে উল্লিখিত বিতরণ সিস্টেম আর্কিটেকচারের সাথে বেশ উপযুক্ত (যেহেতু তারা ব্যবহারকারী এবং অ-ব্যবহারকারী বৈশিষ্ট্যগুলিকে পৃথক করে)।

ফ্যাক্টরাইজড মডেলগুলিকে ডিফারেনশিয়ালি প্রাইভেট অল্টারনেটিং মিনিমাইজেশন (DPAM) ব্যবহার করে প্রশিক্ষণ দেওয়া হবে, যা θu প্যারামিটারগুলিকে অপ্টিমাইজ করার মধ্যে বিকল্প করে (যখন θv স্থির থাকে) এবং তদ্বিপরীত। DPAM অ্যালগরিদমগুলি বিভিন্ন সেটিংস ⁴ ¹¹ তে, বিশেষ করে পাবলিক বৈশিষ্ট্যগুলির উপস্থিতিতে আরও ভাল উপযোগিতা অর্জন করতে দেখা গেছে।