เอกสารนี้สรุปแนวทางด้านความเป็นส่วนตัวสำหรับการปรับเปลี่ยนในอุปกรณ์ (ODP) โดยเฉพาะในบริบทของความเป็นส่วนตัวแบบที่แตกต่างกัน ผลกระทบด้านความเป็นส่วนตัวและการตัดสินใจด้านการออกแบบอื่นๆ เช่น การลดปริมาณข้อมูล ไม่ได้กล่าวถึงในเอกสารนี้เพื่อให้มุ่งเน้นที่ประเด็นหลัก
Differential Privacy
ความเป็นส่วนตัวแบบที่แตกต่างกัน 1 เป็นมาตรฐานการคุ้มครองความเป็นส่วนตัวที่นำมาใช้ในวงกว้างในการวิเคราะห์ข้อมูลทางสถิติและแมชชีนเลิร์นนิง 2 3 พูดง่ายๆ ก็คือ หมายความว่าผู้ไม่หวังดีจะรู้ข้อมูลเกือบทั้งหมดเกี่ยวกับผู้ใช้จากเอาต์พุตของอัลกอริทึม Differential Privacy ไม่ว่าเรคคอร์ดของผู้ใช้จะปรากฏในชุดข้อมูลพื้นฐานหรือไม่ก็ตาม ซึ่งหมายความว่าบุคคลได้รับการคุ้มครองอย่างเข้มงวด โดยการอนุมานใดๆ เกี่ยวกับบุคคลหนึ่งๆ จะต้องมาจากพร็อพเพอร์ตี้แบบรวมของชุดข้อมูลที่มีอยู่แล้วไม่ว่าจะมีหรือไม่มีเรคคอร์ดของบุคคลนั้น
ในบริบทของแมชชีนเลิร์นนิง คุณควรคิดว่าผลลัพธ์ของอัลกอริทึมคือพารามิเตอร์ของโมเดลที่ผ่านการฝึก วลีเกือบจะเหมือนกันได้รับการวัดทางคณิตศาสตร์ด้วยพารามิเตอร์ 2 รายการ (ε, δ) โดยปกติแล้ว ε จะเลือกให้เป็นค่าคงที่ขนาดเล็ก และ δ≪1/(จํานวนผู้ใช้)
ความหมายของความเป็นส่วนตัว
การออกแบบ ODP มุ่งมั่นที่จะทำให้การฝึกแต่ละครั้งมีระดับการแยกแยะข้อมูลระดับผู้ใช้ (ε,δ) ข้อมูลต่อไปนี้แสดงแนวทางในการเข้าถึงความหมายนี้
รูปแบบภัยคุกคาม
เรากําหนดบุคคลต่างๆ และระบุข้อสมมติเกี่ยวกับแต่ละฝ่าย ดังนี้
- ผู้ใช้: ผู้ใช้ที่เป็นเจ้าของอุปกรณ์ และเป็นผู้บริโภคผลิตภัณฑ์หรือบริการที่นักพัฒนาแอปนำเสนอ ข้อมูลส่วนตัวของผู้ใช้จะพร้อมใช้งานสำหรับผู้ใช้เองโดยสมบูรณ์
- สภาพแวดล้อมการดำเนินการที่เชื่อถือได้ (TEE): ข้อมูลและการคํานวณที่เชื่อถือได้ซึ่งเกิดขึ้นภายใน TEE ได้รับการปกป้องจากผู้โจมตีโดยใช้เทคโนโลยีที่หลากหลาย ดังนั้น การคำนวณและข้อมูลจึงไม่จำเป็นต้องได้รับการคุ้มครองเพิ่มเติม TEE ที่มีอยู่อาจอนุญาตให้ผู้ดูแลระบบโปรเจ็กต์เข้าถึงข้อมูลภายในได้ เราขอแนะนําความสามารถที่กําหนดเองเพื่อไม่อนุญาตและตรวจสอบว่าผู้ดูแลระบบไม่มีสิทธิ์เข้าถึง
- ผู้โจมตี: อาจมีข้อมูลเกี่ยวกับผู้ใช้ และมีสิทธิ์เข้าถึงข้อมูลทั้งหมดที่ออกจาก TEE (เช่น พารามิเตอร์โมเดลที่เผยแพร่)
- นักพัฒนาซอฟต์แวร์: ผู้กำหนดและฝึกโมเดล ถือว่าไม่เชื่อถือได้ (และมีความสามารถทั้งหมดของผู้โจมตี)
เรามุ่งออกแบบ ODP ด้วยความหมายของ Differential Privacy ดังต่อไปนี้
- ขอบเขตความน่าเชื่อถือ: จากมุมมองของผู้ใช้รายหนึ่ง ขอบเขตความน่าเชื่อถือประกอบด้วยอุปกรณ์ของผู้ใช้เองพร้อมกับ TEE ข้อมูลที่ออกจากขอบเขตความไว้วางใจนี้ควรได้รับการคุ้มครองโดย Differential Privacy
- ผู้โจมตี: การปกป้องความเป็นส่วนตัวแบบที่แตกต่างกันอย่างเต็มรูปแบบที่เกี่ยวข้องกับผู้โจมตี บุคคลที่อยู่นอกขอบเขตความน่าเชื่อถืออาจเป็นผู้โจมตีได้ (ซึ่งรวมถึงนักพัฒนาแอปและผู้ใช้รายอื่นๆ ที่อาจสมรู้ร่วมคิดกัน) เมื่อได้รับข้อมูลทั้งหมดที่อยู่นอกขอบเขตความน่าเชื่อถือ (เช่น โมเดลที่เผยแพร่) ข้อมูลข้างเคียงเกี่ยวกับผู้ใช้ และทรัพยากรที่ไม่มีขีดจำกัด ผู้โจมตีจะไม่สามารถอนุมานข้อมูลส่วนตัวเพิ่มเติมเกี่ยวกับผู้ใช้ (นอกเหนือจากข้อมูลที่อยู่ในข้อมูลข้างเคียง) ได้ตามอัตราความเป็นไปได้ที่ได้จากงบประมาณความเป็นส่วนตัว โดยเฉพาะอย่างยิ่ง การดำเนินการนี้เป็นการปกป้อง Differential Privacy อย่างเต็มรูปแบบสำหรับนักพัฒนาแอป ข้อมูลใดๆ ที่เผยแพร่แก่นักพัฒนาแอป (เช่น พารามิเตอร์ของโมเดลที่ผ่านการฝึกอบรมหรือการอนุมานแบบรวม) ได้รับการคุ้มครองความเป็นส่วนตัวแบบที่แตกต่างกัน
พารามิเตอร์โมเดลในเครื่อง
ความหมายของความเป็นส่วนตัวก่อนหน้านี้รองรับกรณีที่พารามิเตอร์บางรายการของโมเดลอยู่ในอุปกรณ์ (เช่น โมเดลที่มีการฝังผู้ใช้เฉพาะสำหรับผู้ใช้แต่ละรายและไม่แชร์กับผู้ใช้รายอื่น) สําหรับโมเดลดังกล่าว พารามิเตอร์ในเครื่องเหล่านี้จะยังคงอยู่ในขอบเขตความน่าเชื่อถือ (ไม่มีการเผยแพร่) และไม่จำเป็นต้องได้รับการคุ้มครอง ขณะที่พารามิเตอร์โมเดลที่แชร์จะได้รับการเผยแพร่ (และได้รับการคุ้มครองโดย Differential Privacy) บางครั้งเราเรียกรูปแบบนี้ว่ารูปแบบความเป็นส่วนตัวของโฆษณาบิลบอร์ด 4
ฟีเจอร์สาธารณะ
ในบางแอปพลิเคชัน ฟีเจอร์บางอย่างเป็นแบบสาธารณะ ตัวอย่างเช่น ในงานปัญหาการแนะนำภาพยนตร์ ฟีเจอร์ของภาพยนตร์ (ผู้กำกับ ประเภท หรือปีที่เผยแพร่) เป็นข้อมูลสาธารณะและไม่จำเป็นต้องได้รับการคุ้มครอง ขณะที่ฟีเจอร์ที่เกี่ยวข้องกับผู้ใช้ (เช่น ข้อมูลประชากรหรือภาพยนตร์ที่ผู้ใช้ดู) เป็นข้อมูลส่วนตัวและจำเป็นต้องได้รับการคุ้มครอง
ข้อมูลสาธารณะจะจัดเป็นตารางฟีเจอร์สาธารณะอย่างเป็นทางการ (ในตัวอย่างก่อนหน้านี้ ตารางนี้จะมี 1 แถวต่อภาพยนตร์ 1 เรื่องและ 1 คอลัมน์ต่อฟีเจอร์ภาพยนตร์ 1 รายการ) ซึ่งพร้อมให้บริการแก่ทุกฝ่าย อัลกอริทึมการฝึกแบบ Differential Privacy สามารถใช้เมทริกซ์นี้ได้โดยไม่ต้องปกป้อง โปรดดูตัวอย่างที่ 5 แพลตฟอร์ม ODP วางแผนที่จะใช้อัลกอริทึมดังกล่าว
แนวทางด้านความเป็นส่วนตัวในระหว่างการคาดการณ์หรือการอนุมาน
การอนุมานจะอิงตามพารามิเตอร์ของโมเดลและฟีเจอร์อินพุต พารามิเตอร์ของโมเดลได้รับการฝึกด้วยความหมายของ Differential Privacy บทนี้จะกล่าวถึงบทบาทของฟีเจอร์อินพุต
ในบางกรณี เมื่อนักพัฒนาแอปมีสิทธิ์เข้าถึงฟีเจอร์ที่ใช้ในการอนุมานอย่างเต็มรูปแบบอยู่แล้ว ก็จะไม่มีข้อกังวลด้านความเป็นส่วนตัวจากการอนุมาน และนักพัฒนาแอปอาจเห็นผลลัพธ์ของการอนุมาน
ในกรณีอื่นๆ (เมื่อฟีเจอร์ที่ใช้ในการอนุมานเป็นข้อมูลส่วนตัวและนักพัฒนาแอปเข้าถึงไม่ได้) ระบบอาจซ่อนผลการอนุมานจากนักพัฒนาแอป เช่น โดยการทำให้การอนุมาน (และกระบวนการดาวน์สตรีมที่ใช้ผลการอนุมาน) ทำงานในอุปกรณ์ ในกระบวนการและพื้นที่แสดงผลที่เป็นของ OS โดยมีการสื่อสารที่จำกัดไว้นอกกระบวนการนั้น
กระบวนการฝึกอบรม

ภาพรวม
ส่วนนี้จะแสดงภาพรวมของสถาปัตยกรรมและวิธีการฝึก โปรดดูรูปที่ 1 ODP ใช้คอมโพเนนต์ต่อไปนี้
ผู้จัดจําหน่ายที่เชื่อถือได้ เช่น การเลือกแบบรวมศูนย์ การดาวน์โหลดที่เชื่อถือได้ หรือการดึงข้อมูลส่วนตัว ซึ่งทำหน้าที่เป็นพารามิเตอร์รูปแบบการออกอากาศ ระบบจะถือว่าผู้จัดจําหน่ายที่เชื่อถือได้สามารถส่งชุดย่อยของพารามิเตอร์ไปยังแต่ละไคลเอ็นต์ได้ โดยไม่เปิดเผยว่าไคลเอ็นต์ใดดาวน์โหลดพารามิเตอร์ใด "การออกอากาศบางส่วน" นี้ช่วยให้ระบบลดร่องรอยในอุปกรณ์ของผู้ใช้ปลายทางได้ โดยระบบจะส่งพารามิเตอร์ของโมเดลเพียงบางส่วนไปยังผู้ใช้แต่ละรายแทนที่จะส่งสำเนาโมเดลทั้งหมด
ผู้รวบรวมข้อมูลที่เชื่อถือได้ ซึ่งรวบรวมข้อมูลจากหลายไคลเอ็นต์ (เช่น เส้นลาดหรือสถิติอื่นๆ) เพิ่มสัญญาณรบกวน และส่งผลลัพธ์ไปยังเซิร์ฟเวอร์ โดยสมมติว่าช่องทางระหว่างลูกค้ากับผู้รวบรวมข้อมูลและระหว่างลูกค้ากับผู้จัดจําหน่ายเป็นช่องทางที่เชื่อถือได้
อัลกอริทึมการฝึก DP ที่ทำงานบนโครงสร้างพื้นฐานนี้ อัลกอริทึมการฝึกแต่ละรายการประกอบด้วยการคํานวณที่แตกต่างกันซึ่งทํางานบนคอมโพเนนต์ต่างๆ (เซิร์ฟเวอร์ ไคลเอ็นต์ ผู้รวบรวมข้อมูล ผู้จัดจําหน่าย)
การฝึกอบรมรอบปกติประกอบด้วยขั้นตอนต่อไปนี้
- เซิร์ฟเวอร์จะกระจายพารามิเตอร์ของโมเดลไปยังผู้จัดจําหน่ายที่เชื่อถือได้
- การคํานวณของไคลเอ็นต์
- อุปกรณ์ไคลเอ็นต์แต่ละเครื่องจะได้รับรูปแบบการออกอากาศ (หรือชุดย่อยของพารามิเตอร์ที่เกี่ยวข้องกับผู้ใช้)
- ไคลเอ็นต์แต่ละรายจะทําการคํานวณบางอย่าง (เช่น การคํานวณอนุพันธ์หรือสถิติที่เพียงพออื่นๆ)
- ลูกค้าแต่ละรายจะส่งผลการคำนวณไปยังผู้รวบรวมข้อมูลที่เชื่อถือได้
- ผู้รวบรวมข้อมูลที่เชื่อถือได้จะรวบรวม รวบรวม และปกป้องสถิติจากไคลเอ็นต์โดยใช้กลไก Differential Privacy ที่เหมาะสม จากนั้นส่งผลลัพธ์ไปยังเซิร์ฟเวอร์
- การประมวลผลเซิร์ฟเวอร์
- เซิร์ฟเวอร์ (ที่ไม่เชื่อถือ) จะทําการคํานวณสถิติที่ได้รับการคุ้มครองความเป็นส่วนตัวแบบต่างระดับ (เช่น ใช้อนุพันธ์แบบรวมที่ได้รับการคุ้มครองความเป็นส่วนตัวแบบต่างระดับเพื่ออัปเดตพารามิเตอร์ของโมเดล)
โมเดลที่แยกปัจจัยและวิธีการลดแบบสลับกันแบบ Differentially Private
แพลตฟอร์ม ODP วางแผนที่จะให้บริการอัลกอริทึมการฝึกแบบต่างระดับความเป็นส่วนตัวสำหรับวัตถุประสงค์ทั่วไปซึ่งนำไปใช้กับสถาปัตยกรรมโมเดลใดก็ได้ (เช่น DP-SGD 6 7 8 หรือ DP-FTRL 9 10) รวมถึงอัลกอริทึมที่ออกแบบมาเพื่อโมเดลการแยกปัจจัยโดยเฉพาะ
โมเดลที่แยกปัจจัยเป็นโมเดลที่แยกออกเป็นโมเดลย่อยได้ (เรียกว่าตัวเข้ารหัสหรือหอคอย) ตัวอย่างเช่น ลองพิจารณาโมเดลของรูปแบบ f(u(θu, xu), v(θv, xv))
โดยที่ u()
เข้ารหัสฟีเจอร์ผู้ใช้ xu
(และมีพารามิเตอร์ θu
) และ v()
เข้ารหัสฟีเจอร์ที่ไม่ใช่ผู้ใช้ xv
(และมีพารามิเตอร์ θv
) ระบบจะรวมการเข้ารหัส 2 รูปแบบนี้เข้าด้วยกันโดยใช้ f()
เพื่อสร้างการคาดการณ์โมเดลสุดท้าย ตัวอย่างเช่น ในโมเดลการแนะนำภาพยนตร์ xu
คือฟีเจอร์ของผู้ใช้ และ xv
คือฟีเจอร์ของภาพยนตร์
โมเดลดังกล่าวเหมาะสําหรับสถาปัตยกรรมระบบแบบกระจายที่กล่าวถึงข้างต้น (เนื่องจากแยกฟีเจอร์สําหรับผู้ใช้และฟีเจอร์ที่ไม่ใช่สําหรับผู้ใช้)
ระบบจะฝึกโมเดลที่แยกปัจจัยโดยใช้การลดแบบสลับกันแบบ Differentially Private (DPAM) ซึ่งจะสลับกันระหว่างการเพิ่มประสิทธิภาพพารามิเตอร์ θu
(ขณะที่ θv
คงที่) และในทางกลับกัน อัลกอริทึมของ DPAM มีประสิทธิภาพที่ดีขึ้นในการตั้งค่าที่หลากหลาย 4 11 โดยเฉพาะอย่างยิ่งเมื่อมีฟีเจอร์สาธารณะ
ข้อมูลอ้างอิง
- 1: Dwork et al. Calibrating Noise to Sensitivity in Private Data Analysis, TCC'06
- 2: สำนักงานสถิติของสหรัฐอเมริกา ทำความเข้าใจ Differential Privacy, 2020
- 3: Federated Learning with Formal Differential Privacy Guarantees, Google AI Blog Post, 2020
- 4: Jain et al. Differentially Private Model Personalization, NeurIPS'21
- 5: Krichene et al. Private Learning with Public Features, 2023
- 6: Song et al. Stochastic gradient descent with differentially private updates, GlobalSIP'13
- 7: Differentially Private Empirical Risk Minimization: Efficient Algorithms and Tight Error Bounds, FOCS'14
- 8: Abadi et al. Deep Learning with Differential Privacy, CCS '16
- 9: Smith et al. (เกือบ) Optimal Algorithms for Private Online Learning in Full-information and Bandit Settings, NeurIPS'13
- 10: Kairouz et al., Practical and Private (Deep) Learning without Sampling or Shuffling, ICML'21
- 11: Chien et al. Private Alternating Least Squares, ICML'21