Tài liệu này tóm tắt phương pháp bảo vệ quyền riêng tư cho tính năng Cá nhân hoá trên thiết bị (ODP) cụ thể trong bối cảnh quyền riêng tư biệt lập. Các quyết định thiết kế và tác động khác về quyền riêng tư (chẳng hạn như giảm thiểu dữ liệu) được cố ý loại trừ để tài liệu này tập trung vào các vấn đề chính.
Sự riêng tư biệt lập
Quyền riêng tư biệt lập 1 là một tiêu chuẩn bảo vệ quyền riêng tư được áp dụng rộng rãi trong hoạt động phân tích dữ liệu thống kê và học máy 2 3. Nói một cách không chính thức, điều này có nghĩa là đối thủ sẽ tìm hiểu gần như cùng một thông tin về một người dùng từ kết quả của thuật toán riêng tư biệt lập, cho dù bản ghi của người dùng đó có xuất hiện trong tập dữ liệu cơ bản hay không. Điều này có nghĩa là các cá nhân được bảo vệ mạnh mẽ: mọi suy luận về một người chỉ có thể là do các thuộc tính tổng hợp của tập dữ liệu có hoặc không có bản ghi của người đó.
Trong bối cảnh học máy, bạn nên coi đầu ra của thuật toán là các tham số mô hình đã huấn luyện. Cụm từ gần như giống nhau được định lượng bằng toán học theo hai tham số (ε, δ), trong đó ε thường được chọn là một hằng số nhỏ và δ≪1/(số người dùng).
Ngữ nghĩa về quyền riêng tư
Thiết kế ODP nhằm đảm bảo mỗi lần chạy huấn luyện đều có tính riêng tư khác biệt ở cấp người dùng (ε,δ). Phần sau đây trình bày phương pháp của chúng tôi để đạt được ngữ nghĩa này.
Mô hình mối đe doạ
Chúng ta xác định các bên và đưa ra giả định về từng bên:
- Người dùng: Người dùng sở hữu thiết bị và là người tiêu dùng sản phẩm hoặc dịch vụ do nhà phát triển cung cấp. Họ có toàn quyền truy cập vào thông tin riêng tư của mình.
- Môi trường thực thi đáng tin cậy (TEE): Dữ liệu và các phép tính đáng tin cậy xảy ra trong TEE được bảo vệ khỏi kẻ tấn công bằng nhiều công nghệ. Do đó, phép tính và dữ liệu không cần được bảo vệ thêm. Các TEE hiện có có thể cho phép quản trị viên dự án truy cập vào thông tin bên trong. Chúng tôi đề xuất các chức năng tuỳ chỉnh để không cho phép và xác thực rằng quản trị viên không có quyền truy cập.
- Kẻ tấn công: Có thể có thông tin phụ về người dùng và có toàn quyền truy cập vào mọi thông tin rời khỏi TEE (chẳng hạn như các thông số mô hình đã xuất bản).
- Nhà phát triển: Người xác định và huấn luyện mô hình. Được coi là không đáng tin cậy (và có toàn bộ khả năng của kẻ tấn công).
Chúng tôi muốn thiết kế ODP với ngữ nghĩa sau đây về sự riêng tư biệt lập:
- Giới hạn tin cậy: Từ góc độ của một người dùng, giới hạn tin cậy bao gồm thiết bị của chính người dùng cùng với TEE. Mọi thông tin rời khỏi ranh giới tin cậy này đều phải được bảo vệ bằng sự riêng tư biệt lập.
- Kẻ tấn công: Bảo vệ quyền riêng tư biệt lập đầy đủ đối với kẻ tấn công. Bất kỳ thực thể nào bên ngoài ranh giới tin cậy đều có thể là kẻ tấn công (bao gồm cả nhà phát triển và người dùng khác, tất cả đều có thể thông đồng). Kẻ tấn công, với tất cả thông tin bên ngoài ranh giới tin cậy (ví dụ: mô hình đã xuất bản), mọi thông tin phụ về người dùng và tài nguyên vô hạn, không thể suy luận thêm dữ liệu riêng tư về người dùng (ngoài những dữ liệu đã có trong thông tin phụ), lên đến tỷ lệ cược do ngân sách quyền riêng tư đưa ra. Cụ thể, điều này ngụ ý rằng nhà phát triển sẽ được bảo vệ đầy đủ về sự riêng tư biệt lập. Mọi thông tin được phát hành cho nhà phát triển (chẳng hạn như các thông số mô hình đã huấn luyện hoặc suy luận tổng hợp) đều được bảo vệ bằng quyền riêng tư biệt lập.
Tham số mô hình cục bộ
Ngữ nghĩa quyền riêng tư trước đây phù hợp với trường hợp một số tham số mô hình trên thiết bị (ví dụ: mô hình chứa một phần nhúng người dùng dành riêng cho từng người dùng và không được chia sẻ giữa các người dùng). Đối với các mô hình như vậy, các tham số cục bộ này vẫn nằm trong ranh giới tin cậy (không được xuất bản) và không cần bảo vệ, trong khi các tham số mô hình dùng chung được xuất bản (và được bảo vệ bằng quyền riêng tư biệt lập). Đôi khi, mô hình này được gọi là mô hình quyền riêng tư của biển quảng cáo 4.
Tính năng công khai
Trong một số ứng dụng, một số tính năng là công khai. Ví dụ: trong bài toán đề xuất phim, các đặc điểm của phim (đạo diễn, thể loại hoặc năm phát hành của phim) là thông tin công khai và không cần bảo vệ, trong khi các đặc điểm liên quan đến người dùng (chẳng hạn như thông tin nhân khẩu học hoặc phim mà người dùng đã xem) là dữ liệu riêng tư và cần được bảo vệ.
Thông tin công khai được chính thức hoá dưới dạng một ma trận tính năng công khai (trong ví dụ trước, ma trận này sẽ chứa một hàng cho mỗi bộ phim và một cột cho mỗi tính năng của bộ phim), mà tất cả các bên đều có thể truy cập. Thuật toán huấn luyện có sự riêng tư biệt lập có thể sử dụng ma trận này mà không cần bảo vệ ma trận đó, ví dụ: 5. Nền tảng ODP dự định triển khai các thuật toán như vậy.
Phương pháp đảm bảo quyền riêng tư trong quá trình dự đoán hoặc suy luận
Kết luận được đưa ra dựa trên các tham số của mô hình và các tính năng đầu vào. Các tham số của mô hình được huấn luyện bằng ngữ nghĩa về sự riêng tư biệt lập. Ở đây, chúng ta sẽ thảo luận về vai trò của các tính năng đầu vào.
Trong một số trường hợp sử dụng, khi nhà phát triển đã có toàn quyền truy cập vào các tính năng được dùng trong hoạt động suy luận, thì hoạt động suy luận sẽ không gây ra vấn đề về quyền riêng tư và nhà phát triển có thể thấy kết quả suy luận.
Trong các trường hợp khác (khi các tính năng được dùng trong quy trình suy luận là riêng tư và nhà phát triển không thể truy cập), kết quả suy luận có thể bị ẩn khỏi nhà phát triển, ví dụ: bằng cách chạy quy trình suy luận (và mọi quy trình hạ nguồn sử dụng kết quả suy luận) trên thiết bị, trong một quy trình và khu vực hiển thị thuộc sở hữu của hệ điều hành, với hoạt động giao tiếp bị hạn chế bên ngoài quy trình đó.
Quy trình đào tạo

Tổng quan
Phần này cung cấp thông tin tổng quan về cấu trúc và cách tiến hành huấn luyện, hãy xem Hình 1. ODP triển khai các thành phần sau:
Một nhà phân phối đáng tin cậy, chẳng hạn như lựa chọn liên kết, tải xuống đáng tin cậy hoặc truy xuất thông tin riêng tư, đóng vai trò là thông số mô hình truyền tin. Giả sử rằng nhà phân phối đáng tin cậy có thể gửi một tập hợp con các tham số đến từng ứng dụng mà không tiết lộ tham số nào đã được ứng dụng nào tải xuống. Tính năng "truyền tin một phần" này cho phép hệ thống giảm thiểu mức sử dụng trên thiết bị của người dùng cuối: thay vì gửi một bản sao đầy đủ của mô hình, hệ thống chỉ gửi một phần các tham số mô hình cho một người dùng bất kỳ.
Một trình tổng hợp đáng tin cậy, tổng hợp thông tin từ nhiều ứng dụng khách (ví dụ: độ dốc hoặc số liệu thống kê khác), thêm nhiễu và gửi kết quả đến máy chủ. Giả định là có các kênh đáng tin cậy giữa ứng dụng và trình tổng hợp, cũng như giữa ứng dụng và nhà phân phối.
Các thuật toán huấn luyện DP chạy trên cơ sở hạ tầng này. Mỗi thuật toán huấn luyện bao gồm nhiều phép tính chạy trên nhiều thành phần (máy chủ, máy khách, trình tổng hợp, trình phân phối).
Một vòng đào tạo thông thường bao gồm các bước sau:
- Máy chủ sẽ truyền các tham số mô hình đến nhà phân phối đáng tin cậy.
- Tính toán ứng dụng
- Mỗi thiết bị khách nhận được mô hình truyền tin (hoặc một tập hợp con tham số liên quan đến người dùng).
- Mỗi ứng dụng thực hiện một số phép tính (ví dụ: tính toán độ dốc hoặc các số liệu thống kê đầy đủ khác).
- Mỗi ứng dụng khách sẽ gửi kết quả tính toán đến trình tổng hợp đáng tin cậy.
- Trình tổng hợp đáng tin cậy thu thập, tổng hợp và bảo vệ số liệu thống kê từ ứng dụng bằng các cơ chế sự riêng tư biệt lập thích hợp, sau đó gửi kết quả đến máy chủ.
- Tính toán trên máy chủ
- Máy chủ (không đáng tin cậy) chạy các phép tính trên số liệu thống kê được bảo vệ bằng quyền riêng tư biệt lập (ví dụ: sử dụng các độ dốc tổng hợp riêng tư biệt lập để cập nhật các tham số mô hình).
Mô hình được phân tích và phương pháp giảm thiểu luân phiên riêng tư khác biệt
Nền tảng ODP dự định cung cấp các thuật toán huấn luyện có tính riêng tư biệt lập cho nhiều mục đích có thể áp dụng cho mọi cấu trúc mô hình (chẳng hạn như DP-SGD 6 7 8 hoặc DP-FTRL 9 10, cũng như các thuật toán chuyên biệt cho mô hình phân tích.
Mô hình được phân tích là những mô hình có thể được phân ly thành các mô hình con (gọi là bộ mã hoá hoặc tháp). Ví dụ: hãy xem xét một mô hình ở dạng f(u(θu, xu), v(θv, xv))
, trong đó u()
mã hoá các tính năng của người dùng xu
(và có các tham số θu
) và v()
mã hoá các tính năng không phải của người dùng xv
(và có các tham số θv
). Hai quá trình mã hoá này được kết hợp bằng cách sử dụng f()
để tạo ra kết quả dự đoán cuối cùng của mô hình. Ví dụ: trong mô hình đề xuất phim, xu
là các tính năng của người dùng và xv
là các tính năng của phim.
Các mô hình như vậy rất phù hợp với cấu trúc hệ thống phân tán nêu trên (vì chúng tách biệt các tính năng dành cho người dùng và không dành cho người dùng).
Các mô hình được phân tích sẽ được huấn luyện bằng phương pháp Giảm thiểu thay thế riêng tư khác biệt (DPAM). Phương pháp này luân phiên giữa việc tối ưu hoá các tham số θu
(trong khi θv
được cố định) và ngược lại. Các thuật toán DPAM đã được chứng minh là đạt được hiệu quả sử dụng tốt hơn trong nhiều chế độ cài đặt 4 11, đặc biệt là khi có các tính năng công khai.
Tài liệu tham khảo
- 1: Dwork et al. Calibrating Noise to Sensitivity in Private Data Analysis, TCC'06
- 2: Cục Thống kê Hoa Kỳ. Tìm hiểu về Sự riêng tư biệt lập, năm 2020
- 3: Học liên kết với các cam kết chính thức về quyền riêng tư biệt lập, Bài đăng trên blog về AI của Google, năm 2020
- 4: Jain et al. Differentially Private Model Personalization, NeurIPS'21
- 5: Krichene et al. Private Learning with Public Features, 2023
- 6: Song et al. Stochastic gradient descent with differentially private updates, GlobalSIP'13
- 7: Giảm thiểu rủi ro kinh nghiệm riêng tư biệt lập: Thuật toán hiệu quả và giới hạn lỗi chặt chẽ, FOCS'14
- 8: Abadi et al. Deep Learning with Differential Privacy, CCS '16
- 9: Smith et al. (Nearly) Optimal Algorithms for Private Online Learning in Full-information and Bandit Settings, NeurIPS'13
- 10: Kairouz et al., Học tập thực tế và riêng tư (chuyên sâu) mà không cần lấy mẫu hoặc xáo trộn, ICML'21
- 11: Chien et al. Private Alternating Least Squares, ICML'21