本文件概要說明裝置端個人化 (ODP) 的隱私權做法,特別是差異化隱私的情況。為了讓本文聚焦於特定主題,我們刻意省略其他隱私權影響和設計決策,例如資料最小化。
差異化隱私
差異隱私權 1 是統計資料分析和機器學習中廣泛採用的隱私權保護標準 2 3。簡單來說,這表示不論使用者記錄是否出現在基礎資料集中,攻擊者都能透過差異化隱私演算法的輸出內容,學習到使用者幾乎相同的資訊。這表示系統會為個人提供強大的保護措施:系統對使用者的任何推論,都必須是基於資料集的匯總屬性,無論是否有使用者的記錄皆然。
在機器學習的脈絡中,演算法的輸出內容應視為經過訓練的模型參數。「幾乎相同」一詞在數學上由兩個參數 (ε、δ) 量化,其中 ε 通常會選擇為小常數,而 δ≪1/(使用者人數)。
隱私權語義
ODP 設計旨在確保每次訓練執行作業都是 (ε,δ) 使用者層級的差異化隱私。以下概述我們達成這項語義的方法。
威脅模式
我們定義了不同的參與者,並說明各方的假設:
- 使用者:擁有裝置的使用者,也是開發人員提供的產品或服務的消費者。他們的私人資訊完全可供自己使用。
- 受信任的執行環境 (TEE):在 TEE 中發生的資料和受信任運算,可透過各種技術保護,不受攻擊者侵擾。因此,計算和資料不需要額外保護。現有的 TEE 可能會允許專案管理員存取其中的資訊。我們建議您使用自訂功能,禁止管理員存取資料,並驗證管理員無法存取資料。
- 攻擊者:可能會取得使用者的附屬資訊,並可完全存取任何離開 TEE 的資訊 (例如已發布的模型參數)。
- 開發人員:定義及訓練模型的人員。視為不受信任 (且具有攻擊者的能力)。
我們希望設計 ODP 時,能遵循下列差異化隱私的語意:
- 信任邊界:從使用者的角度來看,信任邊界由使用者自己的裝置和 TEE 組成。任何超出信任邊界的資訊,都應受到差異化隱私機制保護。
- 攻擊者:針對攻擊者提供完整的差異化隱私保護。信任範圍以外的任何實體都可能是攻擊者 (包括開發人員和其他使用者,皆可能串通)。攻擊者在信任邊界外 (例如已發布模型) 擁有所有資訊、任何關於使用者的附加資訊,以及無限資源的情況下,無法推斷使用者的其他私人資料 (除了附加資訊中已有的資料),且推斷的機率不超過隱私預算。具體來說,這表示開發人員可享有完整的差異化隱私保護。任何提供給開發人員的資訊 (例如已訓練的模型參數或匯總推論) 都受到差異化隱私保護。
本機模型參數
先前的隱私權語意可處理某些模型參數在裝置上為本機的情況 (例如模型包含特定使用者專屬的使用者嵌入資料,且不會跨使用者共用)。對於這類模型,這些本機參數會保留在信任邊界內 (不會發布),因此不需要保護,但共用模型參數會發布 (並受到差異隱私權保護)。這有時也稱為廣告牌隱私權模式 4。
公開發布功能
在某些應用程式中,部分功能是公開的。舉例來說,在電影推薦問題中,電影的特色 (導演、類型或電影上映年份) 屬於公開資訊,因此不需要保護,但與使用者相關的特色 (例如客層資訊或使用者觀看的電影) 則屬於私人資料,因此需要保護。
公開資訊會以公開功能矩陣的形式正式呈現 (在前述範例中,這個矩陣會包含每部電影的一列,以及每部電影功能的一列),供所有相關人士使用。差異化隱私訓練演算法可使用這個矩陣,而不需要保護它,請參閱 5。ODP 平台預計會實作這類演算法。
在預測或推論期間保護隱私權
推論是根據模型參數和輸入特徵產生。模型參數會以差異化隱私語意進行訓練。本節將探討輸入特徵的角色。
在某些用途中,如果開發人員已擁有推論中使用的功能的完整存取權,推論就不會造成隱私權問題,開發人員也可能會看到推論結果。
在其他情況下 (例如在推論中使用的功能是私有的,開發人員無法存取),推論結果可能會隱藏起來,例如在裝置上執行推論 (以及任何使用推論結果的後續程序),並在作業系統擁有的程序和顯示區域中執行,且限制與該程序以外的通訊。
訓練程序

總覽
本節將概略說明架構和訓練程序,請參閱圖 1。ODP 會實作下列元件:
可信任的發布者,例如聯合選取、可信任的下載或私人資訊擷取,可用於發布模型參數。假設可信任的發布者可以將參數子集傳送至每個用戶端,而不會揭露哪些參數是由哪些用戶端下載。這項「部分廣播」功能可讓系統盡量減少對使用者裝置的影響:系統不會傳送模型的完整副本,而是只傳送模型參數的一小部分給任何使用者。
可信的匯入器,可匯入多個用戶端 (例如漸層或其他統計資料) 的資訊、加入雜訊,然後將結果傳送至伺服器。假設用戶端與集結器之間,以及用戶端與發布者之間,都有可信賴的管道。
在這個基礎架構上執行的 DP 訓練演算法。每個訓練演算法都包含在不同元件 (伺服器、用戶端、匯集器、發布器) 上執行的不同運算。
訓練通常包含下列步驟:
- 伺服器會將模型參數廣播給受信任的發布者。
- 用戶端運算
- 每部用戶端裝置都會收到廣播模型 (或與使用者相關的參數子集)。
- 每個用戶端都會執行一些運算 (例如計算梯度或其他足夠的統計資料)。
- 每個用戶端都會將運算結果傳送至信任的匯入器。
- 信任的匯集器會使用適當的差異隱私權機制,收集、匯總及保護來自用戶端的統計資料,然後將結果傳送至伺服器。
- 伺服器運算
- 不受信任的伺服器會針對差異化隱私權保護的統計資料執行運算 (例如使用差異化隱私權保護的匯總梯度來更新模型參數)。
因式化模型和差異化隱私交替最小化
ODP 平台預計提供通用的差異化隱私訓練演算法,可套用於任何模型架構 (例如 DP-SGD 6 7 8 或 DP-FTRL 9 10),以及專門針對因果變數模型的演算法。
因子化模型是可分解為子模型 (稱為編碼器或塔) 的模型。舉例來說,請考慮 f(u(θu, xu), v(θv, xv))
形式的模型,其中 u()
會編碼使用者功能 xu
(並具有參數 θu
),而 v()
會編碼非使用者功能 xv
(並具有參數 θv
)。兩個編碼會使用 f()
結合,產生最終模型預測結果。舉例來說,在電影推薦模型中,xu
是使用者特徵,xv
是電影特徵。
這類模型非常適合上述分散式系統架構 (因為它們會將使用者和非使用者功能分開)。
因子化模型會使用差異化隱私交替最小化 (DPAM) 進行訓練,該技術會交替最佳化參數 θu
(θv
固定) 和反之。研究顯示,DPAM 演算法在各種設定中 (4 11) 都能發揮更大效用,尤其是在有公開功能的情況下。
參考資料
- 1:Dwork et al. Calibrating Noise to Sensitivity in Private Data Analysis, TCC'06
- 2:美國人口普查局。Understanding Differential Privacy, 2020
- 3:Federated Learning with Formal Differential Privacy Guarantees, Google AI Blog Post, 2020
- 4:Jain 等人,差異化隱私模型個人化,NeurIPS'21
- 5:Krichene et al. Private Learning with Public Features, 2023
- 6:Song et al. Stochastic gradient descent with differentially private updates, GlobalSIP'13
- 7:Differentially Private Empirical Risk Minimization: Efficient Algorithms and Tight Error Bounds, FOCS'14
- 8:Abadi et al. Deep Learning with Differential Privacy, CCS '16
- 9:Smith 等人。在完整資訊和強盜設定中,用於私人線上學習的 (幾乎) 最佳演算法,NeurIPS'13
- 10:Kairouz 等人,Practical and Private (Deep) Learning without Sampling or Shuffling, ICML'21
- 11:Chien et al. Private Alternating Least Squares, ICML'21