设备端个性化的差分隐私语义

本文档总结了设备端个性化 (ODP) 的隐私保护方法,重点介绍了差分隐私的相关内容。为了使本文档内容更为集中,我们有意忽略了数据最小化等其他隐私影响和设计决策。

差分隐私

差分隐私 1 是统计数据分析和机器学习领域广泛采用的隐私保护标准 2 3。非正式地说,这意味着无论用户的记录是否出现在底层数据集中,攻击者都能从差分隐私算法的输出中几乎了解到关于该用户的相同信息。这意味着,系统会为个人提供强大的保护:系统对个人做出的任何推断都只能基于数据集的汇总属性,而这些属性在有或没有该个人的记录时都存在。

在机器学习的上下文中,算法的输出应被视为训练好的模型参数。几乎相同一词在数学上可通过两个参数 (ε, δ) 量化,其中 ε 通常选择为一个小常数,且 δ≪1/(用户数量)。

隐私语义

ODP 设计旨在确保每次训练运行都具有 (ε,δ) 用户级差分隐私性。以下概述了我们实现此语义的方法。

威胁模型

我们定义了不同的相关方,并说明了对每个相关方的假设:

  • 用户:设备的所有者,也是开发者提供的产品或服务的消费者。他们可以完全访问自己的私密信息。
  • 可信执行环境 (TEE):TEE 中发生的数据和可信计算会使用各种技术受到保护,以防范攻击者。因此,计算和数据无需额外保护。现有的 TEE 可能会允许其项目管理员访问其中的信息。我们建议使用自定义功能来禁止管理员访问,并验证管理员是否无法访问。
  • 攻击者:可能拥有有关用户的旁边信息,并且对离开 TEE 的任何信息(例如已发布的模型参数)拥有完全访问权限。
  • 开发者:定义和训练模型的人员。被视为不可信(并具有攻击者的全部能力)。

我们希望以以下差分隐私语义来设计 ODP:

  • 信任边界:从单个用户的角度来看,信任边界由用户自己的设备和 TEE 组成。离开此信任边界的任何信息都应受到差分隐私保护。
  • 攻击者:针对攻击者的完全差分隐私保护。信任边界之外的任何实体都可能是攻击者(包括开发者和其他用户,他们都可能相互串通)。即使攻击者拥有信任边界之外的所有信息(例如已发布的模型)、有关用户的所有旁观信息以及无限资源,也无法推断出有关用户的其他私密数据(除了旁观信息中已有的数据),并且推断的概率不超过隐私预算所给出的概率。 具体而言,这意味着相对于开发者,系统会提供完整的差分隐私保护。向开发者发布的任何信息(例如训练好的模型参数或汇总推理结果)都受差分隐私保护。

本地模型参数

之前的隐私语义适用于某些模型参数位于设备本地的情况(例如,模型包含特定于每个用户的用户嵌入,且不会在用户之间共享)。对于此类模型,这些本地参数会保留在信任边界内(无法发布),并且不需要保护,而共享的模型参数会发布(并受差分隐私保护)。这有时也称为广告牌隐私保护模型 4

公开功能

在某些应用中,部分功能是公开的。例如,在电影推荐问题中,电影的特征(导演、类型或发行年份)是公开信息,不需要保护;而与用户相关的特征(例如受众特征信息或用户观看过的电影)是私密数据,需要保护。

公开信息会被形式化为公开特征矩阵(在前面的示例中,此矩阵将包含每部电影一行,每项电影特征一列),供所有方使用。差分隐私训练算法可以使用此矩阵,而无需对其进行保护,例如 5。ODP 平台计划实现此类算法。

在预测或推理期间保护隐私的方法

推理基于模型参数和输入特征。模型参数是使用差分隐私语义进行训练的。本文将讨论输入特征的作用。

在某些用例中,如果开发者已经拥有对推理中使用的功能的完整访问权限,则推理不会带来隐私问题,并且开发者可以看到推理结果。

在其他情况下(推理中使用的功能是私有的,开发者无法访问),推理结果可能会向开发者隐藏,例如,让推理(以及使用推理结果的任何下游进程)在设备端的操作系统专有进程和显示区域中运行,并限制与该进程之外的通信。

训练流程

训练系统高级架构
图 1:训练系统高层架构。

概览

本部分概述了架构以及训练的进行方式,如图 1 所示。ODP 实现以下组件:

  • 可信分发商(例如联邦选择、可信下载或私密信息检索),可充当广播模型参数的角色。假设可信分销商可以向每个客户端发送一部分参数,而不会泄露哪个客户端下载了哪些参数。这种“部分广播”功能可让系统最大限度地减少在最终用户设备上的占用空间:系统只会向任何给定用户发送部分模型参数,而不是发送模型的完整副本。

  • 可信聚合器,用于汇总来自多个客户端的信息(例如梯度或其他统计信息),添加噪声,并将结果发送到服务器。假设客户端与集合商家之间以及客户端与分销商之间存在可信渠道。

  • 在此基础架构上运行的 DP 训练算法。每种训练算法都由在不同组件(服务器、客户端、汇总器、分发器)上运行的不同计算组成。

一轮典型的训练包括以下步骤:

  1. 服务器将模型参数广播给受信任的分销商。
  2. 客户端计算
    • 每台客户端设备都会接收广播模型(或与用户相关的参数子集)。
    • 每个客户端都会执行一些计算(例如计算梯度或其他充足的统计信息)。
    • 每个客户端都会将计算结果发送给可信聚合器。
    • 可信聚合器使用适当的差分隐私机制收集、汇总和保护来自客户端的统计信息,然后将结果发送到服务器。
  3. 服务器计算
  4. (不可信的)服务器对受差分隐私保护的统计信息运行计算(例如,使用差分隐私聚合梯度来更新模型参数)。

分解模型和差分隐私交替最小化

ODP 平台计划提供可应用于任何模型架构(例如 DP-SGD 6 7 8 或 DP-FTRL 9 10)的通用差分隐私训练算法,以及专门针对分解模型的算法。

分解模型是指可分解为子模型(称为编码器或塔)的模型。例如,假设有一个形式为 f(u(θu, xu), v(θv, xv)) 的模型,其中 u() 用于编码用户特征 xu(并具有参数 θu),v() 用于编码非用户特征 xv(并具有参数 θv)。这两种编码会使用 f() 组合起来,以生成最终的模型预测结果。例如,在电影推荐模型中,xu 是用户特征,xv 是电影特征。

此类模型非常适合上述分布式系统架构(因为它们会将用户功能与非用户功能分开)。

系统将使用差分隐私交替最小化 (DPAM) 训练分解模型,该算法会交替优化参数 θu(同时固定 θv)和优化参数 θv(同时固定 θu)。研究表明,DPAM 算法在各种设置4 11中都能实现更好的实用性,尤其是在存在公共地图项的情况下。

参考