On-Device Personalization の差分プライバシー セマンティクス

このドキュメントでは、差分プライバシーのコンテキストで、オンデバイス パーソナライゼーション(ODP)のプライバシー アプローチについて概説します。このドキュメントでは、プライバシーへのその他の影響や、データの最小化などの設計上の決定については意図的に記載していません。

差分プライバシー

差分プライバシー 1は、統計データ分析と機械学習で広く採用されているプライバシー保護の標準です2 3。非公式には、攻撃者は、差分プライバシー アルゴリズムの出力から、ユーザーに関するほぼ同じ情報を学習します。これは、ユーザーのレコードが基盤となるデータセットに含まれているかどうかに関係ありません。これは、個人に対する強力な保護を意味します。個人に関する推論は、その個人のレコードの有無にかかわらず保持されるデータセットの集計プロパティにのみ基づくことができます。

機械学習のコンテキストでは、アルゴリズムの出力はトレーニング済みのモデル パラメータと考えるべきです。「ほぼ同じ」という表現は、2 つのパラメータ(ε、δ)によって数学的に定量化されます。通常、ε は小さな定数として選択され、δ≪1 /(ユーザー数)です。

プライバシー セマンティクス

ODP の設計では、各トレーニング実行が(ε、δ)ユーザーレベルの差分プライバシーを確保することを目指しています。以下に、このセマンティクスを実現するためのアプローチの概要を示します。

脅威モデル

さまざまな関係者を定義し、それぞれの前提を述べます。

  • ユーザー: デバイスを所有し、デベロッパーが提供する商品やサービスの消費者であるユーザー。個人情報はユーザー自身が完全に利用できます。
  • 高信頼実行環境(TEE): TEE 内で発生するデータと信頼できる計算は、さまざまなテクノロジーを使用して攻撃者から保護されます。したがって、計算とデータに追加の保護は必要ありません。既存の TEE では、プロジェクト管理者が内部情報にアクセスできる場合があります。管理者がアクセスできないようにし、アクセスできないことを検証するカスタム機能を提案します。
  • 攻撃者: ユーザーに関する副情報を持っている可能性があり、TEE から送信されるすべての情報(公開されたモデル パラメータなど)に完全にアクセスできます。
  • デベロッパー: モデルを定義してトレーニングするユーザー。信頼できないと見なされる(攻撃者の能力を最大限に利用できる)。

Google は、次のような差分プライバシーのセマンティクスで ODP を設計することを目指しています。

  • 信頼境界: 1 人のユーザーの視点から見ると、信頼境界はユーザー自身のデバイスと TEE で構成されます。この信頼境界を越える情報は、差分プライバシーによって保護する必要があります。
  • 攻撃者: 攻撃者に対して完全な差分プライバシー保護。信頼境界外のエンティティはすべて攻撃者になる可能性があります(デベロッパーや他のユーザーも含まれ、すべてが共謀している可能性があります)。攻撃者は、信頼境界外のすべての情報(公開モデルなど)、ユーザーに関するサイド情報、無限のリソースがあっても、プライバシー バジェットによって指定されたオッズまで、ユーザーに関する追加の機密データを(サイド情報にすでに含まれているもの以外に)推測することはできません。特に、デベロッパーに対しては完全な差分プライバシー保護が適用されます。デベロッパーに公開される情報(トレーニング済みモデルのパラメータや集計推論など)は、差分プライバシーによって保護されます。

ローカルモデル パラメータ

以前のプライバシー セマンティクスは、一部のモデル パラメータがデバイスにローカルである場合に対応しています(たとえば、ユーザーごとに固有のユーザー エンベディングが含まれ、ユーザー間で共有されないモデルなど)。このようなモデルでは、これらのローカル パラメータは信頼境界内に留まり(公開されません)、保護する必要はありません。一方、共有モデル パラメータは公開され(差分プライバシーによって保護されます)。これは、ビルボードのプライバシー モデル 4 とも呼ばれます。

一般公開版の機能

一部のアプリケーションでは、一部の機能が公開されています。たとえば、映画のおすすめに関する問題では、映画の特徴(映画の監督、ジャンル、公開年)は公開情報であり、保護する必要はありませんが、ユーザーに関連する特徴(ユーザーの属性情報や視聴した映画など)は非公開データであり、保護する必要があります。

公開情報は、公開特徴行列として形式化されます(前述の例では、この行列には映画ごとに 1 行、映画の特徴ごとに 1 列が含まれます)。この行列はすべての関係者が利用できます。差分プライバシー トレーニング アルゴリズムは、この行列を保護することなく使用できます(5 などをご覧ください)。ODP プラットフォームでは、このようなアルゴリズムを実装する予定です。

予測または推論中のプライバシー保護のアプローチ

推論は、モデル パラメータと入力特徴に基づいて行われます。モデル パラメータは、差分プライバシー セマンティクスを使用してトレーニングされます。ここでは、入力特徴の役割について説明します。

推論に使用される機能にデベロッパーがすでに完全なアクセス権を持っている場合、推論によるプライバシーに関する懸念はなく、推論結果をデベロッパーに表示できます。

その他のケース(推論で使用される機能が非公開で、デベロッパーがアクセスできない場合)では、推論結果がデベロッパーから隠される場合があります。たとえば、推論(および推論結果を使用するダウンストリーム プロセス)を、OS 所有のプロセスとディスプレイ領域でオンデバイスで実行し、そのプロセス外との通信を制限します。

トレーニング手順

トレーニング システムの上位レベルのアーキテクチャ
図 1: トレーニング システムのアーキテクチャの概要。

概要

このセクションでは、アーキテクチャの概要とトレーニングの進行方法について説明します(図 1 を参照)。ODP は次のコンポーネントを実装します。

  • モデル パラメータのブロードキャストを行う信頼できる配信元(連携選択、信頼できるダウンロード、非公開情報の取得など)。信頼できる配信元は、どのクライアントがどのパラメータをダウンロードしたかを公開することなく、パラメータのサブセットを各クライアントに送信できると想定されています。この「部分ブロードキャスト」により、システムはエンドユーザーのデバイスのフットプリントを最小限に抑えることができます。モデルの完全なコピーを送信するのではなく、モデル パラメータの一部のみを特定のユーザーに送信します。

  • 信頼できるアグリゲータは、複数のクライアントからの情報(勾配やその他の統計情報など)を集約し、ノイズを追加して、結果をサーバーに送信します。クライアントとアグリゲータ、クライアントと配信元の間に信頼できるチャネルがあることが前提となります。

  • このインフラストラクチャ上で実行される DP トレーニング アルゴリズム。各トレーニング アルゴリズムは、さまざまなコンポーネント(サーバー、クライアント、アグリゲータ、ディストリビューター)で実行されるさまざまな計算で構成されています。

一般的なトレーニング ラウンドでは、次の手順が行われます。

  1. サーバーは、信頼できる配信者にモデル パラメータをブロードキャストします。
  2. クライアント計算
    • 各クライアント デバイスは、ブロードキャスト モデル(またはユーザーに関連するパラメータのサブセット)を受信します。
    • 各クライアントは、なんらかの計算(勾配やその他の十分な統計量の計算など)を実行します。
    • 各クライアントは計算結果を信頼できるアグリゲータに送信します。
    • 信頼できるアグリゲータは、クライアントからの統計情報を適切な差分プライバシー メカニズムを使用して収集、集計、保護し、結果をサーバーに送信します。
  3. サーバー計算
  4. (信頼できない)サーバーは、差分プライバシーで保護された統計情報に対して計算を実行します(差分プライバシーで保護された集計勾配を使用してモデル パラメータを更新するなど)。

分解モデルと差分プライバシー対応の交互最小化

ODP プラットフォームでは、任意のモデル アーキテクチャ(DP-SGD 6 7 8 や DP-FTRL 9 10 など)に適用できる汎用差分プライバシー トレーニング アルゴリズムと、分解モデルに特化したアルゴリズムを提供予定です。

分解モデルは、サブモデル(エンコーダまたはタワー)に分解できるモデルです。たとえば、f(u(θu, xu), v(θv, xv)) 形式のモデルについて考えてみましょう。ここで、u() はユーザー特徴 xu をエンコードし(パラメータ θu を持つ)、v() はユーザー以外の特徴 xv をエンコードします(パラメータ θv を持つ)。2 つのエンコードは f() を使用して結合され、最終的なモデル予測が生成されます。たとえば、映画のレコメンデーション モデルでは、xu はユーザー特徴、xv は映画の特徴です。

このようなモデルは、ユーザー機能と非ユーザー機能を分離するため、前述の分散システム アーキテクチャに適しています。

分解モデルは、差分プライバシー交互最小化(DPAM)を使用してトレーニングされます。これは、パラメータ θu を最適化(θv は固定)し、その逆を交互に行うものです。DPAM アルゴリズムは、さまざまな設定4 11で、特に公開されている特徴量がある場合に、優れた有用性を達成することが示されています。

参照