이 문서에서는 특히 개인 정보 차등 보호의 맥락에서 기기 내 맞춤설정 (ODP)의 개인 정보 보호 접근 방식을 요약합니다. 이 문서의 주제를 명확히 하기 위해 데이터 최소화와 같은 다른 개인 정보 보호 관련 사항과 설계 결정은 의도적으로 제외되었습니다.
개인 정보 차등 보호
차등 개인 정보 보호1는 통계 데이터 분석 및 머신러닝2 3에서 널리 채택된 개인 정보 보호 표준입니다. 비공식적으로 말하자면, 기록이 기본 데이터 세트에 표시되는지 여부와 관계없이 공격자는 개인 정보 차등 보호 알고리즘의 출력에서 사용자에 관해 거의 동일한 정보를 학습합니다. 이는 개인에 대한 강력한 보호를 의미합니다. 개인에 대한 추론은 해당 개인의 기록 유무와 관계없이 유지되는 데이터 세트의 집계 속성으로만 인해 발생할 수 있습니다.
머신러닝 맥락에서 알고리즘의 출력은 학습된 모델 매개변수로 간주해야 합니다. 거의 동일이라는 문구는 수학적으로 두 가지 매개변수 (ε, δ)로 수치화됩니다. 여기서 ε는 일반적으로 작은 상수로 선택되고 δ≪1/(사용자 수)입니다.
개인 정보 보호 시맨틱
ODP 설계는 각 학습 실행이 (ε,δ)-사용자 수준 개인 정보 차등 보호를 보장하도록 합니다. 다음은 이러한 시맨틱에 도달하기 위한 Google의 접근 방식을 간략히 보여줍니다.
위협 모델
다양한 당사자를 정의하고 각 당사자에 대한 가정을 설명합니다.
- 사용자: 기기를 소유하고 개발자가 제공하는 제품 또는 서비스를 소비하는 사용자입니다. 사용자는 자신의 개인 정보를 완전히 이용할 수 있습니다.
- 신뢰할 수 있는 실행 환경 (TEE): TEE 내에서 발생하는 데이터와 신뢰할 수 있는 계산은 다양한 기술을 사용하여 공격으로부터 보호됩니다. 따라서 계산과 데이터에 추가 보호 조치가 필요하지 않습니다. 기존 TEE에서는 프로젝트 관리자가 내부 정보에 액세스할 수 있습니다. 관리자가 액세스할 수 없도록 허용하지 않고 이를 확인하는 맞춤 기능을 제안합니다.
- 공격자: 사용자에 관한 부수적인 정보를 보유할 수 있으며 또한 TEE를 떠나는 모든 정보 (예: 게시된 모델 매개변수)에 대한 전체 액세스 권한을 보유합니다.
- 개발자: 모델을 정의하고 학습시키는 사람입니다. 신뢰할 수 없는 것으로 간주되며 공격자의 모든 기능을 갖습니다.
Google은 다음과 같은 개인 정보 차등 보호의 시맨틱을 사용하여 ODP를 설계하고자 합니다.
- 신뢰 경계: 한 사용자의 관점에서 신뢰 경계는 TEE와 함께 사용자의 자체 기기로 구성됩니다. 이 신뢰 경계를 벗어나는 모든 정보는 개인 정보 차등 보호로 보호되어야 합니다.
- 공격자: 공격자에 대한 전체 개인 정보 차등 보호 신뢰 경계 외부의 모든 항목은 공격자가 될 수 있습니다 (개발자 및 기타 사용자 모두 잠재적으로 공모할 수 있음). 신뢰 경계 외부의 모든 정보 (예: 게시된 모델), 사용자에 관한 부수 정보, 무한한 리소스를 고려하더라도 공격자는 개인 정보 보호 예산에서 제공하는 확률까지 사용자에 관한 추가 비공개 데이터 (이미 부수 정보에 포함된 데이터 제외)를 추론할 수 없습니다. 특히 이는 개발자에 관한 완전한 개인 정보 차등 보호를 의미합니다. 개발자에게 공개되는 모든 정보 (예: 학습된 모델 매개변수 또는 집계된 추론)는 개인 정보 차등 보호를 통해 보호됩니다.
로컬 모델 매개변수
이전 개인 정보 보호 시맨틱은 일부 모델 매개변수가 기기에만 국한되는 경우 (예: 각 사용자별로 고유한 사용자 임베딩이 포함되어 있고 사용자 간에 공유되지 않는 모델)를 수용합니다. 이러한 모델의 경우 이러한 로컬 매개변수는 신뢰 경계 내에 유지되며 (게시되지 않음) 보호가 필요하지 않은 반면 공유 모델 매개변수는 게시되며 (차등 개인 정보 보호로 보호됨) 이를 게시판 개인 정보 보호 모델 4이라고도 합니다.
공개 기능
특정 애플리케이션에서는 일부 기능이 공개됩니다. 예를 들어 영화 추천 문제에서 영화의 특징 (영화의 감독, 장르, 출시 연도)은 공개 정보이므로 보호가 필요하지 않지만 사용자와 관련된 특징 (인구통계 정보 또는 사용자가 시청한 영화)은 비공개 데이터이므로 보호가 필요합니다.
공개 정보는 모든 당사자가 사용할 수 있는 공개 기능 행렬 (이전 예에서는 이 행렬에 영화당 1행, 영화 기능당 1열이 포함됨)로 공식화됩니다. 개인 정보 차등 보호 학습 알고리즘은 이 행렬을 보호하지 않고도 사용할 수 있습니다(예: 5 참고). ODP 플랫폼은 이러한 알고리즘을 구현할 계획입니다.
예측 또는 추론 중에 개인 정보 보호를 위한 접근 방식
추론은 모델 매개변수와 입력 기능을 기반으로 합니다. 모델 매개변수는 개인 정보 차등 보호 시맨틱으로 학습됩니다. 여기에서는 입력 기능의 역할에 대해 설명합니다.
일부 사용 사례에서는 개발자가 이미 추론에 사용되는 기능에 대한 전체 액세스 권한을 보유하고 있으므로 추론으로 인한 개인 정보 보호 문제가 없으며 추론 결과가 개발자에게 표시될 수 있습니다.
다른 경우 (예: 추론에 사용되는 기능이 비공개이며 개발자가 액세스할 수 없는 경우) 추론 결과가 개발자에게 표시되지 않을 수 있습니다. 예를 들어 추론 (및 추론 결과를 사용하는 모든 하위 프로세스)을 기기 내에서 OS 소유 프로세스 및 디스플레이 영역으로 실행하고 해당 프로세스 외부에서 통신을 제한하는 방식으로 추론 결과가 개발자에게 표시되지 않을 수 있습니다.
교육 절차

개요
이 섹션에서는 아키텍처와 학습 진행 방식을 간략히 설명합니다(그림 1 참고). ODP는 다음 구성요소를 구현합니다.
제휴 선택, 신뢰할 수 있는 다운로드 또는 비공개 정보 검색과 같이 모델 매개변수를 브로드캐스트하는 역할을 하는 신뢰할 수 있는 배급자입니다. 신뢰할 수 있는 배급자는 어떤 클라이언트가 어떤 매개변수를 다운로드했는지 밝히지 않고 각 클라이언트에 매개변수의 하위 집합을 전송할 수 있다고 가정합니다. 이 '부분 브로드캐스트'를 통해 시스템은 최종 사용자 기기의 풋프린트를 최소화할 수 있습니다. 모델의 전체 사본을 전송하는 대신 모델 매개변수의 일부만 특정 사용자에게 전송됩니다.
여러 클라이언트의 정보 (예: 그라디언트 또는 기타 통계)를 집계하고 노이즈를 추가한 후 결과를 서버로 전송하는 신뢰할 수 있는 애그리게이터입니다. 클라이언트와 애그리게이터 간에, 그리고 클라이언트와 배급자 간에 신뢰할 수 있는 채널이 있다고 가정합니다.
이 인프라에서 실행되는 DP 학습 알고리즘 각 학습 알고리즘은 서로 다른 구성요소 (서버, 클라이언트, 애그리게이터, 배급자)에서 실행되는 서로 다른 계산으로 구성됩니다.
일반적인 교육 과정은 다음 단계로 구성됩니다.
- 서버는 신뢰할 수 있는 배급자에게 모델 매개변수를 브로드캐스트합니다.
- 클라이언트 계산
- 각 클라이언트 기기는 브로드캐스트 모델 (또는 사용자와 관련된 매개변수의 하위 집합)을 수신합니다.
- 각 클라이언트는 일부 계산 (예: 기울기 또는 기타 충분한 통계 계산)을 실행합니다.
- 각 클라이언트는 계산 결과를 신뢰할 수 있는 애그리게이터로 전송합니다.
- 신뢰할 수 있는 애그리게이터는 적절한 개인 정보 차등 보호 메커니즘을 사용하여 클라이언트의 통계를 수집, 집계, 보호한 후 결과를 서버로 전송합니다.
- 서버 계산
- (신뢰할 수 없는) 서버는 개인 정보 차등 보호 통계에서 계산을 실행합니다 (예: 개인 정보 차등 보호 합산 경사를 사용하여 모델 매개변수를 업데이트함).
분해된 모델 및 개인 정보 차등 보호 교체 최소화
ODP 플랫폼은 모든 모델 아키텍처 (예: DP-SGD 6 7 8 또는 DP-FTRL 9 10)에 적용할 수 있는 범용 비차등 개인 정보 보호 학습 알고리즘과 분해된 모델에 특화된 알고리즘을 제공할 계획입니다.
분해된 모델은 하위 모델 (인코더 또는 타워라고 함)로 분해할 수 있는 모델입니다. 예를 들어 f(u(θu, xu), v(θv, xv))
형식의 모델을 생각해 보겠습니다. 여기서 u()
는 사용자 기능 xu
를 인코딩하고 (θu
매개변수 있음) v()
는 비사용자 기능 xv
를 인코딩하며 (θv
매개변수 있음) 두 인코딩은 f()
를 사용하여 결합되어 최종 모델 예측을 생성합니다. 예를 들어 영화 추천 모델에서 xu
는 사용자 기능이고 xv
는 영화 기능입니다.
이러한 모델은 사용자 기능과 비사용자 기능을 구분하므로 앞서 언급한 분산 시스템 아키텍처에 적합합니다.
분해된 모델은 개인 정보 차등 보호 교체 최소화 (DPAM)를 사용하여 학습됩니다. DPAM은 θu
매개변수를 최적화하는 것 (θv
가 고정된 상태에서)과 그 반대로 하는 것을 번갈아 수행합니다. DPAM 알고리즘은 다양한 설정 4 11, 특히 공개 기능이 있는 경우 더 나은 유용성을 달성하는 것으로 나타났습니다.
참조
- 1: Dwork 외., 비공개 데이터 분석에서 민감도에 맞게 노이즈 보정, TCC'06
- 2: 미국 인구조사국. 개인 정보 차등 보호 이해하기, 2020
- 3: 공식적인 차등 개인 정보 보호 보장을 통한 제휴 학습, Google AI 블로그 게시물, 2020
- 4: Jain et al. Differentially Private Model Personalization, NeurIPS'21
- 5: Krichene 외. 공개 기능을 사용한 비공개 학습, 2023
- 6: 송 등. 개인 정보 차등 보호 업데이트를 사용한 확률적 경사하강법, GlobalSIP'13
- 7: 차등 개인 정보 보호 실험적 위험 최소화: 효율적인 알고리즘 및 엄격한 오류 한도, FOCS'14
- 8: Abadi et al. Deep Learning with Differential Privacy, CCS '16
- 9: Smith et al. (Nearly) Optimal Algorithms for Private Online Learning in Full-information and Bandit Settings, NeurIPS'13
- 10: Kairouz et al., 샘플링 또는 셔플링이 없는 실용적이고 비공개 (딥) 학습, ICML 2021
- 11: Chien et al. Private Alternating Least Squares, ICML'21