Semantik privasi diferensial untuk Personalisasi di Perangkat

Dokumen ini meringkas pendekatan privasi untuk Personalisasi di Perangkat (ODP) secara khusus dalam konteks privasi diferensial. Implikasi privasi dan keputusan desain lainnya seperti pengurangan data sengaja dihilangkan agar dokumen ini tetap terfokus.

Privasi diferensial

Privasi diferensial 1 adalah standar perlindungan privasi yang diadopsi secara luas dalam analisis data statistik dan machine learning 2 3. Secara informal, hal ini menyatakan bahwa penyerang mempelajari hampir hal yang sama tentang pengguna dari output algoritma privasi diferensial, terlepas dari apakah data mereka muncul dalam set data pokok atau tidak. Hal ini menyiratkan perlindungan yang kuat bagi individu: setiap inferensi yang dibuat tentang seseorang hanya dapat disebabkan oleh properti gabungan set data yang akan berlaku dengan atau tanpa data orang tersebut.

Dalam konteks machine learning, output algoritma harus dianggap sebagai parameter model yang dilatih. Frasa hampir sama diukur secara matematis oleh dua parameter (ε, δ), dengan ε biasanya dipilih sebagai konstanta kecil, dan δ≪1/(jumlah pengguna).

Semantik privasi

Desain ODP berupaya memastikan setiap pelatihan yang dijalankan bersifat pribadi diferensial tingkat pengguna (ε,δ). Berikut ini adalah uraian pendekatan kami untuk mencapai semantik ini.

Model ancaman

Kita menentukan berbagai pihak, dan menyatakan asumsi tentang masing-masing pihak:

  • Pengguna: Pengguna yang memiliki perangkat, dan merupakan konsumen produk atau layanan yang disediakan oleh developer. Informasi pribadi mereka sepenuhnya tersedia untuk mereka sendiri.
  • Trusted execution environment (TEE): Data dan komputasi tepercaya yang terjadi dalam TEE dilindungi dari penyerang menggunakan berbagai teknologi. Oleh karena itu, komputasi dan data tidak memerlukan perlindungan tambahan. TEE yang ada dapat mengizinkan admin project-nya untuk mengakses informasi di dalamnya. Kami mengusulkan kemampuan kustom untuk melarang dan memvalidasi bahwa akses tidak tersedia bagi administrator.
  • Penyerang: Dapat memiliki informasi sampingan tentang pengguna dan memiliki akses penuh ke informasi apa pun yang keluar dari TEE (seperti parameter model yang dipublikasikan).
  • Developer: Orang yang menentukan dan melatih model. Dianggap tidak tepercaya (dan memiliki kemampuan penuh penyerang).

Kami berupaya mendesain ODP dengan semantik privasi diferensial berikut:

  • Batas kepercayaan: Dari perspektif satu pengguna, batas kepercayaan terdiri dari perangkat pengguna sendiri beserta TEE. Setiap informasi yang keluar dari batas kepercayaan ini harus dilindungi oleh privasi diferensial.
  • Penyerang: Perlindungan privasi diferensial penuh sehubungan dengan penyerang. Entitas apa pun di luar batas kepercayaan dapat menjadi penyerang (termasuk developer dan pengguna lain, yang semuanya berpotensi berkolusi). Penyerang, dengan semua informasi di luar batas kepercayaan (misalnya, model yang dipublikasikan), informasi sampingan apa pun tentang pengguna, dan resource yang tidak terbatas, tidak dapat menyimpulkan data pribadi tambahan tentang pengguna (di luar informasi sampingan yang sudah ada), hingga peluang yang diberikan oleh anggaran privasi. Secara khusus, hal ini menyiratkan perlindungan privasi diferensial penuh sehubungan dengan developer. Setiap informasi yang dirilis kepada developer (seperti parameter model terlatih atau inferensi gabungan) dilindungi oleh privasi diferensial.

Parameter model lokal

Semantik privasi sebelumnya mengakomodasi kasus saat beberapa parameter model lokal untuk perangkat (misalnya, model yang berisi penyematan pengguna khusus untuk setiap pengguna, dan tidak dibagikan ke seluruh pengguna). Untuk model tersebut, parameter lokal ini tetap berada dalam batas kepercayaan (tidak dipublikasikan) dan tidak memerlukan perlindungan, sedangkan parameter model bersama dipublikasikan (dan dilindungi oleh privasi diferensial). Hal ini terkadang disebut sebagai model privasi papan reklame 4.

Fitur publik

Dalam aplikasi tertentu, beberapa fitur bersifat publik. Misalnya, dalam masalah rekomendasi film, fitur film (sutradara, genre, atau tahun rilis film) adalah informasi publik dan tidak memerlukan perlindungan, sedangkan fitur yang terkait dengan pengguna (seperti informasi demografis atau film yang ditonton pengguna) adalah data pribadi dan memerlukan perlindungan.

Informasi publik diformalkan sebagai matriks fitur publik (dalam contoh sebelumnya, matriks ini akan berisi satu baris per film dan satu kolom per fitur film), yang tersedia untuk semua pihak. Algoritma pelatihan privasi diferensial dapat menggunakan matriks ini tanpa perlu melindunginya, lihat misalnya 5. Platform ODP berencana menerapkan algoritma tersebut.

Pendekatan terhadap privasi selama prediksi atau inferensi

Inferensi didasarkan pada parameter model dan fitur input. Parameter model dilatih dengan semantik privasi diferensial. Di sini, peran fitur input dibahas.

Dalam beberapa kasus penggunaan, jika developer sudah memiliki akses penuh ke fitur yang digunakan dalam inferensi, tidak ada masalah privasi dari inferensi dan hasil inferensi dapat dilihat oleh developer.

Dalam kasus lain (jika fitur yang digunakan dalam inferensi bersifat pribadi dan tidak dapat diakses oleh developer), hasil inferensi dapat disembunyikan dari developer, misalnya, dengan menjalankan inferensi (dan proses downstream apa pun yang menggunakan hasil inferensi) di perangkat, dalam proses dan area tampilan milik OS, dengan komunikasi yang dibatasi di luar proses tersebut.

Prosedur pelatihan

Arsitektur tingkat tinggi sistem pelatihan
Gambar 1: Arsitektur tingkat tinggi sistem pelatihan.

Ringkasan

Bagian ini memberikan ringkasan tentang arsitektur, dan cara pelatihan berlangsung, lihat Gambar 1. ODP menerapkan komponen berikut:

  • Distributor tepercaya, seperti federated select, download tepercaya, atau pengambilan informasi pribadi, yang berperan sebagai parameter model siaran. Dianggap bahwa distributor tepercaya dapat mengirim subset parameter ke setiap klien, tanpa mengungkapkan parameter yang didownload oleh klien mana. "Penyebaran sebagian" ini memungkinkan sistem meminimalkan jejak di perangkat pengguna akhir: alih-alih mengirim salinan lengkap model, hanya sebagian parameter model yang dikirim ke pengguna tertentu.

  • Agregator tepercaya, yang menggabungkan informasi dari beberapa klien (misalnya gradien, atau statistik lainnya), menambahkan derau, dan mengirimkan hasilnya ke server. Asumsinya adalah ada saluran tepercaya antara klien dan agregator, serta antara klien dan distributor.

  • Algoritma pelatihan DP yang berjalan di infrastruktur ini. Setiap algoritma pelatihan terdiri dari komputasi yang berbeda yang berjalan di berbagai komponen (server, klien, agregator, distributor).

Siklus pelatihan biasanya terdiri dari langkah-langkah berikut:

  1. Server menyiarkan parameter model ke distributor tepercaya.
  2. Komputasi klien
    • Setiap perangkat klien menerima model siaran (atau subset parameter yang relevan dengan pengguna).
    • Setiap klien melakukan beberapa komputasi (misalnya menghitung gradien atau statistik memadai lainnya).
    • Setiap klien mengirimkan hasil komputasi ke agregator tepercaya.
    • Agregator tepercaya mengumpulkan, menggabungkan, dan melindungi statistik dari klien menggunakan mekanisme privasi diferensial yang tepat, lalu mengirimkan hasilnya ke server.
  3. Komputasi server
  4. Server (tidak tepercaya) menjalankan komputasi pada statistik yang dilindungi privasi diferensial (misalnya, menggunakan gradien gabungan privasi diferensial untuk memperbarui parameter model).

Model Faktorisasi dan Minimalisasi Alternatif dengan Privasi Diferensial

Platform ODP berencana menyediakan algoritma pelatihan privasi diferensial serbaguna yang dapat diterapkan ke arsitektur model apa pun (seperti DP-SGD 6 7 8 atau DP-FTRL 9 10, serta algoritma yang dikhususkan untuk model faktorisasi.

Model faktor adalah model yang dapat diuraikan menjadi sub-model (disebut encoder, atau tower). Misalnya, pertimbangkan model dalam bentuk f(u(θu, xu), v(θv, xv)), dengan u() mengenkode fitur pengguna xu (dan memiliki parameter θu), dan v() mengenkode fitur non-pengguna xv (dan memiliki parameter θv). Kedua encoding digabungkan menggunakan f() untuk menghasilkan prediksi model akhir. Misalnya, dalam model rekomendasi film, xu adalah fitur pengguna dan xv adalah fitur film.

Model tersebut sangat cocok dengan arsitektur sistem terdistribusi yang disebutkan di atas (karena memisahkan fitur pengguna dan non-pengguna).

Model faktorisasi akan dilatih menggunakan Minimalisasi Alternatif Pribadi Diferensial (DPAM), yang berganti-ganti antara mengoptimalkan parameter θu (saat θv tetap) dan sebaliknya. Algoritma DPAM telah terbukti mencapai utilitas yang lebih baik dalam berbagai setelan 4 11, terutama jika ada fitur publik.

Referensi