Cihaz üzerinde kişiselleştirme için diferansiyel gizlilik semantikleri

Bu dokümanda, cihaz üzerinde kişiselleştirme (ODP) için gizlilik yaklaşımı özellikle diferansiyel gizlilik bağlamında özetlenmiştir. Bu dokümanın odağını korumak için veri azaltma gibi diğer gizlilik etkileri ve tasarım kararları kasıtlı olarak dışarıda bırakılmıştır.

Diferansiyel gizlilik

Diferansiyel gizlilik ¹, istatistiksel veri analizinde ve makine öğreniminde ² ³ yaygın olarak kullanılan bir gizlilik koruma standardıdır. Daha açık bir ifadeyle, bir saldırgan, kaydının temel veri kümesinde görünüp görünmediğine bakılmaksızın, diferansiyel gizlilik algoritmasının çıktısından bir kullanıcı hakkında neredeyse aynı şeyi öğrenir. Bu, bireyler için güçlü korumalar anlamına gelir: Bir kişiyle ilgili tüm çıkarımlarda, yalnızca veri kümesinin, söz konusu kişinin kaydı olsun veya olmasın geçerli olan toplu özellikleri dikkate alınır.

Makine öğrenimi bağlamında algoritmanın çıktısı, eğitilmiş model parametreleri olarak düşünülmelidir. Neredeyse aynı ifadesi, matematiksel olarak iki parametreyle (ε, δ) ölçülür. Burada ε genellikle küçük bir sabit olarak seçilir ve δ≪1/(kullanıcı sayısı) olur.

Gizlilik semantikleri

ODP tasarımı, her eğitim çalıştırmasının (ε,δ) kullanıcı düzeyinde diferansiyel olarak gizli olmasını sağlamaya çalışır. Aşağıda, bu semantik yaklaşıma ulaşma yaklaşımımız özetlenmiştir.

Tehdit modeli

Farklı tarafları tanımlar ve her biriyle ilgili varsayımlarımızı belirtiriz:

Kullanıcı: Cihazın sahibi olan ve geliştirici tarafından sağlanan ürün veya hizmetlerin tüketicisi olan kullanıcı. Gizli bilgileri yalnızca kendileri tarafından görülebilir.
Güvenilir yürütme ortamı (TEE): TEE'lerde gerçekleşen veriler ve güvenilir hesaplamalar, çeşitli teknolojiler kullanılarak saldırganlardan korunur. Bu nedenle, hesaplama ve veriler için ek koruma gerekmez. Mevcut TEE'ler, proje yöneticilerinin içindeki bilgilere erişmesine izin verebilir. Bir yöneticinin erişimine izin vermemek ve erişimin olmadığını doğrulamak için özel özellikler sunuyoruz.
Saldırgan: Kullanıcı hakkında yan bilgilere sahip olabilir ve TEE'den çıkan tüm bilgilere (ör. yayınlanan model parametreleri) tam erişime sahiptir.
Geliştirici: Modeli tanımlayan ve eğiten kişidir. Güvenilir olmayan olarak kabul edilir (ve saldırganın tüm yeteneklerine sahiptir).

ODP'yi aşağıdaki diferansiyel gizlilik semantikleriyle tasarlamaya çalışıyoruz:

Güven sınırı: Bir kullanıcının bakış açısından güven sınırı, TEE ile birlikte kullanıcının kendi cihazından oluşur. Bu güven sınırını aşan tüm bilgiler, diferansiyel gizlilikle korunmalıdır.
Saldırgan: Saldırgana göre tam diferansiyel gizlilik koruması. Güven sınırı dışındaki herhangi bir varlık saldırgan olabilir (geliştirici ve diğer kullanıcılar da dahil olmak üzere, hepsi potansiyel olarak işbirliği içindedir). Güven sınırının dışındaki tüm bilgiler (ör. yayınlanan model), kullanıcıyla ilgili tüm yan bilgiler ve sonsuz kaynaklar göz önüne alındığında, saldırgan, gizlilik bütçesi tarafından verilen olasılıklara kadar kullanıcıyla ilgili ek gizli verileri (yan bilgilerde zaten bulunanların ötesinde) tahmin edemez. Özellikle, geliştirici açısından tam diferansiyel gizlilik koruması anlamına gelir. Geliştiriciye sunulan tüm bilgiler (ör. eğitilmiş model parametreleri veya toplu çıkarımlar) diferansiyel gizlilikle korunur.

Yerel model parametreleri

Önceki gizlilik semantikleri, model parametrelerinin bazılarının cihaz yerelinde olduğu durumları (ör. her kullanıcıya özel bir kullanıcı yerleştirme içeren ve kullanıcılar arasında paylaşılmayan bir model) destekler. Bu tür modellerde yerel parametreler güven sınırında kalır (yayınlanmaz) ve koruma gerektirmez. Paylaşılan model parametreleri ise yayınlanır (ve diferansiyel gizlilikle korunur). Bu, bazen reklam panosu gizlilik modeli ⁴ olarak da adlandırılır.

Herkese açık özellikler

Belirli uygulamalarda bazı özellikler herkese açıktır. Örneğin, film önerisi probleminde filmin özellikleri (yönetmen, tür veya filmin gösterim yılı) herkese açık bilgilerdir ve korunmaya ihtiyaç duymaz. Kullanıcıyla ilgili özellikler (demografik bilgiler veya kullanıcının izlediği filmler gibi) ise özel verilerdir ve korunmaya ihtiyaç duyar.

Herkese açık bilgiler, tüm tarafların erişimine açık olan herkese açık bir özellik matrisi (önceki örnekte bu matris, film başına bir satır ve film özelliği başına bir sütun içerir) olarak biçimlendirilir. Diferansiyel gizlilik eğitimi algoritması, bu matrisi korumaya gerek kalmadan kullanabilir. Örneğin ⁵ bölümüne bakın. ODP platformu bu tür algoritmaları uygulamayı planlamaktadır.

Tahmin veya çıkarım sırasında gizliliğe yönelik bir yaklaşım

Çıkarımlar, model parametrelerine ve giriş özelliklerine dayanır. Model parametreleri, diferansiyel gizlilik semantiğiyle eğitilir. Burada, giriş özelliklerinin rolü ele alınmaktadır.

Bazı kullanım alanlarında, geliştiricinin çıkarım için kullanılan özelliklere zaten tam erişimi varsa çıkarım nedeniyle gizlilik sorunu yaşanmaz ve çıkarım sonucu geliştirici tarafından görülebilir.

Diğer durumlarda (tahminde kullanılan özellikler gizliyse ve geliştirici tarafından erişilemezse), çıkarım sonucu geliştiriciden gizlenebilir. Örneğin, çıkarım (ve çıkarım sonucunu kullanan tüm aşağı akış işlemleri) cihaz üzerinde, işletim sistemine ait bir işlemde ve görüntüleme alanında çalıştırılarak ve bu işlem dışındaki iletişim kısıtlanarak geliştiriciden gizlenebilir.

Eğitim prosedürü

Eğitim sistemi üst düzey mimarisi — **Şekil 1:** Eğitim sisteminin üst düzey mimarisi.

Genel Bakış

Bu bölümde, mimariye ve eğitimin nasıl ilerlediğine dair genel bir bakış sunulmaktadır. Şekil 1'e bakın. ODP aşağıdaki bileşenleri uygular:

Model parametrelerini yayınlama rolünü oynayan birleşik seçim, güvenilir indirme veya gizli bilgi alma gibi güvenilir bir distribütör. Güvenilir distribütörün, hangi parametrelerin hangi istemci tarafından indirildiğini göstermeden her istemciye bir parametre alt kümesi gönderebileceği varsayılır. Bu "kısmi yayın", sistemin son kullanıcı cihazındaki ayak izini en aza indirmesine olanak tanır: Modelin tam kopyası yerine, belirli bir kullanıcıya model parametrelerinin yalnızca bir kısmı gönderilir.
Birden fazla istemciden gelen bilgileri (ör. gradyanlar veya diğer istatistikler) toplayan, gürültü ekleyen ve sonucu sunucuya gönderen güvenilir bir toplayıcı. İstemci ile toplayıcı ve istemci ile distribütör arasında güvenilir kanallar olduğu varsayılır.
Bu altyapıda çalışan DP eğitim algoritmaları. Her eğitim algoritması, farklı bileşenlerde (sunucu, istemci, toplayıcı, distribütör) çalışan farklı hesaplamalardan oluşur.

Tipik bir eğitim turu aşağıdaki adımlardan oluşur:

Sunucu, model parametrelerini güvenilir distribütöre yayınlar.
Müşteri hesaplaması
- Her istemci cihazı, yayın modelini (veya kullanıcıyla alakalı parametre alt kümesini) alır.
- Her istemci bazı hesaplamalar yapar (ör. gradyanlar veya diğer yeterli istatistikleri hesaplama).
- Her istemci, hesaplamanın sonucunu güvenilir toplayıcıya gönderir.
- Güvenilir toplayıcı, istemcilerden gelen istatistikleri uygun diferansiyel gizlilik mekanizmalarını kullanarak toplar, birleştirir ve korur, ardından sonucu sunucuya gönderir.
Sunucu hesaplaması
(Güvenilir olmayan) sunucu, diferansiyel gizlilikle korunan istatistikler üzerinde hesaplamalar yapar (ör. model parametrelerini güncellemek için diferansiyel gizlilikli toplu gradyanlar kullanır).

Faktörleştirilmiş Modeller ve Farklı Gizli Alternatif Azaltma

ODP platformu, herhangi bir model mimarisine uygulanabilen genel amaçlı diferansiyel gizlilik eğitim algoritmaları (ör. DP-SGD ⁶ ⁷ ⁸ veya DP-FTRL ⁹ ¹⁰) ve faktorize modellere özel algoritmalar sağlamayı planlamaktadır.

Faktörize edilmiş modeller, alt modellere (kodlayıcı veya kule olarak adlandırılır) ayrılabilen modellerdir. Örneğin, u()'ın kullanıcı özelliklerini xu (ve θu parametrelerine sahip) kodladığı ve v()'ın kullanıcı dışı özellikleri xv (ve θv parametrelerine sahip) kodladığı f(u(θu, xu), v(θv, xv)) biçiminde bir model düşünün. Nihai model tahminini oluşturmak için iki kodlama f() kullanılarak birleştirilir. Örneğin, bir film önerisi modelinde xu kullanıcı özellikleri, xv ise film özellikleridir.

Bu tür modeller, kullanıcı ve kullanıcı dışı özellikleri ayırdıkları için yukarıda belirtilen dağıtılmış sistem mimarisine çok uygundur.

Faktörleştirilmiş modeller, θu parametrelerini (θv sabitken) optimize etme ve bunun tam tersini yapma arasında geçiş yapan Diferansiyel Gizli Alternatif Azaltma (DPAM) kullanılarak eğitilir. DPAM algoritmalarının, özellikle herkese açık özelliklerin bulunduğu çeşitli ayarlarda ⁴ ¹¹ daha iyi sonuçlar sağladığı gösterilmiştir.

Cihaz üzerinde kişiselleştirme için diferansiyel gizlilik semantikleri Koleksiyonlar ile düzeninizi koruyun İçeriği tercihlerinize göre kaydedin ve kategorilere ayırın.