在Latent Factor Models中添加噪声的方式通常是在目标函数中引入高斯噪声,使得每个元素都有一定的概率被扰动。因此,在该模型中,我们可以将目标函数表示为:
argminP,Q∣R−PQT∣F2+σ2n∣P∣F2+σ2m∣Q∣F2\text{argmin}_{\mathbf{P}, \mathbf{Q}} | \mathbf{R} - \mathbf{PQ}^T |_F^2 + \frac{\sigma^2}{n} | \mathbf{P} |_F^2 + \frac{\sigma^2}{m} | \mathbf{Q} |_F^2argminP,Q∣R−PQT∣F2+nσ2∣P∣F2+mσ2∣Q∣F2
其中,R\mathbf{R}R 是观测矩阵,P\mathbf{P}P 和 Q\mathbf{Q}Q 分别是潜在因子矩阵和因子载荷矩阵,σ\sigmaσ 是高斯噪声的标准差,nnn 和 mmm 分别是 P\mathbf{P}P 和 Q\mathbf{Q}Q 的大小。
要证明合成数据满足差分隐私,我们需要考虑两个相邻数据集 D\mathcal{D}D 和 D′\mathcal{D}'D′ 之间的距离,即 ∣∣D−D′∣∣1||\mathcal{D} - \mathcal{D}'||_1∣∣D−D′∣∣1。在这种情况下,我们可以将 D\mathcal{D}D 视为无噪声的数据集,而 D′\mathcal{D}'D′ 视为向每个元素添加了高斯噪声 N(0,σ2)\mathcal{N}(0, \sigma^2)N(0,σ2) 的数据集。因此,我们可以考虑在潜在因子矩阵和因子载荷矩阵上添加的噪声对距离的影响。
具体地,我们可以使用 Lipschitz 常数来度量添加的噪声对目标函数的影响。在这种情况下,我们可以发现,如果我们向每个元素添加的噪声 ϵi\epsilon_iϵi 满足 ∣ϵi∣≤c/n|\epsilon_i| \leq c/\sqrt{n}∣ϵi∣≤c/n,则目标函数是满足 (c/n)(c/\sqrt{n})(c/n)-Lipschitz 的。这意味着添加的噪声对目标函数的最大影响不超过 (c/n)∣∣D−D′∣∣1(c/\sqrt{n})||\mathcal{D} - \mathcal{D}'||_1(c/n)∣∣D−D′∣∣1,从而满足 (ϵ,δ)(\epsilon, \delta)(ϵ,δ)-差分隐私。
综上所述,将高斯噪声添加到 Latent Factor Models 的目标函数中可以保护合成数据的差分隐私。
参考