沃卡惠移动端logo

沃卡惠  技术前沿

资讯详情

什么是差分隐私?

2022-12-02 09:27:134636

我们生活在大数据时代,数据隐私问题更加受到关注。人类每秒产生数量惊人的数据,公司将这些数据用于广泛的应用。随着数据以前所未有的速度存储和共享,必须有更多的隐私保护技术。

差分隐私就是这样一种保护个人数据的方法,事实证明它比我们的许多传统方法更有效。它可以定义为一种系统,通过描述数据集中的组模式来公开共享有关数据集的信息,同时保留有关数据集中个人的信息。

差异隐私使研究人员和数据库分析师能够从数据库中获取有价值的信息,而不会泄露有关个人的个人身份信息。这一点很重要,因为许多数据库都包含各种个人信息。

另一种看待差异隐私的方式是,它通过向数据集中注入噪声来创建匿名数据。引入的噪音有助于保护隐私,同时仍然受到足够的限制,因此分析师可以可靠地使用数据。

您可以拥有两个几乎相同的数据集。一个有您的个人信息,一个没有。使用差分隐私,您可以确保统计查询产生给定结果的概率是相同的,无论它在哪个数据库上执行。

什么是差分隐私?

差分隐私如何运作?

差异隐私的工作方式是通过向数据集引入隐私损失或隐私预算参数,通常表示为epsilon(ε)。这些参数控制向原始数据集添加多少噪声或随机性。

例如,假设您在数据集中有一列包含个人的“是”/“否”答案。

现在,假设您为每个人掷硬币:

  • 负责人:答案保持原样。
  • 反面:你第二次翻转,如果是正面,则记录答案为“是”,如果是反面,则记录为“否”,而不管真正的答案是什么。

通过使用此过程,您可以为数据添加随机性。使用大量数据和来自噪声添加机制的信息,数据集将在聚合测量方面保持准确。由于随机化过程,隐私通过允许每个人合理地否认他们的真实答案来实现。

虽然这是差分隐私的一个简单示例,但它提供了基本的理解。在实际应用中,算法更为复杂。

同样重要的是要注意,差分隐私可以在本地实施,即在个人数据集中在数据库中之前将噪声添加到个人数据中,或者在全球范围内实施,即在从个人收集原始数据后将噪声添加到原始数据中。

差分隐私的例子

差分隐私广泛应用于推荐系统、社交网络和基于位置的服务等应用程序。

以下是大公司如何依赖差异隐私的一些示例:

  • Apple使用该方法从iPhone和Mac等设备收集匿名使用情况的见解。
  • Facebook使用差分隐私来收集可用于有针对性的广告活动的行为数据。
  • 亚马逊依靠这项技术来深入了解个性化购物偏好,同时隐藏敏感信息。

Apple在使用差异隐私来深入了解用户的同时保护他们的隐私方面一直特别透明。

“Apple已经采用并进一步开发了一种在学术界被称为本地差异隐私的技术来做一些真正令人兴奋的事情:深入了解许多Apple用户正在做什么,同时帮助保护个人用户的隐私。这是一种使Apple无需了解社区中的个人即可了解用户社区的技术。差分隐私会在信息离开用户设备之前转换与Apple共享的信息,这样Apple就永远无法复制真实数据。”

–Apple的差分隐私概述

差分隐私的应用

由于我们生活在这个大数据时代,因此存在许多威胁政府、组织和公司的数据泄露事件。与此同时,当今的机器学习应用依赖于需要大量训练数据的学习技术,这些数据通常来自个人。研究机构还使用和共享具有机密信息的数据。以任何方式不当披露这些数据都会给个人和组织带来很多问题,严重时甚至会导致民事责任。

像差分隐私这样的正式隐私模型解决了所有这些问题。它们用于保护个人信息、实时位置等。

通过使用差分隐私,公司可以在不泄露数据的情况下访问大量敏感数据用于研究或业务。研究机构还可以开发特定的差分隐私技术,以在越来越受欢迎的云共享社区中实现隐私过程的自动化。

为什么使用差分隐私?

差异隐私提供了一些主要属性,使其成为在确保隐私的同时分析私人数据的优秀框架:

  • 隐私损失的量化:差分隐私机制和算法可以衡量隐私损失,这使得它能够与其他技术进行比较。
  • Composition:由于可以量化隐私损失,因此还可以通过多次计算对其进行分析和控制,从而实现不同算法的开发。
  • 群体隐私:除了个人层面,差异化隐私使您能够分析和控制较大群体之间的隐私损失。
  • 后处理安全:后处理不会损害差分隐私。例如,数据分析师无法计算差分隐私算法输出的函数并将其降低差分隐私。

差分隐私的好处

正如我们前面提到的,差分隐私优于许多传统的隐私技术。例如,如果所有可用信息都是可识别信息,则差分隐私可以更轻松地识别数据的所有元素。它还可以抵抗基于辅助信息的隐私攻击,防止可以对去标识化数据进行的攻击。

差异隐私的最大好处之一是它是组合的,这意味着您可以计算对同一数据进行两次差异隐私分析的隐私损失。这是通过对两项分析的个人隐私损失求和来完成的。

虽然差分隐私是一种新工具并且很难在研究团体之外实现,但易于实施的数据隐私解决方案正变得越来越容易获得。在不久的将来,我们应该会看到越来越多的此类解决方案可供更广泛的公众使用。