联邦学习-基础知识+白皮书+杨强教授讲座总结+同态加密+差分隐私

发布时间：2023-06-04 作者：admin 来源：讲座

联邦学习-基础知识+⽩⽪书+杨强教授讲座总结+同态加密+差分隐私

联邦学习

兴起原因

联邦学习的出处是⾦融机构的痛点，尤其是像“微众银⾏”这样的互联⽹银⾏。⼀个实⽤的例⼦是检测多⽅借贷。这在银⾏业，尤其是互联⽹⾦融⼀直是很头疼的⼀个问题。多⽅借贷是指某不良⽤户在⼀个⾦融机构借贷后还钱给另⼀个借贷机构，这种⾮法⾏为会让整个⾦融系统崩溃。要发现这样的⽤户，传统的做法是⾦融机构去某中⼼数据库查询⽤户信息，⽽各个机构必须上传他们所有⽤户，但这样做等于暴露⾦融机构的所有重要⽤户隐私和数据安全，这在 GDPR 下就不被允许。在联邦学习的条件下，没有必要建⽴⼀个中⼼数据库，⽽任何参与联邦学习的⾦融机构可以利⽤联邦机制向联邦内的其他机构发出新⽤户的查询，其他机构在不知道这个⽤户具体信息的前提下，回答在本地借贷的提问。这样做既能保护已有⽤户在各个⾦融机构的隐私和数据完整性，同时也能完成查询多头借贷的这个重要问题。

概念

联邦机器学习⼜名联邦学习，联合学习，联盟学习。联邦机器学习是⼀个机器学习框架，能有效帮助多个机构在满⾜⽤户隐私保护、数据安全和政府法规的要求下，进⾏数据使⽤和机器学习建模

分类

针对不同数据集，联邦学习分为横向联邦学习（horizontal federated learning）、纵向联邦学习（vertical federated learning）与联邦迁移学习（Federated Transfer Learning，FmL）

横向联邦学习

横向联邦学习在两个数据集的⽤户特征重叠较多，⽽⽤户重叠较少的情况下，我们把数据集按照横向（即⽤户维度）切分，并取出双⽅⽤户特征相同⽽⽤户不完全相同的那部分数据进⾏训练。这种⽅法叫做横向联邦学习。⽐如有两家不同地区的银⾏，它们的⽤户群体分别来⾃各⾃所在的地区，相互的交集很⼩。但是，它们的业务很相似，因此，记录的⽤户特征是相同的。此时，我们就可以使⽤横向联邦学习来构建联合模型。

⾕歌在2016年提出了⼀个针对安卓⼿机模型更新的数据联合建模⽅案：在单个⽤户使⽤安卓⼿机时，不断在本地更新模型参数并将参数上传到安卓云上，从⽽使特征维度相同的各数据拥有⽅建⽴联合模型

纵向联邦学习

纵向联邦学习在两个数据集的⽤户重叠较多⽽⽤户特征重叠较少的情况下，我们把数据集按照纵向（

即特征维度）切分，并取出双⽅⽤户相同⽽⽤户特征不完全相同的那部分数据进⾏训练。这种⽅法叫做纵向联邦学习。

⽐如有两个不同的机构，⼀家是某地的银⾏，另⼀家是同⼀个地⽅的电商。它们的⽤户群体很有可能包含该地的⼤部分居民因此⽤户的交集较⼤。但是，由于银⾏记录的都是⽤户的收⽀⾏为与信⽤评级，⽽电商则保有⽤户的浏览与购买历史，因此它们的⽤户特征交集较⼩。

纵向联邦学习就是将这些不同特征在加密的状态下加以聚合，以增强模型能⼒。⽬前，逻辑回归模型、树形结构模型和神经⽹络模型等众多机器学习模型已经逐渐被证实能够建⽴在此联邦体系上。

联邦迁移学习

第⼀部分：加密样本对齐

由于两家企业的⽤户群体并⾮完全重合，系统利⽤基于加密的⽤户样本对齐技术，在 A 和 B 不公开各⾃数据的前提下确认双⽅的共有⽤户，并且不暴露不互相重叠的⽤户。以便联合这些⽤户的特征进⾏建模。

迭代上述步骤直⾄损失函数收敛，这样就完成了整个训练过程。在样本对齐及模型训练过程中，A和B各⾃的数据均保留在本地，且训练中的数据交互也不会导致数据隐私泄露。因此，双⽅在联邦学习

的帮助下得以实现合作训练模型

联邦学习与现有研究的区别

联邦学习与差分隐私理论的区别

联邦学习的特点使其可以被⽤来保护⽤户数据的隐私，但是它和⼤数据、数据挖掘领域中常⽤的隐私保护理论如差分隐私保护理论（Differential Privacy）、k 匿名（kAnonymity）和 l 多样化（l-Diversity）等⽅法还是有较⼤的差别的。⾸先联邦学习与传统隐私保护⽅法的原理不同，联邦学习通过加密机制下的参数交换⽅式保护⽤户数据隐私，加密⼿段包括同态加密[10]等。与 Differential Privacy 不同，其数据和模型本⾝不会进⾏传输，因此在数据层⾯上不存在泄露的可能，也不违反更严格的数据保护法案如 GDPR 等。⽽差分隐私理论、k 匿名和 l 多样化等⽅法是通过在数据⾥加噪⾳，或者采⽤概括化的⽅法模糊某些敏感属性，直到第三⽅不能区分个体为⽌，从⽽以较⾼的概率使数据⽆法被还原，以此来保护⽤户隐私。但是，从本质上来说这些⽅法还是进⾏了原始数据的传输，存在着潜在被攻击的可能性，并且在 GDPR 等更严格的数据保护⽅案下这种数据隐私的保护⽅式可能不再适⽤。与之对应的，联邦学习是对⽤户数据隐私保护更为有⼒的⼿段。

联邦学习与分布式机器学习的区别

同时横向联邦学习中多⽅联合训练的⽅式与分布式机器学习（Distributed Machine Learning）有部分相似的地⽅。分布式机器学习涵盖了多个⽅⾯，包括把机器学习中的训练数据分布式存储、计算任务分布式运⾏、模型结果分布式发布等，参数服务器（Parameter Server）[4]是分布式机器学习中⼀个典型的例⼦。参数服务器作为加速机器学习模型训练过程的⼀种⼯具，它将数据存储在分布式的⼯作节点上，通过⼀个中⼼式的调度节点调配数据分布和分配计算资源，以便更⾼效的获得最终的训练模型。⽽对于联邦学习⽽⾔，⾸先在于横向联邦学习中的⼯作节点代表的是模型训练的数据拥有⽅，其对本地的数据具有完全的⾃治权限，可以⾃主决定何时加⼊联邦学习进⾏建模，相对地在参数服务器中，中⼼节点始终占据着主导地位，因此联邦学习⾯对的是⼀个更复杂的学习环境；其次，联邦学习则强调模型训练过程中对数据拥有⽅的数据隐私保护，是⼀种应对数据隐私保护的有效措施，能够更好地应对未来愈加严格的数据隐私和数据安全监管环境

联邦学习与联邦数据库的关系

联邦数据库系统（Federated Database System）[5]是将多个不同的单元数据库进⾏集成，并对集成后的整体进⾏管理的系统。它的提出是为了实现对多个独⽴的数据库进⾏相互操作。联邦数据库系统对单元数据库往往采⽤分布式存储的⽅式，并且在实际中各个单元数据库中的数据是异构的，因此，它和联邦学习在数据的类型与存储⽅式上有很多相似之处。但是，联邦数据库系统在各个单元数据库交互的过程中不涉及任何隐私保护机制，所有单元数据库对管理系统都是完全可见的。此外，联邦数

据库系统的⼯作重⼼在包括插⼊、删除、查找、合并等各种数据库基本操作上⾯，⽽联邦学习的⽬的是在保护数据隐私的前提下对各个数据建⽴⼀个联合模型，使数据中蕴含的各种模式与规律更好地为我们服务。

联邦学习的最新发展及应⽤（2019第四届全球⼈⼯智能与机器⼈峰会）

AI机器⼈

语⾳客服机器⼈

⽐如要理解每句话的意图和整个对话线程的意图

此外还需要进⾏情感分析⽐如在⼀些场景中，需要分辨出客户的急躁或不满，也需分析出客户的兴趣点，机器只有区分开这些细微的信号，才能实现优质的多轮对话效果

除此之外，还要进⾏多线程的分析，⽐如⽤户说的上⼀句和下⼀句话意图不同，前⾔不搭后语，机器需把这个逻辑分解出来。

拥有上亿⽤户的垂直领域

风控机器⼈

对话机器⼈还可以做风控，⽐如在和客户对话的过程中发现⼀些蛛丝马迹，辨别对⽅是否是在进⾏欺诈。就像我们⾯试⼀个⼈或者和借款⼈交流时，随时随地都要提⾼警惕，防⽌对⽅欺诈。

质检机器⼈

⼩数据与隐私保护的双重挑战

同态加密Homomorphic Encryption

👁️ 阅读量：0

🔖 本文标签：

🔥 最新发布文章