基于最大最小策略的纵向联邦学习隐私保护方法

2024-08-23 12:05阅读：

http://blog.sina.cn/dpool/blog/u/1304706164

引用本文

李荣昌, 刘涛, 郑海斌, 陈晋音, 刘振广, 纪守领. 基于最大−最小策略的纵向联邦学习隐私保护方法. 自动化学报, 2024, 50(7): 1373−1388 doi: 10.16383/j.aas.c211233
Li Rong-Chang, Liu Tao, Zheng Hai-Bin, Chen Jin-Yin, Liu Zhen-Guang, Ji Shou-Ling. Privacy preservation method for vertical federated learning based on max-min strategy. Acta Automatica Sinica, 2024, 50(7): 1373−1388 doi: 10.16383/j.aas.c211233

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c211233

关键词

纵向联邦学习，属性推断攻击，隐私保护，最大−最小策略，工业互联网

摘要

纵向联邦学习(Vertical federated learning, VFL)是一种新兴的分布式机器学习技术, 在保障隐私性的前提下, 利用分散在各个机构的数据实现机器学习模型的联合训练. 纵向联邦学习被广泛应用于工业互联网、金融借贷和医疗诊断等诸多领域中, 因此保证其隐私安全性具有重要意义. 首先, 针对纵向联邦学习协议中由于参与方交换的嵌入表示造成的隐私泄漏风险, 研究由协作者发起的通用的属性推断攻击. 攻击者利用辅助数据和嵌入表示训练一个攻击模型, 然后利用训练完成的攻击模型窃取参与方的隐私属性. 实验结果表明, 纵向联邦学习在训练推理阶段产生的嵌入表示容易泄漏数据隐私. 为了应对上述隐私泄漏风险, 提出一种基于最大−最小策略的纵向联邦学习隐私保护方法(Privacy preservation method for vertical federated learning based on max-min strategy, PPVFL), 其引入梯度正则组件保证训练过程主任务的预测性能, 同时引入重构组件掩藏参与方嵌入表示中包含的隐私属性信息. 最后, 在钢板缺陷诊断工业场景的实验结果表明, 相比于没有任何防御方法的VFL, 隐私保护方法将攻击推断准确度从95%下降到55%以下, 接近于随机猜测的水平, 同时主任务预测准确率仅下降2%.

文章导读

随着深度学习在诸多领域取得优异的性能, 工业互联网中不断引入深度学习技术[1−3]赋能传统企业. 工业互联网的快速发展得益于海量的工业数据和丰富的计算资源. 然而, 随着数据隐私保护法规的颁布[4−5], 企业间难以通过直接交换私有数据的方式训练深度学习模型, 极大制约了工业互联网的快速发展. 联邦学习(Federated learning, FL)为上述问题提供了解决方案, 在保证隐私的前提下利用分散在各个机构的数据联合训练机器学习模型.

联邦学习按照机构间数据的分布差异[6], 通常可分为横向联邦学习(Horizontal federated learning, HFL)、纵向联邦学习(Vertical federated lea-rning, VFL)和联邦迁移学习. HFL适用于参与方间数据特征空间相同、样本空间不同的场景, 其中特征空间指参与方用户的属性信息, 样本空间指参与方数据中的用户成员信息. 例如, 某银行在A地区和B地区设有分行, 两地业务类似, 即具有相同的特征空间; 用户差异较大, 即具有不同的样本空间. VFL适用于参与方间的数据具有相同样本空间、不同特征空间的场景. 例如, 来自相同地区的银行和借贷机构, 银行具有该地区的经济状况, 借贷机构具有该地区的信用记录, 2个公司具有的用户类似, 即具有相同的样本空间; 2个公司的业务不同, 即具有不同的特征空间. 联邦迁移学习适用于参与方间数据集共享的样本空间和特征空间都有限的场景. 由于现实场景中来自同一个地区的不同机构间的合作日益紧密, VFL逐渐受到更多关注.

随着FL在诸多领域得到应用[7−8], 研究者们关注到FL算法本身的隐私安全性, 已有研究分别从参与方和协作方2个角度, 讨论HFL中良性参与方所面临的隐私泄漏风险. 现有研究表明, 参与方或协作方可利用HFL训练过程中传输的中间信息发动成员推断攻击[9−10]或数据重构攻击[11−12], 使得HFL中的参与方遭受隐私泄漏威胁. 现有研究针对VFL场景, 仅评估参与方作为攻击者时对良性参与方造成的隐私泄漏风险[13]. 协作方通常被假设为一个诚实可信的第三方, 但在现实场景中, 难以保证协作方是完全诚实可信的. 特别地, VFL在训练过程中的良性参与方上传的嵌入表示通常包含其关键的原始信息(包括隐私信息), 该原始信息存在泄漏的风险. VFL中的隐私信息泄漏带来极大的社会危害. 例如现实场景中, 一个银行和一个借贷机构试图联合构建一个评估用户信誉度的VFL系统, 如图1所示. 其中, 借贷机构作为协作方和主参与方提供用户的贷款数据, 银行作为从参与方提供用户的金融数据(如“用户负债”). 在训练过程中, 借贷机构一方面正常参与训练; 另一方面试图从银行窃取用户的“用户负债”数据, 从而恶意地推销高利贷服务. 因此, 研究VFL隐私保护方法显得尤为重要.

图 1 VFL隐私泄漏示例

为了评估VFL中良性参与方所面临的隐私泄漏风险, 本文提出一种由协作者发起的通用属性推断攻击. 攻击者利用良性参与方在联合训练过程中上传的嵌入表示和收集的样本隐私属性训练一个攻击模型, 并利用训练完成的攻击模型, 推断未知样本的隐私属性. 在基于全连接神经网络(Fully connected neural network, FCNN)构建的VFL框架上, 通过对实际工业场景的钢板缺陷诊断数据集上的实验结果表明, 仅当攻击者收集到参与方1% (20张)样本隐私属性数据时, 可达到对良性参与方“钢板序列”隐私属性95%的攻击推断准确度. 此外, 这种属性推断攻击可同时窃取VFL中良性参与方在训练阶段的隐私属性和测试阶段的隐私属性.

VFL研究中常见的防御方法可分为基于加密的保护方法和基于扰动的保护方法2种, 但无法有效防御本文提出的属性推断攻击. 其中, 现有基于加密技术(

举报/Report

我的更多文章

下载客户端阅读体验更佳

APP专享

新浪博客

基于最大最小策略的纵向联邦学习隐私保护方法

分享

我的更多文章

下载客户端阅读体验更佳

疯狂捕鱼