施宇钧NUS 投稿
量子位 | 公众号 QbitAI
随着深度学习大获成功,保护用户数据隐私变得越来越重要。
联邦学习(Federated Learning)应运而生,这是一种基於隐私保护的分散式机器学习框架。
它可以让原始数据保留在本地,让多方联合共享模型训练。
但它有一个问题——数据的异质化(data heterogeneity),即不同的参与方的本地数据来自不同的分布,这将严重影响全局模型的最终性能,背後原因也十分复杂。
位元组跳动、新加坡国立大学及中科院自动化所的学者们首次发现了关键影响因素。
即:数据异质化导致了表徵的维度坍缩(dimensional collapse),由此大大限制了模型的表达能力,影响了最终全局模型的性能。
为了缓解这一问题,研究人员提出了一个新联邦学习正则项:FedDecorr。
结果表明,使用该方法後,数据异质化带来的维度坍缩问题被有效缓解,显着提升模型在该场景下的性能。
同时这一方法实现简单,几乎不会带来额外计算负担,可以很容易地加入到多种联邦学习演算法上。
如何影响?观察一:更严重的数据异质化会为全局模型(global model)带来更严重的维度坍缩
首先,为了更好地理解数据异质化是如何影响全局模型输出表徵的,研究人员探索了随着数据异质化越来越严重,全局模型输出表徵是如何而变化的。
基於模型输出的表徵,估计其表徵分布的协方差矩阵(covariance matrix),并且按照从大到小的顺序可视化了该协方差矩阵的特徵值。结果如下图所示。α越小,异质化程度越高,α为正无穷时为同质化场景。k为特徵值的index。
对於该曲线,如果特徵值大部分相对较大,即意味着表徵能够更加均匀地分布在不同的特徵方向上。而如果该曲线只有前面少数特徵值较大,而後面大部分特徵值都很小,就意味着表徵分布被压缩在少数特徵方向上,即维度坍缩现象。
因此,从图中可以看到,随着数据异质化程度越来越高(α越来越小),维度坍缩的现象就越来越严重。
观察二:全局模型的维度坍缩来自联邦参与各方的局部模型的维度坍缩
由於全局模型是联邦参与各方的局部模型融合的结果,因此作者推断:全局模型的维度坍缩来源於联邦参与各方的局部模型的维度坍缩。
为了进一步验证该推断,作者使用与观察1类似的方法,针对不同程度数据异质化场景下得到的局部模型进行了可视化。结果如下图所示。
从图中可以看到,对於局部模型,随着数据异质化程度的提升,维度坍缩的现象也越来越严重。因此得出结论,全局模型的维度坍缩来源於联邦参与各方的局部模型的维度坍缩。
怎麽解决?
受到以上两个观察的启发,由於全局模型的维度坍缩来源於本地局部模型的维度坍缩,研究人员提出在本地训练阶段来解决联邦学习中的表徵维度坍缩问题。
首先,一个最直观的可用的正则项为以下形式:
其中
为第
个特徵值。该正则项将约束特徵值之间的方差变小,从而使得较小的特徵值不会偏向於0,由此缓解维度坍缩。
然而,直接计算特徵值往往会带来数值不稳定,计算时间较长等问题。因此藉助以下proposition来改进方法。
为了方便处理,需要对表征向量做z-score归一化。这将使得协方差矩阵变成相关系数矩阵(对角线元素都是1)。
基於这个背景,可以得到以下proposition:
这一proposition意味着,原本较为复杂的基於特徵值的正则化项,可以被转化为以下易於实现且计算方便的目标:
该正则项即是简单的约束表徵的相关系数矩阵的Frobenius …