郭 辉,郭静纯
(宁夏大学 信息工程学院,宁夏 银川 750021)
按照学习模式的不同,多任务学习可以分为结构化学习方法和多任务深度学习方法。其中,前者包括基于任务层面和基于特征层面两种方法;
而后者主要包括硬参数共享、软参数共享及其改进的多任务学习方法[1]。
在进行多任务学习时,如果任务之间具有较强的相关性,适合选用硬参数共享机制或基于任务层面的学习方法;
反之,则采用软参数共享机制或基于特征层面的多任务学习模型,这可以在一定程度上缓解前者对任务具有较高整体相似度的约束。如何充分地发挥上述两类方法的特点,综合应用于更广泛的多任务深度学习网络中,这是目前多任务学习问题面临的主要挑战之一。
针对上述问题,本文提出了将硬参数共享机制与软参数共享机制相结合的混合共享多任务学习神经网络,给出相应的混合交替网络训练方法与应用流程,并通过在MINIST数据集上的具体实验和相关对比分析,验证了该方法的有效性,这为多任务深度学习提供了新的解决思路。
基于任务层面的多任务学习包括模型参数共享[2]、公共特征共享[3]、多任务聚类结构[4]以及多任务子空间学习[5]4种方法。前两种学习方法都要假定一个特征共享空间,区别在于:前者直接在任务上寻找中心模型;
而后者经过特征选择后确定共同结构,共享公共特征。多任务聚类结构则需假定多个特征共享空间,并寻找其中心模型;
同时为了实现特征选择与正则化,在学习时需进行任务之间的相互约束。然而,上述3种方法在共享特征时都会忽略共享结构之外的特征,存在信息丢失问题。在此基础上,子空间学习方法假设所有任务的特定信息保留在低维公共子空间中,不再以同等重要性在某些特征上共享信息,而考虑保留各自任务的特定信息,是一种隐式共享特征方法。
与基于任务层面的学习方法不同,基于特征层面的多任务学习对任务的每个特征进行建模,注重个体特征的共享迁移。其代表性方法有鲁棒多任务学习[6]、脏模型[7]、协同聚类模型[8]、可变簇聚类模型[9]等。这些方法的关键在于鲁棒主成分的矩阵分解,不仅要考虑任务之间的通用结构,而且要能提取多个任务的共有特征和私有特征。其中,脏模型通过提取任务的稀疏特征,有效提升了多任务学习方法的稳健性;
而协同聚类与可变簇聚类通过对任务稀疏特征的关系建模,采用特征簇刻画其局部相似性。
基于任务层面的多任务学习方法关注任务之间的相互关联,而当某些任务的特征关联很弱甚至无关时,仍然共享这些“个性鲜明”的特征,其结果自然不理想;
此时,应采用基于特征层面的多任务学习方法,捕捉共享结构之外的特定任务特征,从而弥补基于任务层面学习方法的不足。
与结构化学习方法不同,多任务深度学习通过改变神经网络层与层之间的连接方式表征不同的任务。作为一种最常用的多任务学习网络结构,硬参数共享通过多个任务共享隐藏层学习任务之间的联合表示,并根据每个任务的不同特性设计各自的分类器预测输出层[10-13]。它可以有效降低对原始任务的过拟合风险;
而且,在设计共享层结构时,不需要对任务之间的关系进行精确建模,极大地简化了网络设计。但与此同时,这会导致网络在训练的过程中无法根据实际任务的相关性差异调节共享量;
另外,由于每个任务的分类器预测输出层是相互独立的,这阻断了共享信息在该层的自适应传播,使得网络无法利用输出层建立任务之间的相关关系。当任务之间联系不紧密时,这种共享隐藏层结构会增加负迁移的风险;
即使任务之间存在紧密联系,负迁移现象也会随着网络层数的增加而愈加明显[1,14],这是因为模型从共享网络层到特定网络层进行特征传递的效率会在深层次网络中明显下降。由此可知,硬参数共享神经网络的结构设计虽然简单,但是只能建立在任务具有较高相关性约束条件的基础上。
为了解决硬参数共享机制存在的上述问题,很多学者提出了不指定共享结构的软参数共享机制[14-17]。该方法为每个任务设计了同样的网络结构,假设所有任务的特征层存在于一个共享空间中,可以在各层上通过范数进行关联约束,保证任务之间是相似的而非完全雷同。其中,Long等在每一网络分层上对参数进行堆叠,形成所有网络层的张量集合后,再通过L2范数约束任务的相似性[1],除此之外,也可以采用迹范数进行相似性约束[18]。软参数共享机制虽然适用于联系不紧密的多任务学习,但是随着任务数量的增加,这种网络共享结构和参数都会变得非常复杂,给实际应用造成极大困难,甚至根本不可行。
硬参数共享网络在进行多任务学习时,如果这些任务均具有较强的相关性,可以取得较好的分类性能;
但是,当部分任务相关性较弱或者存在一些特异性特征时,硬参数共享机制通常会出现负迁移和学习效果下降的问题。由此可见,任务之间具有整体相似性既是硬参数共享机制的优点,同时也是其缺点。而对于相关性较弱的多任务学习,则是软参数共享机制的适用场景。
因此,综合应用硬、软两种参数共享机制的混合共享多任务学习方法可以同时解决高相关与低相关的多任务学习问题,扩展了适用范围,提高了应用的灵活性。混合共享多任务学习主要包括3部分内容:硬软参数混合共享网络结构、混合训练与交替训练相结合的网络训练方法,以及混合共享多任务学习方法具体应用流程。
设存在N个学习任务,根据任务之间的相关程度差异将所有任务进行分组,相关性近似的任务归为一组,则每组任务可表示为Ngk, 其中g=1,2,…,G, 表示相关程度近似的任务组序号,而k=1,2,…,K, 表示组内的任务序号。这样分组后,组内任务相关性强或类似,可由同一硬参数共享网络分支进行学习;
而组与组之间的任务相关性弱或差异较大,则由采用软参数共享形式对不同的硬参数共享网络分支进行约束,表征它们之间存在的内在联系或部分信息交互。硬软参数混合共享的神经网络结构如图1所示。
图1 混合共享网络结构
由图1可知,与传统的硬参数共享神经网络相比,硬软参数混合共享网络可以充分发挥其在整体相似度较高的任务上表现性能好的优势,并在此基础上弱化或去除了在某些共享层之间交换信息的硬性约束,能够适用于联系并不紧密的任务;
与传统的软参数共享神经网络相比,随着任务数量的增多,它的网络结构和参数的复杂程度均会明显降低。
从结构化学习的角度来看,混合共享机制结合了基于任务层面和基于特征层面两种多任务学习方法的优点:兼顾了不同任务的共享特征与各自任务的特定特征。这样可以使得多任务学习神经网络结构变得更加灵活和完备。
参数共享的多任务学习网络在进行训练时,如果不同任务都有相互独立的训练集,通常采用交替训练方法:在输入端为不同任务分别输入各自的训练样本,在输出端依次交替收敛每个任务的损失函数。网络在交替训练、迭代调用每个任务的优化器过程中,通过共享层不断地将信息在任务之间进行传递,直到发现它们共有的归纳偏置。以硬参数共享神经网络为例,交替训练过程如图2所示。这种训练方式需要将不同任务完全区分开,并给每个任务设定各自合理的损失函数。但由于目前对任务自身及其相互之间的层次关系、相似性等的理解非常有限,使得网络准确区分任务并不是一件能够轻松完成的事情。而且,即使实现了任务的区分与各自损失函数的设定,这仍然有可能出现让网络在所有任务的联合假设空间中偏向某个任务的问题,进而导致网络参数无法对全部任务实现等效收敛。
图2 交替训练方法
针对上述问题,这里提出混合训练新方法:对相似任务组的硬参数共享网络分支采用无需区分任务、一同参与训练的混合训练方法。与此同时,结合混合共享多任务学习网络在不同任务组之间的软参数共享机制,对不同网络分支之间采用交替训练方法。因此,整个混合共享网络需要综合应用混合训练与交替训练相结合的训练模式,才能更好地探寻与其网络结构和多个学习任务相契合的网络参数,实现对网络整体性能的提升与优化。
2.2.1 混合训练
设硬参数共享神经网络从输入层l=0、 共享层l=1,…,L-1到输出层l=L, 共L+1层,Wl表示每层的连接权参数矩阵,bl表示每层的偏置或阈值,其中l=0,1,…L。
若每个任务的数据集为Zk={(xki,yki)}, 其中k=1,2,…K, 表示组内的相似任务序号,i=1,2,…,S, 表示每个任务的样本数。则由k个任务构成的一组多任务训练数据集为Z=Z1∪Z2∪…∪ZK。
对于第k个任务而言,所有属于这个任务的样本为正样本,其它的则为负样本。通过样本学习,网络达到将此任务数据从其它任务中正确分离出来的目标。
为了避免区分不同任务、特别是组内相似任务的难题,在随机初始化硬参数共享分支网络参数后,混合训练方法将k个任务的无差别混合数据作为训练数据集Z, 通过输入层W0直接送入相应的硬参数共享分支网络中进行训练。输入数据在该网络的前向传播过程中,若每层神经元的激活值为al,l=0,1,…,L, 则其计算公式如下
(1)
其中,g(·) 是激活函数。
在进行组内的混合训练时,网络将多个相似任务看作一个整体进行学习,无需为每个任务设定各自的损失函数,因此可以统一采用如下损失函数计算公式
L(aL,y)=-(ylog(aL)+(1-y)log(1-aL))
(2)
其中,y表示组内多个混合任务的期望误差。
在混合训练的初始阶段,根据训练数据集Z从网络共享层到第一个分支输出层的正向信息传递与反向误差传播调节相应的网络参数,当该网络分支输出端的损失函数L(aL,y) 收敛到最小值时,表明此时的网络参数最佳,结束本次训练;
并把此分支输出层设定为组内第一个任务的特定分类层,同时将共享层的网络参数作为第二次训练,即从共享层到第二个分支输出层网络结构中共享层部分的初始化参数。采用同样的训练调节策略,当第二个分支网络输出的损失函数收敛到最小值时,结束第二次网络训练。此时,第二个分支输出层设定为第二个任务的特定分类层,同样将共享层参数作为第三次训练中相应网络部分的初始化参数。依次类推,展开后续网络训练,直至所有任务在特定分类层上均收敛到最小值时,混合训练结束。该部分网络混合训练算法流程总结如下:
算法1:混合训练
输入:多任务混合训练数据集Z与相关参数(迭代次数Total, 学习速率α,损失函数收敛阈值β)
输出:N个任务的分类性能
(1)随机初始化硬参数共享网络参数θ
(2)for episode←1 toTotaldo
(3)单个分支输出层 (即特定任务分类层) 上计算相应的混合任务损失误差
(4)if前后两次混合损失误差<βthen收敛, 且N←N-1
(5)else then返回步骤 (3)
(6)end if
(7)ifN≠0 then当前共享层参数作为下一次训练共享层的初始化参数, 返回步骤 (2)
(8)else then
(9)end if
(10)end for
它在输入端混合了所有任务的训练集,并依次在每个任务的特定分类层上收敛混合任务的损失函数。首先,避免了区分不同任务的难题,并可以让网络从全局角度出发更好地判断这些混合任务的特征是否联系紧密;
其次,所有任务共用一个损失函数,可以平衡每个任务的训练;
最后,前一次训练得到的共享层参数作为后一次训练的共享层初始化参数,可以让组内任务的分类性能在损失函数收敛的过程中逐渐趋于优化。
2.2.2 混合+交替训练
由混合共享网络结构可知,它包括硬参数共享与软参数共享两种形式。其中的每个硬参数共享网络分支采用混合训练方法,实现对组内相似任务的特征表示与任务区分;
而对于它们之间的软参数共享约束,采用交替训练方法,在不同的任务组之间交替收敛各自的损失函数,使得各组任务可以更好地进行参数信息交互。混合共享神经网络采用的混合与交替训练相结合的方法,其具体过程如图3所示。
图3 混合交替训练
由图3可知,交替训练中的优化函数为每组任务中最后一个特定任务的优化函数。混合交替训练方法充分考虑了混合共享网络的结构特点,有助于网络找到更优的参数,实现更好的网络性能。
混合共享网络在进行多任务学习与应用时可以分为5个主要阶段:任务数据采集与预处理、多任务分组、网络结构设计、网络训练(混合训练+交替训练)、网络模型测试。除了多任务分组,其它阶段的相关工作内容或者较为基础,或者已在前面介绍过,这里不再赘述,只重点说明多任务分组问题与解决方法。
硬参数共享机制是建立在所有任务具有较强相关性的假设基础上,而当任务之间的联系并不紧密时,硬参数共享机制的性能会因为部分任务的差异性而下降。作为影响模型性能优劣的关键因素之一,梯度可以反映出具有任务特异性的特征如何导致模型出现负迁移现象。因此,以硬参数共享神经网络为基础,结合影响因子权重分析方法,根据不同任务在共享层的梯度变化衡量任务之间的相似度。当多个任务中存在相似度较低的任务时,基于梯度变化差异将其挑选出来并归为另一组,输入到新的硬参数共享网络分支中,同时采用软参数共享机制对不同的分支进行相似性约束,从而达到同时学习不同相似度任务的目的。
在完成对硬参数共享神经网络的混合训练后,可以将其的每一个学习任务训练样本作为自变量,共享层梯度变化作为因变量,根据影响因子权重分析方法定量评价各个自变量对因变量影响重要性程度的差异。当训练样本数据变化相同幅度时,共享层的梯度变化矩阵越相似,则表明这部分训练数据对任务统一表示的重要性越相近,在硬参数共享神经网络中的整体相似度越高。通过对共享层梯度变化矩阵的相似度分析,实现基于整体相似度的任务分组。
由深度学习过程可知,靠近输入一侧的浅层网络通常提取局部、具体的一般特征,而随着网络层数的增加,深层网络提取更加全局、抽象的本质特征[19]。与前者的浅层特征相比,后者的深层特征对于任务分类的作用更重要。据此,可以简化衡量梯度变化矩阵相似度的过程,只选取共享层部分最后一层的梯度变化,在强化深层特征关键作用的同时进一步提升任务相似度衡量的准确性。
(3)
其中,n=1,2,…N-1。
在第一步混合训练的基础上,根据梯度变化不同与层次特征作用差异计算第二步衡量梯度变化矩阵的相似度,其处理过程总结为算法2,如下所示:
算法2:衡量梯度变化矩阵的相似度
输入:多任务混合训练数据集Z与相关参数(迭代次数Total, 学习速率α, 损失函数收敛阈值β)
输出:N个梯度变化矩阵之间的相似度
(1)基于训练数据集Z,按照算法1进行混合训练,计算最后一个共享层的梯度Δ(L-1)
(2)选取某个任务,逐一增加或减少训练样本特征值的10%~20%,生成新的训练数据集Z′, 同样按照算法1计算最后一个共享层的梯度 (Δ(L-1))′
(4)if未改变所有任务训练样本的特征值then返回步骤(2)
(5)else then
(6)end if
综上所述,在混合训练后分析每个任务梯度变化矩阵的相似度,可以有效地衡量任务的整体相似度,并以此为依据进行合理的任务分组。
为了检验基于混合共享的多任务学习方法的有效性,选取MNIST数据集为对象进行具体的应用实验。
由“0~9”数字组成的手写体识别数据集MNIST可看作10个学习任务,为每个任务分别选取10个训练样本和50个测试样本。同时,为压缩手写数字图像的特征信息,基于PCA技术只需对每张图像中的87个重要特征进行学习即可。
实验采用的混合共享神经网络由3个硬参数共享网络分支组成(网络分支数由任务分组的实际结果决定,即分支数等于任务分组数),每个分支共4层,即一个输入层、两个共享层和一个特定任务分类输出层。其中,两个共享层的神经元个数分别为4和5。任务损失函数的收敛阈值根据根据该模型在实验过程中的实际性能设置,且每层选用的激活函数都为Sigmoid函数。
将设定的10个二分类任务的混合训练集通过输入层送入该神经网络进行基于混合共享的多任务学习实验。
在衡量任务相似度的过程中,计算出任务梯度变化矩阵之间的欧氏距离,结果见表1,数据保留4位小数点。然后,选出与每个任务的梯度变化矩阵欧氏距离最短的3个任务,结果见表2。据此进行多任务分组,分组结果为:数字“1”、“2”、“4”和“5”作为第一组混合任务,数字“0”、“6”、“8”和“7”作为第二组混合任务,而数字“3”和“9”作为第三组分类任务。
表1 梯度变化矩阵之间的欧氏距离
表2 梯度变化矩阵相似度分析
将3组混合任务输入到各自的硬参数共享网络分支中,并采用软参数共享形式对不同的分支进行约束。随机初始化每个分支的参数后,对上述网络结构应用混合交替训练方法,其中每个硬参数共享网络分支进行混合训练,而对3个硬参数共享网络分支之间的软参数共享分支依次进行交替训练。而且,针对该网络模型不同的初始化参数,多个学习任务采用不同的训练顺序基本不影响最终的学习结果,这表明该模型具有较强的适应性能。基于混合共享的多任务学习的实验结果见表3。该方法同时解决了不同相似度或相关性的多任务学习问题,充分结合了基于任务层面和基于特征层面两类学习方法的优点,并通过与几种比较有代表性的多任务学习方法的对比,验证了该学习方法的良好性能。
表3 实验结果对比
多任务学习应该同时兼顾特征共享与任务处理,这样才能取得较好的结果。为此,本文提出基于混合共享机制的深度多任务学习方法。首先,通过混合多任务训练数据、一同送入网络进行学习,避免了硬参数共享网络在训练过程中需要区分不同任务的难题,利于网络更好地分析所有任务的特征是否具有整体相似性,并根据共享层部分深层网络所提取的全局本质特征对任务分类作用更重要以及响应不同任务的梯度变化量差异确定不同任务之间的相似度,据此对其进行合理分组;
其次,将相似度接近的任务分为一组,进行硬参数共享,同时考虑到组与组任务之间的相似性区别,采用软参数共享形式对不同的硬参数共享网络分支进行约束,然后对该网络模型采用混合交替训练方法进行参数学习,充分发挥基于任务层面和特征层面的优点;
最后,通过在MNIST数据集上的应用实验,验证了本方法的有效性。
基于混合共享机制的深度多任务学习方法是建立在任务数据分布相似的基础上,但不同任务的结构可能并不完全一样。因此,如何合理地划分多任务的网络结构,使用部分结构共享或者参数共享还有待后续研究工作的持续改进与完善。
猜你喜欢多任务分支梯度一个改进的WYL型三项共轭梯度法数学物理学报(2021年6期)2021-12-21一种自适应Dai-Liao共轭梯度法应用数学(2020年2期)2020-06-24巧分支与枝学生天地(2019年28期)2019-08-25基于中心化自动加权多任务学习的早期轻度认知障碍诊断中国生物医学工程学报(2019年6期)2019-07-16一个具梯度项的p-Laplace 方程弱解的存在性华东师范大学学报(自然科学版)(2019年3期)2019-06-24一类扭积形式的梯度近Ricci孤立子数学年刊A辑(中文版)(2018年2期)2019-01-08一类拟齐次多项式中心的极限环分支数学物理学报(2018年1期)2018-03-26基于判别性局部联合稀疏模型的多任务跟踪自动化学报(2016年3期)2016-08-23基于多任务异步处理的电力系统序网络拓扑分析电测与仪表(2016年5期)2016-04-22一类完全由内积构造的多任务核的几个性质长春师范大学学报(2015年8期)2015-12-29扩展阅读文章
推荐阅读文章
老骥秘书网 https://www.round-online.com
Copyright © 2002-2018 . 老骥秘书网 版权所有