
多模态融合
-
2023年3月20日发(作者:日记50字大全)【⽂献阅读】MUTAN——多模态塔克融合VQA模型
(HediBen-younes等⼈,Ar。。。
⼀、背景
⽂章题⽬:《MUTAN:MultimodalTuckerFusionforVisualQuestionAnswering》
17年的⼀篇⽂章,不过后⾯看到很多⽂献引⽤了这篇,所以还是记录⼀下。
⽂献引⽤格式:HediBen-younes,R´emiCadene,MatthieuCordandNicolasThome.(2017)"MUTAN:MultimodalTucker
FusionforVisualQuestionAnswering."arXivpreprint,arXiv:1705.06676.
⼆、⽂章导读
先放上⽂章摘要:
BilinearmodelsprovideanappealingframeworkformixingandmerginginformationinVisualQuestionAnswering
(VQA)lptolearnhighlevelassociationsbetweenquestionmeaningandvisualconceptsintheimage,but
theysufferfromhugedimensionalityissues.
WeintroduceMUTAN,amultimodaltensor-basedTuckerdecompositiontoefficientlyparametrizebilinear
onallytotheTuckerframework,wedesignalow-rank
mTAN,wecontrolthecomplexityofthe
howourMUTANmodelgeneralizessome
ofthelatestVQAarchitectures,providingstate-of-theartresults.
在VQA任务中,双线性模型提供了⼀个可以将不同模态信息融合的框架。双线性模型能够帮助学习问题语义和视觉内容的联合⾼级信
息,但是却带来了维度爆炸的问题。
因此作者引⼊了MUTAN,⼀个多模态的基于张量的塔克分解⽅法,⽤于参数化视觉和⽂本表⽰之间的双线性交互。此外对于塔克分
解,作者设计了⼀种低秩矩阵分解来限制交互的秩。使⽤MUTAN,我们可以控制融合过程的复杂度,同时保持较好的可解释的融合关系。
三、⽂章详细介绍
双线性模型能够很好的适⽤于VQA,是因为它能够编码完整的⼆次交互。⽽它最⼤的问题就是涉及到很多参数,这与输⼊和输出的维
度有关,且慢慢变成了⼀个⾮常棘⼿的问题。因此,简化模型或者近似取代变成了关键所在。
因此这篇⼯作,作者介绍了⼀种新的模型MUTAN,该模型基于张量的塔克(Tucker)分解,其能够完整的表⽰双线性交互的同时使得
模型的⼤⼩可控。
1.相关⼯作
在视觉和⽂本多模态的⼯作⾥,⼀个重要任务是将两个模态对齐,即映射到同⼀个空间下。
注意⼒(Attention):⽬前的注意⼒主要是以下⼏种思路(分别对应以下5篇参考⽂献):(1)是SAN的思路,即使⽤question-
guidedattention,来查找图像中的相关区域;(2)是根据⽂本特征,来⽤boundingboxes提取图像中的特征并评分;(3)是协同注意
⼒框架(co-attentionalframework),分别提取两组注意⼒,然后连接再求和池化;(4)还有⼀种将全局和局部结合起来的策略。这篇
⽂章中,使⽤的注意⼒为(5)中所介绍的:
,,,,,
pages21–29,2016
,,olook:,2016
,,,,
pages289–297,2016.
J.-,K.-,,J.-,andB.-5th
InternationalConferenceonLearningRepresentations,2017.
,,,ch,l,odalcompactbilinearpoolingforvisual
:1606.01847,2016.
融合策略(Fusionstrategies):早期主要对多模态之间的进⾏⼀阶交互(firstorderinteractions)。例如IMG+BOW模型将全局
图像特征和问题特征进⾏了连接。还有利⽤注意⼒对三元组进⾏评分的,然后将视觉特征和⽂本特征进⾏连接,在根据评分来加权计算。对
于协同⽹络来说,计算完了两组特征,然后连接求和。
⼆次模型(Secondordermodel)则表现更好⼀些。双线性交互在精细分类和多模态语⾔模型⾥⾯表现出了巨⼤的成功。在VQA
中,最简单的就是采⽤点积的形式。为了获得更深层次的双线性交互,后⾯还提出了MCB(MultimodalCompactBilinearpooling)⽅
法,即对两个模态的特征使⽤了⽮量积(outerproduct),然后再⽤count-sketchprojection将⽮量积投影在⼀个低维度的空间中,然
⽽,在MCB中,通过count-sketch投影修正的交互参数,限制了它对复杂交互建模的表⽰能⼒。
在近期的⼯作MLB(MultimodalLow-rankBilinear)中,为了减少⽆效参数,它将张量限制为了低秩,并且在VQA数据集上表现出
⾊。它先将视觉特征和问题特征表⽰在了同⼀个低维的空间中,然后在这个空间中进⾏简单的点积进⾏交互。因此MLB能够很好的提取单模
态特征,却只⽤了简单的点积来融合两种特征。
⽽本⽂提出的MUTAN,是基于多模态的双线性交互,主要贡献包括以下⼏点:
–NewfusionschemeforVQArelyingonaTuckertensor-baseddecomposition,consistinginafactorizationinto
thattheMUTANfusionschemegeneralizesthelatestbilinearmodels,i.e.
MCB[5]andMLB[8],whilehavingmoreexpressivepower.(⼀种基于塔克分解的新的可⽤于VQA的融合机制,其将张量分解
为三个矩阵和⼀个核⼼张量。)
–Additionalstructuredsparsityconstraintthecoretensortofurthercontrolthenumberofmodelparameters.
Thisactsasaregularizerduringtrainingandpreventsoverfitting,givingusmoreflexibilitytoadjusttheinput/output
projections.(结构化的稀疏性约束了核⼼张量,并进⼀步控制了模型参数。它在训练的过程中扮演了⼀个正则化器的⾓⾊,并防⽌过
拟合,使我们能够更灵活的调整输⼊和数据的映射。)
–State-of-the-artresultsonthemostwidelyuseddatasetforVisualQA[2].WealsoshowthatMUTAN
outperformsMCB[5]andMLB[8]inthesamesetting,andthatperformancescanbefurtherimprovedwhen
combinedwithMLB,validatingthecomplementaritypotentialbetweenthetwoapproaches.(MUTAN⽬前的效果最好,且
能够很好的与MLB结合)
模型
MUTAN的模型结构如下图所⽰:
⾸先将图像v和问题q嵌⼊为两个向量,最后再表⽰为⼀个⽤于分类的向量y。⽽本⽂的主要⼯作中,使⽤ResNet-152来处理图像,使
⽤GRU来处理问题,然后将操作T来融合两个特征,以⽣成最终的向量y,最后再通过softmax输出正确答案。另外还将全局注意⼒机制融
⼊到了MUTAN中。
融合与双向性模型(FusionandBilinearmodels):在VQA中,融合视觉和语⾔特征是⾮常重要的。双线性模型是⼀种很适合于多
模态融合的框架结构,典型的模型如MLB和MCB,因为它们能够对向量q和v之间的全参数化双线性交互进⾏编码。即:
尽管有着很强的建模能⼒,但是全参数的双线性交互却在VQA的应⽤中变得⾮常棘⼿,因为全张量的⼤⼩对于⽂本,视觉和输出空间
⽽⾔,使⽤相同⼤⼩是不现实的。⽐如q和v的维度都是2048,答案数量约为2000的条件下,这个张量的⼤⼩约为10^10,其带来的计算
量消耗是巨⼤的,因此MUTAN考虑引⼊全张量的塔克分解,以减少参数。
(1)塔克分解
⼀个三维的张量,可以表⽰为3个矩阵的乘积和⼀个核⼼张量的乘积:
张量中的权重是约束下的参数数量的函数:
(2)多模态塔克融合
如果我们将塔克分解引⼊到双线性模型中,即将(3)式引⼊(2)式:
这类似于将q和v投影的完全双线性交互编码为⼀个隐对表⽰z(latentpairrepresentation),并使⽤该隐编码来预测正确答案。为了
将z投影在预测空间y上:
使⽤塔克分解,我们将张量T分成了4个部分,每个部分都有各⾃的含义。Wq和Wv将问题和图像向量投影在各⾃维度的空间中,这些
维度控制了模型的复杂度,维度越⾼,模型的复杂度就越⾼;分解出的张量Tc是⽤于两个模态的交互,它学习了所有的qv到向量z的映射关
系,其维度控制了模态交互的复杂度;最后Wo是⼀对嵌⼊z对于A中每⼀类的刻画。
(3)张量稀疏
为了进⼀步的平衡交互建模的复杂性和表达性,作者对张量Tc中每⼀个矩阵的秩引⼊结构化稀疏约束。z中的每⼀个维度都可以写作:
如果我们再加上秩约束的话:
带⼊到z中的每⼀维:
在Tc中加⼊秩约束可以将输出向量z表⽰为Zr向量的求和。为了获得这些向量,我们将q和v投影在同⼀个空间中,并⽤点积将其融合。
(4)模型讨论
两个⽐较新的模型,MLB和MCB,其实都可以认为多模态塔克融合的特殊情况。他们的结构如下图所⽰:
3.实验结果
实验基于VQA1.0来做的。⾸先是不同融合⽅式的结果:
然后是不同模型的⽐较结果:
另外还有⼀些作者讨论的结果。MUTAN_noR指没有经过秩稀疏约束的MUTAN,作者探索了q,v,o的维度从20-220变化的验证精
度情况:
对于MUTAN来说,将维度设定为210,探索秩从10-100变化时的验证精度变化情况:
针对4类最常出现的问题,探索r从1-20变化时的验证精度情况:
最后还展⽰了注意⼒的变化情况:
四、⼩结