多模态融合

发布时间：2023-06-16 作者：admin 来源：文学

多模态融合

2023年3月20日发(作者：日记50字大全)

【⽂献阅读】MUTAN——多模态塔克融合VQA模型

（HediBen-younes等⼈，Ar。。。

⼀、背景

⽂章题⽬：《MUTAN:MultimodalTuckerFusionforVisualQuestionAnswering》

17年的⼀篇⽂章，不过后⾯看到很多⽂献引⽤了这篇，所以还是记录⼀下。

⽂献引⽤格式：HediBen-younes,R´emiCadene,MatthieuCordandNicolasThome.(2017)"MUTAN:MultimodalTucker

FusionforVisualQuestionAnswering."arXivpreprint,arXiv:1705.06676.

⼆、⽂章导读

先放上⽂章摘要：

BilinearmodelsprovideanappealingframeworkformixingandmerginginformationinVisualQuestionAnswering

(VQA)lptolearnhighlevelassociationsbetweenquestionmeaningandvisualconceptsintheimage,but

theysufferfromhugedimensionalityissues.

WeintroduceMUTAN,amultimodaltensor-basedTuckerdecompositiontoefficientlyparametrizebilinear

onallytotheTuckerframework,wedesignalow-rank

mTAN,wecontrolthecomplexityofthe

howourMUTANmodelgeneralizessome

ofthelatestVQAarchitectures,providingstate-of-theartresults.

在VQA任务中，双线性模型提供了⼀个可以将不同模态信息融合的框架。双线性模型能够帮助学习问题语义和视觉内容的联合⾼级信

息，但是却带来了维度爆炸的问题。

因此作者引⼊了MUTAN，⼀个多模态的基于张量的塔克分解⽅法，⽤于参数化视觉和⽂本表⽰之间的双线性交互。此外对于塔克分

解，作者设计了⼀种低秩矩阵分解来限制交互的秩。使⽤MUTAN，我们可以控制融合过程的复杂度，同时保持较好的可解释的融合关系。

三、⽂章详细介绍

双线性模型能够很好的适⽤于VQA，是因为它能够编码完整的⼆次交互。⽽它最⼤的问题就是涉及到很多参数，这与输⼊和输出的维

度有关，且慢慢变成了⼀个⾮常棘⼿的问题。因此，简化模型或者近似取代变成了关键所在。

因此这篇⼯作，作者介绍了⼀种新的模型MUTAN，该模型基于张量的塔克（Tucker）分解，其能够完整的表⽰双线性交互的同时使得

模型的⼤⼩可控。

1.相关⼯作

在视觉和⽂本多模态的⼯作⾥，⼀个重要任务是将两个模态对齐，即映射到同⼀个空间下。

注意⼒（Attention）：⽬前的注意⼒主要是以下⼏种思路（分别对应以下5篇参考⽂献）：（1）是SAN的思路，即使⽤question-

guidedattention，来查找图像中的相关区域；（2）是根据⽂本特征，来⽤boundingboxes提取图像中的特征并评分；（3）是协同注意

⼒框架（co-attentionalframework），分别提取两组注意⼒，然后连接再求和池化；（4）还有⼀种将全局和局部结合起来的策略。这篇

⽂章中，使⽤的注意⼒为（5）中所介绍的：

,,,,,

pages21–29,2016

,,olook:,2016

,,,,

pages289–297,2016.

J.-,K.-,,J.-,andB.-5th

InternationalConferenceonLearningRepresentations,2017.

,,,ch,l,odalcompactbilinearpoolingforvisual

:1606.01847,2016.

融合策略（Fusionstrategies）：早期主要对多模态之间的进⾏⼀阶交互（firstorderinteractions）。例如IMG+BOW模型将全局

图像特征和问题特征进⾏了连接。还有利⽤注意⼒对三元组进⾏评分的，然后将视觉特征和⽂本特征进⾏连接，在根据评分来加权计算。对

于协同⽹络来说，计算完了两组特征，然后连接求和。

⼆次模型（Secondordermodel）则表现更好⼀些。双线性交互在精细分类和多模态语⾔模型⾥⾯表现出了巨⼤的成功。在VQA

中，最简单的就是采⽤点积的形式。为了获得更深层次的双线性交互，后⾯还提出了MCB（MultimodalCompactBilinearpooling）⽅

法，即对两个模态的特征使⽤了⽮量积（outerproduct），然后再⽤count-sketchprojection将⽮量积投影在⼀个低维度的空间中，然

⽽，在MCB中，通过count-sketch投影修正的交互参数，限制了它对复杂交互建模的表⽰能⼒。

在近期的⼯作MLB（MultimodalLow-rankBilinear）中，为了减少⽆效参数，它将张量限制为了低秩，并且在VQA数据集上表现出

⾊。它先将视觉特征和问题特征表⽰在了同⼀个低维的空间中，然后在这个空间中进⾏简单的点积进⾏交互。因此MLB能够很好的提取单模

态特征，却只⽤了简单的点积来融合两种特征。

⽽本⽂提出的MUTAN，是基于多模态的双线性交互，主要贡献包括以下⼏点：

–NewfusionschemeforVQArelyingonaTuckertensor-baseddecomposition,consistinginafactorizationinto

thattheMUTANfusionschemegeneralizesthelatestbilinearmodels,i.e.

MCB[5]andMLB[8],whilehavingmoreexpressivepower.（⼀种基于塔克分解的新的可⽤于VQA的融合机制，其将张量分解

为三个矩阵和⼀个核⼼张量。）

–Additionalstructuredsparsityconstraintthecoretensortofurthercontrolthenumberofmodelparameters.

Thisactsasaregularizerduringtrainingandpreventsoverfitting,givingusmoreflexibilitytoadjusttheinput/output

projections.（结构化的稀疏性约束了核⼼张量，并进⼀步控制了模型参数。它在训练的过程中扮演了⼀个正则化器的⾓⾊，并防⽌过

拟合，使我们能够更灵活的调整输⼊和数据的映射。）

–State-of-the-artresultsonthemostwidelyuseddatasetforVisualQA[2].WealsoshowthatMUTAN

outperformsMCB[5]andMLB[8]inthesamesetting,andthatperformancescanbefurtherimprovedwhen

combinedwithMLB,validatingthecomplementaritypotentialbetweenthetwoapproaches.（MUTAN⽬前的效果最好，且

能够很好的与MLB结合）

模型

MUTAN的模型结构如下图所⽰：

⾸先将图像v和问题q嵌⼊为两个向量，最后再表⽰为⼀个⽤于分类的向量y。⽽本⽂的主要⼯作中，使⽤ResNet-152来处理图像，使

⽤GRU来处理问题，然后将操作T来融合两个特征，以⽣成最终的向量y，最后再通过softmax输出正确答案。另外还将全局注意⼒机制融

⼊到了MUTAN中。

融合与双向性模型（FusionandBilinearmodels）：在VQA中，融合视觉和语⾔特征是⾮常重要的。双线性模型是⼀种很适合于多

模态融合的框架结构，典型的模型如MLB和MCB，因为它们能够对向量q和v之间的全参数化双线性交互进⾏编码。即：

尽管有着很强的建模能⼒，但是全参数的双线性交互却在VQA的应⽤中变得⾮常棘⼿，因为全张量的⼤⼩对于⽂本，视觉和输出空间

⽽⾔，使⽤相同⼤⼩是不现实的。⽐如q和v的维度都是2048，答案数量约为2000的条件下，这个张量的⼤⼩约为10^10，其带来的计算

量消耗是巨⼤的，因此MUTAN考虑引⼊全张量的塔克分解，以减少参数。

（1）塔克分解

⼀个三维的张量，可以表⽰为3个矩阵的乘积和⼀个核⼼张量的乘积：

张量中的权重是约束下的参数数量的函数：

（2）多模态塔克融合

如果我们将塔克分解引⼊到双线性模型中，即将（3）式引⼊（2）式：

这类似于将q和v投影的完全双线性交互编码为⼀个隐对表⽰z（latentpairrepresentation），并使⽤该隐编码来预测正确答案。为了

将z投影在预测空间y上：

使⽤塔克分解，我们将张量T分成了4个部分，每个部分都有各⾃的含义。Wq和Wv将问题和图像向量投影在各⾃维度的空间中，这些

维度控制了模型的复杂度，维度越⾼，模型的复杂度就越⾼；分解出的张量Tc是⽤于两个模态的交互，它学习了所有的qv到向量z的映射关

系，其维度控制了模态交互的复杂度；最后Wo是⼀对嵌⼊z对于A中每⼀类的刻画。

（3）张量稀疏

为了进⼀步的平衡交互建模的复杂性和表达性，作者对张量Tc中每⼀个矩阵的秩引⼊结构化稀疏约束。z中的每⼀个维度都可以写作：

如果我们再加上秩约束的话：

带⼊到z中的每⼀维：

在Tc中加⼊秩约束可以将输出向量z表⽰为Zr向量的求和。为了获得这些向量，我们将q和v投影在同⼀个空间中，并⽤点积将其融合。

（4）模型讨论

两个⽐较新的模型，MLB和MCB，其实都可以认为多模态塔克融合的特殊情况。他们的结构如下图所⽰：

3.实验结果

实验基于VQA1.0来做的。⾸先是不同融合⽅式的结果：

然后是不同模型的⽐较结果：

另外还有⼀些作者讨论的结果。MUTAN_noR指没有经过秩稀疏约束的MUTAN，作者探索了q，v，o的维度从20-220变化的验证精

度情况：

对于MUTAN来说，将维度设定为210，探索秩从10-100变化时的验证精度变化情况：

针对4类最常出现的问题，探索r从1-20变化时的验证精度情况：

最后还展⽰了注意⼒的变化情况：

四、⼩结

👁️ 阅读量：0

🔖 本文标签：

🔥 最新发布文章