2023年11月20日

[瞎读]VISION-LANGUAGE INTEGRATION IN MULTIMODAL VIDEO TRANSFORMERS (PARTIALLY) ALIGNS WITH THE BRAIN

视觉-语言融合在多模态视频Transformer中与部分大脑一致

ABSTRACT

整合来自多种模态的信息可以说是使人工智能系统具有对真实世界的理解的基本先决条件之一。最近,视频Transformer在时间上联合学习视觉、文本和声音方面取得了一些进展,但这些模型整合模态信息的程度仍然不清楚。在这项工作中,我们提出了一种有前途的方法,通过利用神经科学证据来探究预训练的多模态视频Transformer模型。利用参与者观看流行电视节目的脑电记录,我们分析了预训练的多模态视频Transformer中多模态连接和交互对单模态和多模态脑区的对齐效果。我们发现,视觉增强了语言处理中的掩码预测性能,提供了支持,即模型中的跨模态表示可以有益于单个模态。然而,我们没有发现联合多模态Transformer表示捕获了超出所有单个模态捕获的与大脑相关的信息。最后,我们展示了通过使用需要视觉语言推理的任务进行微调,可以改善预训练联合表示的大脑对齐效果。总的来说,我们的结果描绘了多模态Transformer在部分与大脑相关的方式中整合视觉和语言的能力的乐观画面,但也表明改善这些模型的大脑对齐可能需要新的方法。

1 INTRODUCTION

我们对日常环境的深入理解需要使用多种模态,例如视觉和语言输入。为了成功利用多模态输入,人工智能系统必须学习两个重要的愿望:跨模态连接和多模态交互。在本文中,我们将跨模态连接定义为不同模态相关时存在的共享信息,将多模态交互定义为这些模态集成时产生的新信息(Liang等,2022)。

虽然最近已经取得了使用多个输入模态进行学习的模型的进展,但模型实现这些愿望的程度仍不清楚。它们可能在学习阶段忽略了复杂的多模态集成,而更倾向于每个单独模态内的简单连接(Hessel&Lee,2020;Frank等,2021)。在这项工作中,我们转向我们唯一拥有的真正集成复杂视觉和复杂语言信息的系统-人脑-以改善我们对流行的多模态视频Transformer中视觉语言交互和集成的理解。使用参与者观看流行电视节目的脑记录,我们分析了预训练的多模态视频Transformer中跨模态连接和交互对其与单模态和多模态脑区域的对齐效果(即能否预测与这些区域相对应的脑记录)。

我们的方法基于两个关键认知。第一个是利用以前的神经科学发现,这些发现已经映射了参与视觉和语言处理的大脑区域,并在模型和人类参与者观察相同的视频输入时调查模型与这些特定脑区的对齐情况。我们预计,能够学习如何以与大脑相关的方式连接和整合视觉和语言模态的模型将与这些区域显著对齐。然而,与这些脑区的对齐并不足以表明模型成功连接和整合多种模态,因为单模态的视觉或语言模型也已被证明与这些脑区显著对齐。

为了解决这个问题,我们的第二个关键动作是将联合视觉语言模型内部状态的脑对齐与从相同模型获得的内部状态的脑对齐进行对比,但在不同的条件下进行了精心设计,以揭示模型是否以与大脑相关的方式连接和整合多模态信息。我们在图1中呈现了对比的示意图。具体而言,我们调查与语言区域的脑对齐,并将联合视觉语言表示的脑对齐与以下进行对比:1)与可比模型设置但没有视觉输入的仅语言表示的脑对齐,以及2)语言和视觉表示的加性脑对齐。如果模型能够以与大脑相关的方式连接视觉和语言模态,我们预计联合表示将显著增加与语言区域的对齐(即对比1)。其次,如果模型进一步以与大脑相关的方式整合模态,我们预计联合表示的对齐将显著改善,超过仅语言和视觉表示的单独效果的加性脑对齐(即对比2)。我们将重点研究多模态表示对大脑中与语言相关的信息的益处,因为我们调查的流行模型是预先训练的,以预测语言信息(即掩码文本和音频片段),因此我们预计对大脑对齐的最大影响将在语言区域。

我们从对比1的结果发现,联合视觉语言表示可以显著提高与语言区域的对齐性,而仅有语言表示则无法做到。我们进一步分析了视觉模态所贡献的对齐性增加的原因,并发现这在很大程度上与掩码语言预测性能有关。这些发现表明,多模态Transformer中的跨模态交互可以使各个模态受益。然而,我们没有发现预训练的联合多模态Transformer表示捕获了除所有单独模态之外的与大脑相关的信息(对比2)。最后,我们发现,通过微调视觉语言问答任务,可以提高联合多模态表示的大脑对齐性,这被认为需要两种模态之间的推理。总的来说,这些结果有助于理解当前视频Transformer中的大脑相关多模态连接和交互,并为计算建模大脑中的多模态信息处理开辟了新的途径。 我们的主要贡献可以总结如下:(i)我们提供了一种使用多模态脑记录探测多模态连接和交互的方法。(ii)使用精心设计的对比条件,我们展示了一种流行的多模态视频Transformer部分与大脑中的视觉语言整合相一致的证据。(iii)我们证明了视觉可以在大脑中对语言处理做出贡献,这在很大程度上是由于掩码语言建模。

3 METHODS

我们使用MERLOT Reserve(Zellers等人,2022年)的“基础”版本,这是一个多模态视频转换器,可以提供给定视频的强大上下文表示-联合推理视频帧,文本和音频。该模型在2000万个YouTube视频上进行了预训练,以通过对比遮蔽跨度学习目标学习跨模态的脚本知识。它由一个具有768个隐藏大小的12层联合编码器组成。联合编码器结合了3个独立的单模编码器的输出-一个12层图像编码器,一个12层音频编码器和一个4层文本跨度编码器,并提供视频的序列级表示。在接下来的工作中,我们专注于当视频和相关音频提供给模型时的视觉语言表示,然后是’MASK’令牌。

4 Result

4.1 CROSS-MODAL CONNECTIONS

当前的多模态视频模型是否学习了单个模态之间与大脑相关的跨模态连接?由于我们的主要关注点是理解视觉对语言的影响,因此我们比较了语言区域中视觉-语言和仅语言表示之间的大脑对齐情况。在附录C中,我们进一步探讨了视觉-语言表示和仅视觉表示在视觉区域之间的大脑对齐情况,扩展了先前关于语言对视觉影响的研究(即Wang等人(2022))到完全多模态设置。

视觉语言表示显著改善了与语言区域的一致性。我们发现,结合视觉模式的输入显著改善了大脑对语言区域的一致性(Fedorenko等人,2010),如图2(左)1所示。结果表明,模型学习的跨模式表示(即语言视觉)可以在一定程度上使单个模式(即语言)受益。这种改善不能是由于联合编码器中对语言特定信息的进一步处理,因为语言输入处理的深度在这两种情况下是相同的。这不太可能是由于仅视觉信息,因为这些区域已知支持语言处理,如图2所示,仅视觉表示不会在这些区域产生强烈的预测。.我们进一步观察到,大脑对齐的对比度大多在模型的后期层(9-11)达到峰值,这表明这些模型的后期层编码了视频刺激最与大脑相关的属性(参见附录D中的更多细节)。这一发现与大型语言模型中的大脑对齐结果形成鲜明对比,例如BERT(Toneva&Wehbe,2019)和GPT-2(Caucheteux&King,2022),它们在中间层达到峰值。

一些但不是所有的多模态区域都观察到了显著的改进。语言网络由多个脑区组成,其中一些已知更具有模态特异性,而其他脑区则涉及整合来自多个模态的信息。为了确定语言区域中视觉模态输入显著增强脑预测的区域,我们在图2(右)中呈现了每个语言区域中显著预测的体素的脑对准对比,计算了所有12层。我们观察到在6个参与者中,角回、右中央前回和后扣带回之间的显著差异在视觉-语言表示和仅语言表示之间。其中,语言-视觉表示最好预测角回的脑活动,角回是一个已知参与多模态整合的脑区,无论信息是由视觉还是语言网络处理的,都会对语义信息做出反应(Popham等,2021)。我们的发现表明,通过视觉和语言之间的跨模态连接,将视觉输入纳入模型可能会增强模型的能力,可能类似于在角回区域观察到的视觉和语言表示的融合。我们还观察到,当前模型未能准确预测其他多模态区域的脑活动,例如前颞叶(ATL),这在ATL损伤中观察到的受损语义识别中是明显的(Julie等,1989)。我们怀疑我们通过消除当前模型中的视觉信息所确定的视觉益处远未完全包括大脑中正在进行的整合多模态过程的整个谱系。

视觉信息(在很大程度上)有助于遮蔽语言建模。当来自视觉模态的输入被合并时,什么导致了与多模态区域的改进对齐?一个假设是,模型通过预训练任务学习跨模态信息-预测遮蔽的标记(单词或音频),从而更好地与语言处理期间的大脑表示对齐(Goldstein等人,2022)。为了调查这一点,我们通过从模型的表示中删除遮蔽标记的真实表示来评估模型实际上依赖于视觉信息来预测遮蔽语言信息的程度(有关更多详细信息,请参见附录F)。然后,我们使用这些残差表示来评估大脑对齐的结果变化。在图3(左)中,我们观察到角回的大脑对齐中“完整”和“完整(-遮蔽)”之间的显着对比。这一发现表明,与遮蔽语言预测相关的大量视觉信息在改善角回内的对齐方面发挥了至关重要的作用。在去除了与蒙蔽语言预测相关的信息后,在角回中观察到视觉语言表征和纯语言之间没有显著差异。这一发现可能作为证据,表明模型已经学会利用跨模态信息来预测其他模态中的蒙蔽令牌,与它们预先训练的目标相一致。它还提供了证据,表明视听对应可能是塑造角回作为多感觉信息融合的跨模态枢纽的重要因素(Seghier,2013)。然而,即使去除了蒙蔽语言信息的预测,在一些大脑区域,包括右侧额叶中回和后扣带回皮层,视觉语言表征和纯语言表征的残差之间仍然存在差异,如图3(中间,右)所示。.我们怀疑这些大脑区域捕获的信息可能与一些高水平的跨模式连接有关,这些连接不仅仅是视觉信息和掩蔽语言信息之间的统计对应。这一假设可能会在未来的工作中进一步探索。

4.2 MULTI-MODAL INTERACTIONS|多模态交互

当前的模型是否在形成表示时融合了多模态交互,以至于它们可以比单个模态更好地预测一些脑区?为了研究这个问题,我们研究了视觉语言表示和残差表示之间的脑对齐对比,当语言单独表示(没有视觉模态)和视觉单独表示(没有语言模态)被移除时。我们的主要研究重点在于角回,因为与其他感兴趣区域相比,它是从模型表示中最强烈预测的区域。

预训练模型中没有编码与大脑相关的多模态交互的证据。在图4(左)中,我们没有观察到与多模态交互相关的残差表示和所有语言区域(包括角回)中的随机基线之间存在任何实质性差异。这表明预训练模型可能无法充分捕捉与大脑相关的多模态交互。这可能有两个主要原因:1)多模态交互过于复杂,无法通过预训练目标学习。虽然该模型展示了利用一些跨模态信息进行预测的能力,但在学习超过两种模态中现有知识的新信息时,它可能会遇到限制。2)即使考虑到人类观众,数据集中并不是每个视频都必须需要额外的多模态交互来被动观看电视节目。在某些情况下,一种模态可能会主导内容,导致观众忽略另一种模态中发生的事情。

为了进一步探究这些可能性,我们进行了一项额外的分析,可能会提高模型表示多模态信息的能力。我们测试了在电视问答任务上微调预训练模型对脑部对齐的影响,这被认为需要语言和视觉之间的推理。我们假设:1)为这个任务微调可能有助于模型捕捉只有在整合两种模态时才出现的新信息。这可能会导致在被动观看的情况下与脑相关的多模态整合更好的对齐。2)TVQA数据集可能包含大量视频样本,其中多模态整合证明比仅依赖于单个模态更有益。有关微调的更多详细信息请参见附录G。作为一个合理性检查,我们评估了将中间层的表示馈送到预训练和微调模型的预测层时的任务性能。我们发现,预训练模型在所有条件下的表现都是随机的,而微调模型即使在缺少一个模态的情况下也能回答大部分问题(见图4(右))。

预训练和微调模型的早期和中期层次在大脑对齐方面相似。我们首先关注比较预训练模型与微调TVQA模型的大脑对齐情况。我们在图5(左,蓝色 vs. 红色)中展示了这种对比,针对语言区域中显著预测的体素。我们观察到,除了角回外,微调模型的早期和中期层次在所有已确定的语言区域中表现出与其预训练对应物相当的大脑对齐。

任务相关的顶层变化与大脑表征不一致。微调模型的顶层相比于预训练模型在预测大脑活动方面显示出显著的下降。我们观察到这些微调模型的后期层在问答任务上的准确性也呈现出明显的增加。这个结果与之前的研究发现相结合,即后期层似乎编码了更多的任务特定信息(Merchant等人,2020;Zhou&Srikumar,2021;Durrani等人,2021;Mosbach等人,2020),表明并非所有编码在大脑表征中的特征都与任务相关。一个可能的原因是,大脑活动是在参与者仅仅观看节目而不是回答问题时记录的。

对于视觉语言问答的微调可以改善某些区域的大脑对齐。在图5(左)中,我们展示了角回对齐的实质性改善,当模型被训练用于视觉语言推理任务时,与预先训练的模型相比。一个有趣的观察是,这种改善主要在模型的早期和中层观察到,而不是顶层。这一发现表明被动观看数据中固有的与大脑相关的信息在塑造刺激的表征方面起着关键作用,即使是在回答关于电视节目的额外任务问题时。一个假设是被动观看期间的一些大脑过程支持更多特定任务的推理过程(例如自卑)。这一假设可能会在未来的工作中进一步探索。

改进的大脑对齐部分归因于多模态交互。为了量化微调增强角回中与大脑相关的多模态交互的程度,我们通过从联合视觉语言表示中删除仅视觉和仅语言表示来进行残差分析。然后,我们测量残差表示与大脑的对齐情况,并将结果与TVQA噪声上限显示在图5(右侧)。我们观察到多模态交互的残差明显高于随机基线。这些发现表明,角回中的改进对于增强多模态交互可能是足够的。了解这种改进对齐的具体原因是下一步的重要步骤。

5 DISCUSSION AND CONCLUSION

我们提议使用多模态脑活动来解释预训练多模态视频变换器的内部表示,这依赖于多模态视频刺激和脑响应之间的属性关系。我们通过测量模型与单模态和多模态脑区在对比条件下的对齐程度来研究模型学习脑相关多模态连接和交互的程度。我们的结果表明,跨模态表示模型确实可以提高单个模态的脑对齐度。我们确定了其中一个关键原因:视觉输入的融合增强了部分在角回中处理的掩码语言预测,这是一种主要的语言区域。然而,在预训练模型中没有观察到与脑相关的多模态交互的证据。最后,我们展示了通过针对需要语言和视觉之间推理的任务进行微调,可以增强预训练变换器中多模态交互的脑对齐度。

我们将我们的工作定位在神经科学和机器学习的交叉点上,对两个领域都有影响。对于机器学习的影响:我们展示了模型通过预测掩码标记学习了多模态连接的脑相关程度。我们提供了新的证据表明跨模态连接可以使单个模态受益。我们确定了当前模型未能捕捉到多模态交互的原因,使用脑作为测试平台。我们提出了一种有前途且足够有效的方法来改进:微调需要语言和视觉之间推理的任务。对于神经科学的影响:我们提出了音频-视觉对应信息(通过MASK学习)在语言区域(角回)中处理的证据。我们的发现有助于表征角回和语言网络更广泛处理的多模态信息。最近的研究表明,多模态图像字幕模型可以更好地解释高级视觉语义,而不是单模态模型(Wang等人,2022; Reddy Oota等人,2022)。我们以三种方式为这一工作做出贡献:1)我们展示了视觉信息对语言处理的影响。2)我们将设置扩展到完全多模态脑记录。3)我们使用多模态视频变换器,展示了它们作为研究视频刺激的脑表示的有价值资源的潜力。

我们工作的一个限制是它研究了一种多模态视频模型类型,并使用了一个电视节目的脑数据集。在实践中,很难找到适合的开源模型,这些模型可以共同学习表示来自音频、文本和视觉的视频,同时保持可比较的大小、架构和训练数据。未来,我们希望我们的方法可以用于研究更多多模态视频模型的脑相关性,随着更多这样的模型公开发布,并可以扩展到多个多模态脑数据集。我们的工作也受到TVQA数据集(Winterbottom等人,2020)可能存在的单模态偏见的限制,这可以通过更多真正需要多个模态之间交互才能执行任务的基准数据集来解决。 未来的工作可以建立在我们的发现基础上,通过在TVQA数据集上微调模型,大大增强脑相关的多模态集成。

Share

You may also like...

发表评论

您的电子邮箱地址不会被公开。