2024年1月9日

[略读] MMT

Multi-modal Transformer for Video Retrieval

任务

标题到视频和视频到标题检索

贡献

  • 联合编码不同的视频模态(视频帧、ASR、音频)
  • 对时间信息进行编码和建模
  • 联合优化语言嵌入与多模态Transformer

结构

Ω(v) = F(v) + E(v) + T(v)

  • F(v): 为特定任务训练的模型,用于从视频中提取特征,对于一个视频v,每个专家提取一个K个特征(为了将不同的专家特征投影到一个共同的维度空间中,每个专家配1个可学习的线性层)
  • AGG: 用所有相应专家特征的最大池聚合初始化这个嵌入
  • E(v): 区分不同专家的嵌入
  • T(v): 时间嵌入,T1~TN,额外的Tagg和Tunk 分别编码聚合特征和未知的时间信息特征

Ψagg(v) = MMT(Ω(v))

  • 只保留了每个专家的聚合嵌入

Caption

  • 从 Bert 的[CLS]输出中提取
  • 学习函数g与视频专家相同的门控嵌入模块

Gated embedding module

第一层描述了将输入特征Z0投影到嵌入空间Z1的过程。

第二层执行上下文门控,其中使用学习的门控权重σ(W2Z1 + b2)重新加权Z1的各个维度,其值介于0和1之间,其中W2和b2是学习参数。这种门控的动机有两个方面:(i)我们希望在Z1的各个维度之间引入非线性交互;(ii)我们希望通过自门控机制重新校准Z1的不同激活的强度。

最后,执行L2归一化,以获得最终输出Z。

w(c) 表示专家的权重

  • 将h(c)通过一个线性层,然后执行一个softmax操作
Share

You may also like...

发表评论

您的电子邮箱地址不会被公开。