当先锋百科网

首页 1 2 3 4 5 6 7

摘要

本篇文章以多模态分类任务为契机,提出了一个新颖和通用的搜索空间,来找寻最优的多模态融合架构。为了在给定的搜索空间中为给定数据集找到最优的架构,本文使用了一种针对具体问题并基于序列模型的高效搜索方法。在一个toy dataset和另外两个真实的多模态数据集上的实验结果证明了将多模态融合作为神经结构搜索问题的价值

引言

作者指出,通常多模态特征的融合是在最深层,也就是在文献中称为后期融合(late fusion),这在一些多模态任务[40]上取得一定的成功。然而,在各自最深层的特征上融合模态不一定是解决给定多模态问题的最佳方法。因此,本文是要在多模态分类任务中,找寻一种最优的多模态特征融合方式,从而更好地利用深度学习模型中嵌入在不同层次的信息进行分类。
手工评估所有的可能性(从不同模态的不同中间层选择特征进行融合)会非常困难,或者根本就难以解决。的确,模态越多、层次越深,可选择模态融合方式就越复杂。当启用嵌套的多模态特性组合时更是如此,它实际上是一个庞大的组合问题。

方法

通用的双模态特征融合网络
在这里插入图片描述
先说明多模态融合搜索空间中的算子:
γ l m ∈ { 1 , . . , M } \gamma_l^m \in \{1,..,M\} γlm{1,..,M}
γ l n ∈ { 1 , . . , N } \gamma_l^n \in \{1,..,N\} γln{1,..,N}
γ l p ∈ { 1 , . . , P } \gamma_l^p \in \{1,..,P\} γlp{1,..,P}
模态X共M个隐层,模态Y共N个隐层,共需要搜索出L个融合层,p代表搜索出的每个融合层使用的非线性操作(激活函数)
这样一来,在每个可融合层 l l l会将三个输入进行组合,这三个输入分别是:来自上一个融合层的输出,来自两个模态的输出。即
在这里插入图片描述
l = 1 l=1 l=1时,只有来自两个模态的输出,暂时没有上一个融合层。故
在这里插入图片描述
M=N=4,并且P=2举例(P=1代表ReLU,P=2代表Sigmoid)
在这里插入图片描述
左侧实现的融合架构是
[ ( γ 1 m = 1 , γ 1 n = 2 , γ 1 p = 1 ) , ( γ 2 m = 3 , γ 2 n = 4 , γ 1 p = 2 ) ] [(\gamma_1^m=1,\gamma_1^n=2,\gamma_1^p=1),(\gamma_2^m=3,\gamma_2^n=4,\gamma_1^p=2)] [(γ1m=1,γ1n=2,γ1p=1),(γ2m=3,γ2n=4,γ1p=2)]
右侧是
[ ( γ 1 m = 3 , γ 1 n = 3 , γ 1 p = 2 ) ] [(\gamma_1^m=3,\gamma_1^n=3,\gamma_1^p=2)] [(γ1m=3,γ1n=3,γ1p=2)]

NAS

如果使用传统的搜索算法,并且确定需要L个融合层的情况下,复杂度将会是 ( M × N × P ) L (M\times N\times P)^L (M×N×P)L,指数级别,搜索空间太大,不可承受。
本文使用一个序列模型作为代理记为,来生成相应的融合结构
搜索算法的实现如下
在这里插入图片描述
个人理解:假定总共需要生成L个融合层,每确定一层之后就先train这一层。代理模型 π \pi π根据每次的输出确定一个融合层fusion layer l l l,即需要从模态X确定一个隐层、从模态Y确定一个隐层、然后再确定一个非线性层。

实验结果

在这里插入图片描述
在这里插入图片描述

结论

本文的工作解决了为多模态分类寻找精确融合架构的问题,提出了一种新的多模态搜索空间和探索算法,以高效而有效的方式解决任务。提出的搜索空间受到这样一种方式的限制,即它允许发生复杂的架构,同时也将问题的复杂性包含到合理的级别。我们在三个数据集上实验证明了我们方法的有效性,发现了几种融合方案,在这些数据集上提供了最先进的结果。未来的研究工作包括改进搜索空间,使融合层的组成更加灵活。