当先锋百科网

首页 1 2 3 4 5 6 7

标题分析

Not AllRelations are Equal:对论文发现的总结,不是所有关系在训练时的作用都是平等的。

MiningInformative Labels:论文方法,挖掘关系标签中的信息。

Scene GraphGeneration:任务,场景图生成。

动机

两个概念

  • 显性关系:通常是一些表示空间关系的谓词,比如“on”、“at”“behind”

  • 隐性关系:没有直接表达空间关系的谓词,通常是像“riding”,“walking”这样的动词,和显性标签相比,隐性标签所含的信息量更大,也更难预测。

论文发现

如图1(a),论文发现在数据集中,若物体对间只用显性关系标注,往往也可以用更有信息量的隐性关系标签来标注。

图1(b)探究了只使用隐性标签或显性标签作为数据集在训练上的差异,蓝色和黄色分别表示只通过隐性标签和只通过显性标签训练的SGG模型,横轴是几个示例的显性和隐性标签,纵轴是模型对标签的召回率(R@100),结果发现,只使用隐性标签训练的模型,不仅对隐性标签的预测性能良好,还可以很好的预测显性标签,而显性标签训练的模型做不到,下方实验也证明了这一点。

于是论文想,将数据集中样本按关系分类为显性样本和隐性样本,通过半监督学习的方式对数据集处理,归纳出显性样本对应的隐性关系并利用,达到扩充训练集信息量的目的,改善SGG模型性能。

贡献

1.对数据集的标签给出了新的分类方式(implicit,explicit),探究了隐性/显性标签对模型的影响,并通过论文方法挖掘出数据集中更多的隐性关系信息。

2. 使用论文方法的VCTree-TDE模型在实验中指标达到SOTA,同时,本论文的方法在多种场景图模型中同样适用。

方法概述

SGG初始模型只使用了隐性关系进行预训练,通过初始模型对数据集归纳后,利用新数据集对模型再训练,如图2,输入一张图像,生成场景图,对于隐性标签(蓝实线),论文方法在归纳操作中不进行处理,对于标注显性关系的样本X,使用训练的初始模型得到X的归纳标签,再将归纳标签和真实标签组合作为样本X新的真实标签,随后使用优化过的数据集再次训练。

具体方法

预训练

假设关系分类器中需要训练的参数为θ,定义的输入为联合嵌入特征x,输出为经过softmax的概率分布(包含|P|个关系),即Rd→R|P|,论文将训练的总损失也分为了隐性关系损失和显性关系损失,分别用LI(XI;θ)和LE(XE;θ)表示。

对于隐性关系损失的计算,论文方法未做改动:

(1)

其中XI=s,p,o,xp∈I}i|XI|,表示GT为隐性关系的样本集合,s,p,o分别为样本的主语、谓语和宾语的GT标签,皆为one-hot向量形式,|XI|为样本总个数,LCE为交叉熵损失,fθ(x为关系分类器的输出,即预测关系的概率分布。通过优化式(1)得到初始模型

Label imputation

对于显性关系损失:

XE=s,p,o,xp∈E}i|XE|,与XI类似,LKL为KL散度,p是论文方法通过

得到归纳标签后,与原始真值标签组合而成的关系标签,形式是一个软概率向量,将在下文Label imputation和Label Refinement部分介绍。对于XE中的样本,关系分类器只关注样本在隐性关系上的概率分布,取最大概率对应的隐性标签,组成新的one-hot向量p

(向量长度为全部关系数量,即|P|),公式如下:

LabelRefinement

将归纳标签向量p和显性样本GT标签向量p组合:pp均为独热编码向量,可以看出向量p中共包含两个不为0的元素(准确说是0.5),因此论文使用KL散度计算损失。

数据增强

如论文框架图所示,论文采用先归纳后训练的半监督学习方法,因此也会出现半监督学习中常见的过拟合问题,为了应对这一问题,常用的方法是使用数据增强,然而主流数据增强方法是对原始图像的像素进行增强,这对于场景图并不适用,因为场景图的联合嵌入特征融合了语义、空间和外观特征。因此本文使用Manifold Mixup方法,将不同样本的联合特征进行组合:

λ为beta分布下的随机数,大小由超参α决定,即λ~Beta(αα),(x,p)(x',p')

分别代表两个样本的联合特征和概率分布,进行组合后的特征和概率分布为xp

实验

数据集:VG

评价指标:R@K、mR@K、zsR@K

zsR@K:zero-Shot Recall,对于训练时未接触过的三元组,进行预测时的R@K结果。

性能实验

论文在传统场景图模型和无偏场景图模型上分别进行实验,实验结果表明论文方法对不同模型都有改进,且在VCTree-TDE上的表现到达了SOTA。

论文观察了方法在进行零样本预测时的表现,结果表明使用论文方法,会小幅度改善模型的性能,另外本文方法应用在IMP上效果不佳,推测是IMP模型训练时只使用视觉特征导致的。(???)

消融实验

表3为不同设置下的消融实验,backbone为Motif-TDE-Sum,表中第二列表示参与预训练时的标签种类,Random表示随意选取显性或隐性标签组成训练集。(为什么baseline那一列mR@K会降低?Random取的样本数量是多少?),Imputed with栏是对p

形成参考的消融,Imputed on是p

应用在哪个集合的消融。

结果表明:1)只使用隐性关系训练对SGG模型性能甚至有小幅提高。2)论文方法捕获到了显性关系标签中的隐性关系信息,进一步提高了SGG模型性能。

消融实验2,backbone为Motif-TDE-Sum,其中Mixup即是否使用Manifold Mixup,Refinement即Label Refinement,Soft/Hard表示归纳标签p,使用原始概率分布,还是独热向量的两种情况。可以看出论文方法的各部分都是有效的,并且对比(第三行和第六行)发现使用Manifold Mixup后对论文方法确实有效果。

可视化实验

上图是使用方法前后模型预测结果的对比可视化,可以观察到应用论文方法形成的场景图,信息量更大了,下图是使用论文方法,对显性关系样本改善的可视化。

思考

打算把这篇的代码多看看

  • 论文工作量不算多,但得出的结论:只用隐性关系可能对SGG模型更有利,感觉是个很重要的信息,想把代码跑一下试试。

  • 实验论文的解释不清楚,部分可能需要看代码确认一下

  • 对zero-shot的性能实验,尤其IMP性能下降的解释没太理解,而且对这个任务,感觉论文方法的改进很有限。

  • 论文方法的框架图太简洁,而且和他的行文顺序对不上,我觉得方法部分可能按照预训练----归纳----训练----介绍损失函数去写会更好理解一点

  • 流程图有部分错误