标题分析
Not AllRelations are Equal:对论文发现的总结,不是所有关系在训练时的作用都是平等的。
MiningInformative Labels:论文方法,挖掘关系标签中的信息。
Scene GraphGeneration:任务,场景图生成。
动机
两个概念
显性关系:通常是一些表示空间关系的谓词,比如“on”、“at”“behind”
隐性关系:没有直接表达空间关系的谓词,通常是像“riding”,“walking”这样的动词,和显性标签相比,隐性标签所含的信息量更大,也更难预测。
论文发现
如图1(a),论文发现在数据集中,若物体对间只用显性关系标注,往往也可以用更有信息量的隐性关系标签来标注。
图1(b)探究了只使用隐性标签或显性标签作为数据集在训练上的差异,蓝色和黄色分别表示只通过隐性标签和只通过显性标签训练的SGG模型,横轴是几个示例的显性和隐性标签,纵轴是模型对标签的召回率(R@100),结果发现,只使用隐性标签训练的模型,不仅对隐性标签的预测性能良好,还可以很好的预测显性标签,而显性标签训练的模型做不到,下方实验也证明了这一点。
于是论文想,将数据集中样本按关系分类为显性样本和隐性样本,通过半监督学习的方式对数据集处理,归纳出显性样本对应的隐性关系并利用,达到扩充训练集信息量的目的,改善SGG模型性能。
贡献
1.对数据集的标签给出了新的分类方式(implicit,explicit),探究了隐性/显性标签对模型的影响,并通过论文方法挖掘出数据集中更多的隐性关系信息。
2. 使用论文方法的VCTree-TDE模型在实验中指标达到SOTA,同时,本论文的方法在多种场景图模型中同样适用。
方法概述
SGG初始模型只使用了隐性关系进行预训练,通过初始模型对数据集归纳后,利用新数据集对模型再训练,如图2,输入一张图像,生成场景图,对于隐性标签(蓝实线),论文方法在归纳操作中不进行处理,对于标注显性关系的样本X,使用训练的初始模型得到X的归纳标签,再将归纳标签和真实标签组合作为样本X新的真实标签,随后使用优化过的数据集再次训练。
具体方法
预训练
假设关系分类器fθ中需要训练的参数为θ,定义fθ的输入为联合嵌入特征x,输出为经过softmax的概率分布(包含|P|个关系),即Rd→R|P|,论文将训练的总损失也分为了隐性关系损失和显性关系损失,分别用LI(XI;θ)和LE(XE;θ)表示。
对于隐性关系损失的计算,论文方法未做改动:
(1)
其中XI=s,p,o,xp∈I}i|XI|,表示GT为隐性关系的样本集合,s,p,o分别为样本的主语、谓语和宾语的GT标签,皆为one-hot向量形式,|XI|为样本总个数,LCE为交叉熵损失,fθ(x为关系分类器的输出,即预测关系的概率分布。通过优化式(1)得到初始模型fθ。
Label imputation
对于显性关系损失:
XE=s,p,o,xp∈E}i|XE|,与XI类似,LKL为KL散度,p是论文方法通过fθ
得到归纳标签后,与原始真值标签组合而成的关系标签,形式是一个软概率向量,将在下文Label imputation和Label Refinement部分介绍。对于XE中的样本,关系分类器fθ只关注样本在隐性关系上的概率分布,取最大概率对应的隐性标签,组成新的one-hot向量p
(向量长度为全部关系数量,即|P|),公式如下:
LabelRefinement
将归纳标签向量p和显性样本GT标签向量p组合:p和p均为独热编码向量,可以看出向量p中共包含两个不为0的元素(准确说是0.5),因此论文使用KL散度计算损失。
数据增强
如论文框架图所示,论文采用先归纳后训练的半监督学习方法,因此也会出现半监督学习中常见的过拟合问题,为了应对这一问题,常用的方法是使用数据增强,然而主流数据增强方法是对原始图像的像素进行增强,这对于场景图并不适用,因为场景图的联合嵌入特征融合了语义、空间和外观特征。因此本文使用Manifold Mixup方法,将不同样本的联合特征进行组合:
λ为beta分布下的随机数,大小由超参α决定,即λ~Beta(α,α),(x,p)和(x',p')
分别代表两个样本的联合特征和概率分布,进行组合后的特征和概率分布为x和p。
实验
数据集:VG
评价指标:R@K、mR@K、zsR@K
zsR@K:zero-Shot Recall,对于训练时未接触过的三元组,进行预测时的R@K结果。
性能实验
论文在传统场景图模型和无偏场景图模型上分别进行实验,实验结果表明论文方法对不同模型都有改进,且在VCTree-TDE上的表现到达了SOTA。
论文观察了方法在进行零样本预测时的表现,结果表明使用论文方法,会小幅度改善模型的性能,另外本文方法应用在IMP上效果不佳,推测是IMP模型训练时只使用视觉特征导致的。(???)
消融实验
表3为不同设置下的消融实验,backbone为Motif-TDE-Sum,表中第二列表示参与预训练时的标签种类,Random表示随意选取显性或隐性标签组成训练集。(为什么baseline那一列mR@K会降低?Random取的样本数量是多少?),Imputed with栏是对p
形成参考的消融,Imputed on是p
应用在哪个集合的消融。
结果表明:1)只使用隐性关系训练对SGG模型性能甚至有小幅提高。2)论文方法捕获到了显性关系标签中的隐性关系信息,进一步提高了SGG模型性能。
消融实验2,backbone为Motif-TDE-Sum,其中Mixup即是否使用Manifold Mixup,Refinement即Label Refinement,Soft/Hard表示归纳标签p,使用原始概率分布,还是独热向量的两种情况。可以看出论文方法的各部分都是有效的,并且对比(第三行和第六行)发现使用Manifold Mixup后对论文方法确实有效果。
可视化实验
上图是使用方法前后模型预测结果的对比可视化,可以观察到应用论文方法形成的场景图,信息量更大了,下图是使用论文方法,对显性关系样本改善的可视化。
思考
打算把这篇的代码多看看
论文工作量不算多,但得出的结论:只用隐性关系可能对SGG模型更有利,感觉是个很重要的信息,想把代码跑一下试试。
实验论文的解释不清楚,部分可能需要看代码确认一下
对zero-shot的性能实验,尤其IMP性能下降的解释没太理解,而且对这个任务,感觉论文方法的改进很有限。
论文方法的框架图太简洁,而且和他的行文顺序对不上,我觉得方法部分可能按照预训练----归纳----训练----介绍损失函数去写会更好理解一点
流程图有部分错误