eccv18专题

论文阅读：Zoom-Net：Mining Deep Feature Interactions for Visual Relationship Recognition(ECCV18)

这篇论文有两个亮点，第一个是SCA-Module，第二个是损失函数的求法。整个框架还是很简洁明了的，就不多说了。 1.Spatiality-Context-Apperance Module（SCA-M）总共计算了五种特征，主宾各一种，谓语三种。图上画得挺清楚的，就不细说了。谓语的三种特征计算的这种结构叫做Contrasive ROI Pooling，是用来感知空间位置关系的主语和宾语的