mots专题

【MOTS】Learning a Spatio-Temporal embedding for video instance segmentation

Purpose 把特征映射到高维做聚类,加上自监督的训练得到的图片的Depth信息结合来做VIS Pipline   用ResNet18作为Encoder,得到每一帧的feature x_t;然后用3D卷积,把前后两者特征再滤波得到z_t;z_t通过Decoder(2个分支,每个分支7层卷积,3个upsample,Embedding分支的output通道数为p,Depth通道数为1)