首页
Python
Java
前端
数据库
Linux
Chatgpt专题
开发者工具箱
mots专题
【MOTS】Learning a Spatio-Temporal embedding for video instance segmentation
Purpose 把特征映射到高维做聚类,加上自监督的训练得到的图片的Depth信息结合来做VIS Pipline 用ResNet18作为Encoder,得到每一帧的feature x_t;然后用3D卷积,把前后两者特征再滤波得到z_t;z_t通过Decoder(2个分支,每个分支7层卷积,3个upsample,Embedding分支的output通道数为p,Depth通道数为1)
阅读更多...