localisation专题

Synthetic Data for Text Localisation in Natural Images（人工合成带有文本的图片）

https://github.com/JarveeLee/SynthText_Chinese_version 1.解决python3的pickle.load错误：a bytes-like object is required, not 'str' 经过几番查找，发现是Python3和Python2的字符串兼容问题，因为数据文件是在Python2下序列化的，所以使用Python3读取时，需要将‘

【论文阅读】End-to-End Spatio-Temporal Action Localisation with Video Transformers

文章目录摘要和结论引言模型框架Vision EncoderTubelet Decoder(factorise Queries CA MHSA)Training objectiveMatching 摘要和结论 e2e，纯基于Transformer的模型，输入视频输出tubelets。无论是对单个帧的稀疏边界框监督还是完整的小管注释。在这两种情况下，它都会预测连贯的tube