本文主要是介绍CVPR 2023: Cross-Domain Image Captioning with Discriminative Finetuning,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
基于MECE原则,我们可以使用以下 6 个图像字幕研究分类标准:
1. 模型架构
-
编码器-解码器模型:这些传统的序列到序列模型使用单独的神经网络来处理图像和生成字幕。编码器,通常是卷积神经网络(CNN),从图像中提取视觉特征。解码器,通常是循环神经网络(RNN)如 LSTM,然后逐字生成字幕,条件是编码后的图像特征。这是早期作品如 Show and Tell [44] 和 VGG+LSTM [12] 采用的基本架构。
-
注意力机制模型:这些模型将注意力机制添加到编码器-解码器框架中。注意力机制允许解码器关注图像中与当前生成的单词相关的特定部分。这可以导致更准确和详细的字幕,尤其是对于复杂场景。示例包括 Show, Attend and Tell [46] 和 Bottom-up and Top-down Attention [3]。
-
Transformer 模型:这些模型完全用 Transformer 架构替换 RNN 解码器。Transformer 架构是一种强大的注意力机制,最初是为机器翻译开发的。Transformer 可以捕捉图像中的长距离依赖关系,生成流畅和语法正确的字幕。An Image is Worth 16x16 Words [13] 和 BLIP [23] 是这种近期趋势的例子。
2. 数据集重点
-
通用图像字幕:这涉及在大型通用数据集上训练模型,如 COCO [24],其中包含数百万张具有多样化内容的图像。这
这篇关于CVPR 2023: Cross-Domain Image Captioning with Discriminative Finetuning的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!