CVPR 2023: Cross-Domain Image Captioning with Discriminative Finetuning

本文主要是介绍CVPR 2023: Cross-Domain Image Captioning with Discriminative Finetuning，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

基于MECE原则，我们可以使用以下 6 个图像字幕研究分类标准：

1. 模型架构

编码器-解码器模型：这些传统的序列到序列模型使用单独的神经网络来处理图像和生成字幕。编码器，通常是卷积神经网络（CNN），从图像中提取视觉特征。解码器，通常是循环神经网络（RNN）如 LSTM，然后逐字生成字幕，条件是编码后的图像特征。这是早期作品如 Show and Tell [44] 和 VGG+LSTM [12] 采用的基本架构。
注意力机制模型：这些模型将注意力机制添加到编码器-解码器框架中。注意力机制允许解码器关注图像中与当前生成的单词相关的特定部分。这可以导致更准确和详细的字幕，尤其是对于复杂场景。示例包括 Show, Attend and Tell [46] 和 Bottom-up and Top-down Attention [3]。
Transformer 模型：这些模型完全用 Transformer 架构替换 RNN 解码器。Transformer 架构是一种强大的注意力机制，最初是为机器翻译开发的。Transformer 可以捕捉图像中的长距离依赖关系，生成流畅和语法正确的字幕。An Image is Worth 16x16 Words [13] 和 BLIP [23] 是这种近期趋势的例子。

2. 数据集重点