本文主要是介绍多模态论文阅读之BLIP,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
BLIP泛读
- Title
- Motivation
- Contribution
- Model
Title
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
Motivation
- 模型角度:clip albef等要么采用encoder-base model 要么采用encoder-decoder model. However, encoder-based models are less straightforward to directly transfer to text generation tasks(e.g. image captioning), whereas encoder-decoder models have not been sucessfully adopted for image-text retrieval tasks. 那有没有一个统一的框架呢?
- 数据角度:SOTA的方法(如CLIP、ALBEF等)都在从web上收集到的图文对上进行预训练。尽管通过扩展数据集获得了性能提升,但本文的研究表明,对于视觉语言学习来说,有噪声的网络文本是次优(suboptimal)的。
Contribution
- Bootstrapping: 从网页上获得了嘈杂的数据集训练一个模型,再通过一些方法获得一个更干净的数据集,能不能训练处一个更好的模型。
- Unified:caption filter
Model
这篇关于多模态论文阅读之BLIP的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!