本文主要是介绍多模态MLLM都是怎么实现的(1),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
好多读者私信说想了解一下多模态的内容,我这人最大的优点就是听劝...
好,那么好
, 今天开始陆续写点多模态内容,没想好是不是要写个专栏(因为我之前挖的坑太多...),然而还是开了,今天先写点基础做个seed
有想了解一下多模态扫盲的读者,可以自己先看看这篇论文
2311.13165.pdf (arxiv.org)
说是论文其实没什么干货,当多模态介绍看看是可以的(BTW现在感觉在aixV上水论文真的容易,我越来越想找人一起水一篇了,有兴趣的请联系我)
我先按照我自己的思路给大家过一下
MLLM(Multimodal Large Language Models)即多模态的大语言模型,顾名思义,这个还是以大语言模型为基础的
那怎么个多模法呢?从我这总结主要是2点:
1-Encoder,decoder的多模
2-多模融合
我们从一个简单的多模态CLIP讲起
CLIP也是OPENAI的模型,现在也被广泛的应用于各种多模态的业务场景里,本身是开源的,又是挺重要的分类器,你们使用的多模态模型或多或少都用了它的代码和概念
我们先看它是怎么实现的,看下图
这篇关于多模态MLLM都是怎么实现的(1)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!