本文主要是介绍VLM 系列——phi3.5-Vision——论文解读,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
一、概述
1、是什么
论文全称《Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone》 是一系列大型语言模型(LLM) & 多模态大型语言模型(MLLM)。其中LLM包括phi-3-mini 3.8B、phi-3-small 7B、phi-3-medium 14B,phi-3-mini可以轻松地在现代手机上本地进行推理;多模态模型包括phi-3-vision(基于phi-3-mini & CLIP ViT-L/14) 4.2B。本文重点介绍多模态的phi-3-mini模型,该模型能够处理包括文本、图像在内的多种数据类型,具备图片描述、单图文问答、 多图问对话、视频理解对话 、json格式、高清OCR解析和表格理解(代码编写和debug、函数调用论文暂时未提)。注意因为基座模型主要使用英文训练,所以论文提到并且实测对中文图像识别和对话效果一般。
2、亮点
目前端侧多模态模型中算很小的一个。(最近又出了一个mini monkey2.8B)
在此版本中,模型具备了多帧图像理解和推理能力,这基于宝贵的客户
这篇关于VLM 系列——phi3.5-Vision——论文解读的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!