多模态大模型如何改变我们的生活？

本文主要是介绍多模态大模型如何改变我们的生活？，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

2022年，OpenAI 的ChatGPT 3.5 横空出世，搅动了整个AI 行业。Transformer、LLM、VLM、大模型、多模态等概念蜂拥而至。让我们不禁感慨这世界技术更新之快。

【什么是大模型？】

“大模型”通常指具有数十亿到数千亿个参数的神经网络模型，需要大量的计算资源和数据来进行训练和运行。通过硬件计算能力的提升，以及训练数据量的增加，使得大模型可以完成更复杂的任务，为人们提供更多的服务。

以ChatGPT为例，ChatGPT到底能用来做什么？我们看看ChatGPT自己怎么说？

【大模型的主要应用市场有哪些呢？】

大模型其实可以用在各行各业，手机、PC、服务器和安防都是有很大的需求的。

AI 手机能做什么？

去年8月，华为HarmonyOS 4系统接入盘古大模型，随后小米训练出轻量级语言大模型，参数规模为13亿和60亿两种。同年11月，vivoX100系列首次搭载vivo蓝心大模型。到2024年，AI手机百花齐放，OPPO Find X7系列、荣耀Magic 6系列、vivo的X100列等都支持了大模型。从高端旗舰到中端机型，各家都开始布局AI手机。

Gartner 对生成式 AI 智能手机的定义是指配备硬件和软件功能的智能手机，能够在智能手机上无缝集成和高效执行 GenAI 驱动的功能和应用程序。这些智能手机能够本地运行基础或微调人工智能模型，生成新的衍生内容、策略、设计和方法版本。这方面的例子包括谷歌的 Gemini Nano、百度的文心 ERNIE 和 OpenAI 的 GPT-4。

根据Canalys，满足以下三大标准即可被确认为AI手机：

1）大模型方面，智能手机能够在端侧运行LLM（如谷歌的Gemini、三星的Gauss等）和其他生成式AI模型（如Stable Diffusion等）；

2）硬件方面，智能手机的SoC芯片中包含能够加速AI运行的专用单元（如高通的Hexagon、联发科的APU和谷歌的TPU等）；

3）运行效果方面，端侧LLM的推理能力高于成人的阅读速度即10token/s（基于LLaMA-27B,或同等水平），同时端侧AI生成图像的时间要小于2秒（基于StableDiffusionv1.5，20步，512*512分辨率，或同等水平）

在OPPO联合调研机构IDC共同发布的《AI手机白皮书》中，OPPO分享了其定义的AI手机的四大能力特征：高效利用计算资源、数据感知更敏锐、强大的自学习能力以及丰富的创作能力：

而Apple对AI 手机的定义如下：

综上所述，可以看到，大家认为的AI手机如下：

SoC具有专用的AI单元。这个高通、联发科的高端SoC都有专用的AI 单元，用来运行相关的AI模型。所有的模型都是在本地运行，而非通过网络服务器运行。
能够在端侧运行LLM。对于AI 手机，可具备的功能会有：
- 语音助手：如Siri、Google Assistant等虚拟助手能够理解自然语言指令，执行任务如设置提醒、搜索信息等。
- 电话助手：比如拨打电话、对通话内容进行文本输出或内容总结
- 会议助手：比如对会议内容进行文本输出，内容总结
- 健康助手：对使用者进行活动跟踪和健康检测
- 翻译助手：实时进行多国语言互译
- 写作助手：键盘预测、自动纠错、文档关联、作诗写词、思维导图、活动方案、社交圈文案等
- 知识问答：超大书库数据，对论文、网页等做总结文档
- 教育助手：可以作为虚拟教育助手，协助教师管理课程和学生。
能够运行生成式AI模型
- 图片创作，比如通过文字生图、通过一个图片+文字生图、对图片进行二创、对图片进行AI PS、图像风格转换等
- 不仅能运行以上模型外，还需要2秒内甚至更短的时间就能生成图片等功能。
- 可以智能分析、智能操作等
- 语义搜索：输入一段话，轻松在手机上找到相关的图片、文档、歌曲或便签。
- 图文分析：比如对照片整理分类整理，形成动态相册等
智能摄影：
- 场景识别和优化：智能手机可以识别拍摄场景（如人物、风景、食物等），并自动调整相机设置以获得最佳效果。
- 夜间模式：AI算法可以在低光环境中减少噪点，增强细节，改善夜间拍摄效果。
从去年开始，各大手机公司都发布了AI 手机，
华为Pura 70：‌内置自研的盘古大模型，‌具备AI隔空操作和智感支付功能‌
三星Galaxy S24：‌融合本地和云端AI体验，‌为用户带来通话实时翻译、‌即圈即搜、‌转录助手和笔记助手、‌浏览助手以及生成式编辑等创新AI应用‌
OPPO Find X7：‌‌通过搭载OPPO自研大模型AndesGPT，‌可以在200字的首字生成带来20倍的更快响应。其中，‌AI通话摘要功能可以在通话结束后智能识别通话内容，‌生成重点信息摘要，‌并快捷记录联系方式等信息‌
小米14 Ultra：‌首次搭载AI大模型计算摄影平台Xiaomi AISP，‌将AIGC技术应用到计算摄影领域。‌基于Stable Diffusion模型，‌解决相机中长焦功能拍摄距离远、‌成片效果模糊不清、‌缺少真实性的问题‌
VIVO X100系列：‌搭载自研的“蓝心大模型”，‌通过大参数AI算力的端侧部署与云端服务，‌为用户提供蓝心小V、‌蓝心千询等终端智能应用交互。‌
魅族21 PRO：‌该手机可实现包括AI语音助手、AI图库在内的多项AI功能，可进行专业知识问答，也可根据自然语文生成文本或图片，还可帮助用户自动生成消息回复，并根据用户需求进行长文创作。

而主控方面，支持AI 功能的主控芯片不多，能用的主控是45Tops算力的高通骁龙8 gen 3 , 联发科天玑‌9300+ 和 Apple的35Tops 的A17 pro。而下半年三家也分别会发布据传100Tops 的骁龙8 gen 4，天玑9400 和A18 pro。

AI PC能做什么？

Gartner 对 AI PC 的定义是指配备专用人工智能加速器或内核、神经处理单元（NPU）、加速处理单元（APU）或张量处理单元（TPU）的个人电脑，旨在优化和加速设备上的人工智能任务。

微软和英特尔联合制定的 AI PC 定义：须配备 NPU、CPU 和 GPU，并支持微软的 Copilot，且键盘上直接配有 Copilot 物理按键（该键取代了键盘右侧第二个 Windows 键）。这意味着已经发布的那些缺少 Copilot 键的 Meteor Lake 和锐龙笔记本电脑都不符合微软的官方标准。

由于人工智能模型种类繁多，英特尔表示运行大语言模型时内存容量将成为一个关键制约因素，某些工作负载可能需要 16GB 内存，甚至可能需要 32GB 内存。自然地，这就需要更高的成本，尤其是在笔记本电脑中，但微软尚未定义最低内存要求。

而处理器方面，高通去年年底推出的 Snapdragon X Elite 平台，算力可以达到 45 TOPS，符合 AI PC 要求；AMD 即将推出的 Ryzen 8000 系列（Strix Point），预估也符合 AI PC；而英特尔去年 12 月推出的 Meteor Lake，其 CPU+GPU+NPU 算力仅 34 TOPS，并不符合微软要求，预估今年推出的 Lunar Lake 会超过 40 TOPS。

值得注意的是，未来高通、英特尔和 AMD 竞逐 AI PC 过程，也将牵动 x86 及 Arm 两大 CPU 阵营在 Edge AI 市场的竞争。戴尔、惠普、联想、华硕、宏碁等主要 OEM 厂商在 2024 年将陆续开发搭载高通 CPU 的机型，试图瓜分 AI PC 蛋糕，会给 X86 阵营造成一定威胁。

至于安防行业，由于传统CNN普及最高的市场，多模态大模型的出现势必会增加安防行业的智能化普及率。传统CNN+多模态大模型的结合，将会帮安防行业实现更多的新功能，从而实现一些传统CNN无法实现的功能。

【大模型市场的出货量】

那AI Smartphone和AI PC是否会带动整个市场的需求呢？从Canalys的出货量预估来看，AI Smartphone和AI PC 无法对Smarphone和PC的整体出货量带来更多的增长，但AI smartphone和AI PC在smartphone和PC市场中的占比，还是会增长非常快的。

来源：Canalys

【为什么要在端侧普及大模型？】

很多受限于技术的发展，很多模型都是跑在服务器上的。很多AI 应用都是将数据从端侧传至服务器，服务器处理后，再将相关的数据传回至端侧。但这就会产生几个问题：

隐私保护
- 比如家用NAS。很多人安装家用NAS，目的就是为了不想将自己的隐私给到云端的网络供应商。但若在NAS上跑智能算法还需要将数据提供到云端才能使用，等于将自己的隐私传输出去
可靠性
- 部分产品，比如翻译笔的应用场所网络不好时就无法使用的话，对产品的易用性也会造成很多困扰
响应速度
- 将数据从端侧传至服务器，再将处理后的数据传回来，这个过程自身就会受网络性能和数据量多少的影响，产生相应的时延，这对用户体验都是一个挑战
成本效益
如果大量的端侧设备同时运行AI 应用，对服务器端也会产生更高的要求，需要更强性能的服务器。但过了高峰期后，服务器又闲置起来，造成资源的浪费。

【如何在端侧普及大模型？】

若想在端侧普及大模型，重中之重就是需要降低端侧SoC的成本和功耗。

如果想在端侧普及大模型，就有几个注意事项：

总算力不能太大
- 高通的骁龙Gen3 算力高达45Tops，而其平均单价高达200美金左右。算力太大，芯片成本自然会增加，这样的成本势必无法做到低成本普及
大模型的参数量不能太大
- 行业内通用的公式是1B参数量的模型，需要1.5GB/s的DDR带宽。高通/联发科的旗舰SoC的带宽76.8GB/s 看起来很大，但需要使用带宽的地方非常多，CPU、LCD都需要，而76.8GB/s的带宽是总带宽实际能使用的带宽50%就差不多了。若跑个13B参数量的模型，光模型就需要20GB/s，带宽会非常紧张，并且造成非常大的功耗。
大模型需要往4bit 发展
- 目前很多大模型采用的都是fp16, int8等精度。若能将大模型优化到int4/int8的混合模型后，势必会降低算法的参数量，以及算法的功耗

若想大模型在端侧普及，势必需要芯片的供应商在算力、DDR带宽、大模型参数量，以及最终的芯片成本上做一个平衡，做到既便宜又好用还是非常难的。贾扬清借用来源自Ghimire等人的《A Survey on Efficient Convolutional Neural Networks and Hardware Acceleration》里的图，来说明传统CNN的模型大小和算法精度发展关系。

而贾扬清也表示目前大模型的发展跟前些年的CNN模型一模一样，先变大再变小变高效。

其实大模型和小模型各有各的作用，先通过大模型训练出需要实现的功能，然后将大模型精简，精简成更高效的小模型，这样才能使这个模型更加普及，更加广泛的被应用。

当然目前的LLM也不是全是优点。主要有以下问题：

幻觉问题：也就是大家说的，LLM 会一本正经地胡说八道。这是LLM内在feature，而非bug。加大模型可以减少幻觉，但不能根治幻觉。因为若LLM 去掉了幻觉，就等于缺乏了想象力，张冠李戴是顺畅生成的必然。
不稳定性：不稳定才有创造性和多样性。不稳定会带来惊恐，也会带来惊喜。这样的问题，有利于艺术创造任务，但也是领域落地的命门
知识欠缺：因为模型不是数据库，是条件预测，不是检索。这就造成LLM在处理专业问题时，容易出问题。

而这几个问题，也不是无法改善。比如通过检索增强生成（Retrieval Augmented Generation），简称 RAG，已经成为当前最火热的LLM应用方案。我们向 LLM 提问一个问题时，RAG 可以从各种数据源检索相关的信息，并将检索到的信息和问题注入到 LLM 提示中，最后LLM 给出答案。

只有这些问题改善，才能让大模型更容易普及。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述