成立 15 年的美图分享，AI 视觉大模型的核心能力是什么？

本文主要是介绍成立 15 年的美图分享，AI 视觉大模型的核心能力是什么？，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

出品 | CSDN 云计算

国民级美颜修图软件美图秀秀，从移动互联网时代火到现在，而它背后的美图公司也走过了十五年的发展，旗下拥有众多的专业影像与设计产品。最近，美图公司举办 15 周年生日会，生日会上美图还发布了自研 AI 视觉大模型 MiracleVision（奇想智能）的 3.0 版本，以及 3.0 版本的最新进展与对视觉大模型的深刻洞察。

AI 视觉大模型的成熟，还有多久？

今年初 AIGC 爆火，语言与视觉大模型纷纷涌现。视觉大模型对生产与交付效率的提升，已经成为包括设计在内的全行业共识。不过所有精美的 AI 图片背后，生成图片视频的效果、模型的可控性，以及部署和运行使用大模型的成本，可能并不像业界想象中的那么轻松简单。

美图公司创始人、董事长兼首席执行官吴欣鸿分享了目前 AI 视觉大模型在生产端的三个待解决的问题是：垂直领域的极致效果、工作流整合、变现能力。想要实现垂直领域极致的效果，需要高质量的行业数据，以及对模型进行领域内的进一步定向训练。而将大模型整合进工作流，需要大模型可以支持高精度调节，以及上下游协同。当然，模型的变现更需要对商业场景的摸索和理解，以及如何去提升极致效果之后的商业转化率。吴欣鸿提到，随着 AI 视觉大模型和生产端的磨合，这三个问题都将被逐步解决。

美图与吴欣鸿还分享了另一个观察，任务视觉大模型应用普及将经历三个阶段。现在 2023 年为探索期，因此大模型生成的作品效果可能平均只有及格水准，而且仅能单任务运行。2024-2025 年为高速发展期，AI 视觉的作品效果将提升，工作流升级，应用场景也更加明确。2026-2030 年或将是 AI 视觉大模型的成熟期，普及率可能达到 80%。随着视觉大模型在生产端的应用走向成熟，视觉大模型将助力千万设计场景，引领美学的升级与社会经济增长。

美图自研 AI 视觉大模型 MiracleVision 3.0 已经可以做什么

从移动开发时代就深耕影像视觉技术的美图在今年 6 月推出了自研的视觉大模型 MiracleVision。在十五周年生日会上，美图推出了 MiracleVision 的 3.0 版本，MiracleVision 3.0 将全面应用于美图旗下影像与设计产品，并将助力电商、广告、游戏、动漫、影视五大行业。

美图公司将自研 AI 视觉大模型 MiracleVision(奇想智能)的核心能力拆解为“奇思妙想”和“智能创作”两大特性。在“奇思妙想”层面，MiracleVision 通过“提示词智能联想”功能降低大众的使用门槛，当用户输入关键词，MiracleVision 可自动补充相关表述，如光影效果、质感、风格、图片质量等，推动创作平权。此外，MiracleVision 通过“提示词精准控制”功能来满足更加专业的设计要求，如使用“近景”、“远景”、“顺光”、“逆光”等描述控制最终生成效果。在“智能创作”层面，MiracleVision 通过“深化创作”功能，可以进一步丰富作品细节和提升表现力。通过“AI 画面扩展”功能让作品尺寸更大、细节更丰富。通过“局部修改”功能，对部分画面进行精准修改与调整。通过“分辨率提升”功能生成高清大图，让细节表现、色彩展示、物体辨识更加的精准和生动。

三个月迭代到 3.0 版本，已经是非常快的速度。美图公司技术副总裁、美图影像研究院(MT Lab)负责人刘洛麒在采访时表示，在 1.0 阶段，团队搭建了 MiracleVision 大模型的架构与基础平台，2.0 阶段则开始体现美图视觉大模型的独特优势，那就是美学的倾向性与评估体系，美图团队与外部设计师、艺术院校共同构建了高质量的数据集。现在的 3.0 阶段，大模型将更强调模型的可控性，让用户不论是在细节控制还是局部编辑，所需的作品质量与效果，都能在 MiracleVision 大模型技术层面实现。

具体的行业与场景方面，在电商行业，从涂鸦生成线稿、线稿上色、商品图、模特试穿图，再到电商物料输出，全程可通过 MiracleVision 实现。在广告行业，MiracleVision 覆盖创意脑暴、创意深化、平面排版、多尺寸延展、线下投放预览的全工作流，助力客户在广告物料制作环节提效。在游戏行业，MiracleVision 可以包揽场景设计、角色设计、道具设计、UI 图标、宣发物料等流程，拓宽设计师想象空间的同时助力游戏行业降本。在动漫行业，MiracleVision 打通了概念设计、故事板生成、线稿上色、动漫补帧、视频转动漫等流程，支持创意到物料成品的快速落地。在影视行业，MiracleVision 的高可控性可充分满足概念场景设计、分镜设计、人物造型、道具设计、宣发物料的效果要求，极大提升影视行业设计环节的效率。

除了重磅的 MiracleVision 3.0，在生日会上，美图公司也公布了 6 月 19 日发布的影像生产力工具最新数据：AI 视觉创作工具“WHEE”的优质 AI 效果生成数已超过 550 万张，打造的设计师生态也初见成效；AI 口播视频工具“开拍”月活跃用户数已突破 35 万；桌面端 AI 视频编辑工具“WinkStudio”已累计服务近 10 万名视频创作者；主打 AI 商业设计的“美图设计室”正助力近百万中小电商卖家降本增效；美图 AI 助手“RoboNeo”每天帮助近万名用户自动修图，比传统修图效率提升 35%；AI 数字人生成工具“DreamAvatar”于 8 月底上线并主打“AI 演员”数字人服务。

我们能看到，从机器学习到大模型，美图在视觉 AI 技术上的探索已经初见成效。美图对于 AI 视觉大模型的技术与产品的思考、分享，也推荐对 AI 视觉技术感兴趣的开发者重点关注。CSDN 将持续报道大模型的最近技术趋势与实践。

这篇关于成立 15 年的美图分享，AI 视觉大模型的核心能力是什么？的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！