本文主要是介绍成立 15 年的美图分享,AI 视觉大模型的核心能力是什么?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
出品 | CSDN 云计算
国民级美颜修图软件美图秀秀,从移动互联网时代火到现在,而它背后的美图公司也走过了十五年的发展,旗下拥有众多的专业影像与设计产品。最近,美图公司举办 15 周年生日会,生日会上美图还发布了自研 AI 视觉大模型 MiracleVision(奇想智能)的 3.0 版本,以及 3.0 版本的最新进展与对视觉大模型的深刻洞察。
AI 视觉大模型的成熟,还有多久?
今年初 AIGC 爆火,语言与视觉大模型纷纷涌现。视觉大模型对生产与交付效率的提升,已经成为包括设计在内的全行业共识。不过所有精美的 AI 图片背后,生成图片视频的效果、模型的可控性,以及部署和运行使用大模型的成本,可能并不像业界想象中的那么轻松简单。
美图公司创始人、董事长兼首席执行官吴欣鸿分享了目前 AI 视觉大模型在生产端的三个待解决的问题是:垂直领域的极致效果、工作流整合、变现能力。想要实现垂直领域极致的效果,需要高质量的行业数据,以及对模型进行领域内的进一步定向训练。而将大模型整合进工作流,需要大模型可以支持高精度调节,以及上下游协同。当然,模型的变现更需要对商业场景的摸索和理解,以及如何去提升极致效果之后的商业转化率。吴欣鸿提到,随着 AI 视觉大模型和生产端的磨合,这三个问题都将被逐步解决。
美图与吴欣鸿还分享了另一个观察,任务视觉大模型应用普及将经历三个阶段。现在 2023 年为探索期,因此大模型生成的作品效果可能平均只有及格水准,而且仅能单任务运行。2024-2025 年为高速发展期,AI 视觉的作品效果将提升,工作流升级,应用场景也更加明确。2026-2030 年或将是 AI 视觉大模型的成熟期,普及率可能达到 80%。随着视觉大模型在生产端的应用走向成熟,视觉大模型将助力千万设计场景,引领美学的升级与社会经济增长。
美图自研 AI 视觉大模型 MiracleVision 3.0 已经可以做什么
从移动开发时代就深耕影像视觉技术的美图在今年 6 月推出了自研的视觉大模型 MiracleVision。在十五周年生日会上,美图推出了 MiracleVision 的 3.0 版本,MiracleVision 3.0 将全面应用于美图旗下影像与设计产品,并将助力电商、广告、游戏、动漫、影视五大行业。
美图公司将自研 AI 视觉大模型 MiracleVision(奇想智能)的核心能力拆解为“奇思妙想”和“智能创作”两大特性。在“奇思妙想”层面,MiracleVision 通过“提示词智能联想”功能降低大众的使用门槛,当用户输入关键词,MiracleVision 可自动补充相关表述,如光影效果、质感、风格、图片质量等,推动创作平权。此外,MiracleVision 通过“提示词精准控制”功能来满足更加专业的设计要求,如使用“近景”、“远景”、“顺光”、“逆光”等描述控制最终生成效果。在“智能创作”层面,MiracleVision 通过“深化创作”功能,可以进一步丰富作品细节和提升表现力。通过“AI 画面扩展”功能让作品尺寸更大、细节更丰富。通过“局部修改”功能,对部分画面进行精准修改与调整。通过“分辨率提升”功能生成高清大图,让细节表现、色彩展示、物体辨识更加的精准和生动。
三个月迭代到 3.0 版本,已经是非常快的速度。美图公司技术副总裁、美图影像研究院(MT Lab)负责人刘洛麒在采访时表示,在 1.0 阶段,团队搭建了 MiracleVision 大模型的架构与基础平台,2.0 阶段则开始体现美图视觉大模型的独特优势,那就是美学的倾向性与评估体系,美图团队与外部设计师、艺术院校共同构建了高质量的数据集。现在的 3.0 阶段,大模型将更强调模型的可控性,让用户不论是在细节控制还是局部编辑,所需的作品质量与效果,都能在 MiracleVision 大模型技术层面实现。
具体的行业与场景方面,在电商行业,从涂鸦生成线稿、线稿上色、商品图、模特试穿图,再到电商物料输出,全程可通过 MiracleVision 实现。在广告行业,MiracleVision 覆盖创意脑暴、创意深化、平面排版、多尺寸延展、线下投放预览的全工作流,助力客户在广告物料制作环节提效。在游戏行业,MiracleVision 可以包揽场景设计、角色设计、道具设计、UI 图标、宣发物料等流程,拓宽设计师想象空间的同时助力游戏行业降本。在动漫行业,MiracleVision 打通了概念设计、故事板生成、线稿上色、动漫补帧、视频转动漫等流程,支持创意到物料成品的快速落地。在影视行业,MiracleVision 的高可控性可充分满足概念场景设计、分镜设计、人物造型、道具设计、宣发物料的效果要求,极大提升影视行业设计环节的效率。
除了重磅的 MiracleVision 3.0,在生日会上,美图公司也公布了 6 月 19 日发布的影像生产力工具最新数据:AI 视觉创作工具“WHEE”的优质 AI 效果生成数已超过 550 万张,打造的设计师生态也初见成效;AI 口播视频工具“开拍”月活跃用户数已突破 35 万;桌面端 AI 视频编辑工具“WinkStudio”已累计服务近 10 万名视频创作者;主打 AI 商业设计的“美图设计室”正助力近百万中小电商卖家降本增效;美图 AI 助手“RoboNeo”每天帮助近万名用户自动修图,比传统修图效率提升 35%;AI 数字人生成工具“DreamAvatar”于 8 月底上线并主打“AI 演员”数字人服务。
我们能看到,从机器学习到大模型,美图在视觉 AI 技术上的探索已经初见成效。美图对于 AI 视觉大模型的技术与产品的思考、分享,也推荐对 AI 视觉技术感兴趣的开发者重点关注。CSDN 将持续报道大模型的最近技术趋势与实践。
这篇关于成立 15 年的美图分享,AI 视觉大模型的核心能力是什么?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!