成立 15 年的美图分享,AI 视觉大模型的核心能力是什么?

2023-10-13 17:36

本文主要是介绍成立 15 年的美图分享,AI 视觉大模型的核心能力是什么?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

出品 | CSDN 云计算

国民级美颜修图软件美图秀秀,从移动互联网时代火到现在,而它背后的美图公司也走过了十五年的发展,旗下拥有众多的专业影像与设计产品。最近,美图公司举办 15 周年生日会,生日会上美图还发布了自研 AI 视觉大模型 MiracleVision(奇想智能)的 3.0 版本,以及 3.0 版本的最新进展与对视觉大模型的深刻洞察。

AI 视觉大模型的成熟,还有多久?

今年初 AIGC 爆火,语言与视觉大模型纷纷涌现。视觉大模型对生产与交付效率的提升,已经成为包括设计在内的全行业共识。不过所有精美的 AI 图片背后,生成图片视频的效果、模型的可控性,以及部署和运行使用大模型的成本,可能并不像业界想象中的那么轻松简单。

美图公司创始人、董事长兼首席执行官吴欣鸿分享了目前 AI 视觉大模型在生产端的三个待解决的问题是:垂直领域的极致效果、工作流整合、变现能力。想要实现垂直领域极致的效果,需要高质量的行业数据,以及对模型进行领域内的进一步定向训练。而将大模型整合进工作流,需要大模型可以支持高精度调节,以及上下游协同。当然,模型的变现更需要对商业场景的摸索和理解,以及如何去提升极致效果之后的商业转化率。吴欣鸿提到,随着 AI 视觉大模型和生产端的磨合,这三个问题都将被逐步解决。

美图与吴欣鸿还分享了另一个观察,任务视觉大模型应用普及将经历三个阶段。现在 2023 年为探索期,因此大模型生成的作品效果可能平均只有及格水准,而且仅能单任务运行。2024-2025 年为高速发展期,AI 视觉的作品效果将提升,工作流升级,应用场景也更加明确。2026-2030 年或将是 AI 视觉大模型的成熟期,普及率可能达到 80%。随着视觉大模型在生产端的应用走向成熟,视觉大模型将助力千万设计场景,引领美学的升级与社会经济增长。

美图自研 AI 视觉大模型 MiracleVision 3.0 已经可以做什么

从移动开发时代就深耕影像视觉技术的美图在今年 6 月推出了自研的视觉大模型 MiracleVision。在十五周年生日会上,美图推出了 MiracleVision 的 3.0 版本,MiracleVision 3.0 将全面应用于美图旗下影像与设计产品,并将助力电商、广告、游戏、动漫、影视五大行业。

美图公司将自研 AI 视觉大模型 MiracleVision(奇想智能)的核心能力拆解为“奇思妙想”和“智能创作”两大特性。在“奇思妙想”层面,MiracleVision 通过“提示词智能联想”功能降低大众的使用门槛,当用户输入关键词,MiracleVision 可自动补充相关表述,如光影效果、质感、风格、图片质量等,推动创作平权。此外,MiracleVision 通过“提示词精准控制”功能来满足更加专业的设计要求,如使用“近景”、“远景”、“顺光”、“逆光”等描述控制最终生成效果。在“智能创作”层面,MiracleVision 通过“深化创作”功能,可以进一步丰富作品细节和提升表现力。通过“AI 画面扩展”功能让作品尺寸更大、细节更丰富。通过“局部修改”功能,对部分画面进行精准修改与调整。通过“分辨率提升”功能生成高清大图,让细节表现、色彩展示、物体辨识更加的精准和生动。

三个月迭代到 3.0 版本,已经是非常快的速度。美图公司技术副总裁、美图影像研究院(MT Lab)负责人刘洛麒在采访时表示,在 1.0 阶段,团队搭建了 MiracleVision 大模型的架构与基础平台,2.0 阶段则开始体现美图视觉大模型的独特优势,那就是美学的倾向性与评估体系,美图团队与外部设计师、艺术院校共同构建了高质量的数据集。现在的 3.0 阶段,大模型将更强调模型的可控性,让用户不论是在细节控制还是局部编辑,所需的作品质量与效果,都能在 MiracleVision 大模型技术层面实现。

具体的行业与场景方面,在电商行业,从涂鸦生成线稿、线稿上色、商品图、模特试穿图,再到电商物料输出,全程可通过 MiracleVision 实现。在广告行业,MiracleVision 覆盖创意脑暴、创意深化、平面排版、多尺寸延展、线下投放预览的全工作流,助力客户在广告物料制作环节提效。在游戏行业,MiracleVision 可以包揽场景设计、角色设计、道具设计、UI 图标、宣发物料等流程,拓宽设计师想象空间的同时助力游戏行业降本。在动漫行业,MiracleVision 打通了概念设计、故事板生成、线稿上色、动漫补帧、视频转动漫等流程,支持创意到物料成品的快速落地。在影视行业,MiracleVision 的高可控性可充分满足概念场景设计、分镜设计、人物造型、道具设计、宣发物料的效果要求,极大提升影视行业设计环节的效率。

除了重磅的 MiracleVision 3.0,在生日会上,美图公司也公布了 6 月 19 日发布的影像生产力工具最新数据:AI 视觉创作工具“WHEE”的优质 AI 效果生成数已超过 550 万张,打造的设计师生态也初见成效;AI 口播视频工具“开拍”月活跃用户数已突破 35 万;桌面端 AI 视频编辑工具“WinkStudio”已累计服务近 10 万名视频创作者;主打 AI 商业设计的“美图设计室”正助力近百万中小电商卖家降本增效;美图 AI 助手“RoboNeo”每天帮助近万名用户自动修图,比传统修图效率提升 35%;AI 数字人生成工具“DreamAvatar”于 8 月底上线并主打“AI 演员”数字人服务。

我们能看到,从机器学习到大模型,美图在视觉 AI 技术上的探索已经初见成效。美图对于 AI 视觉大模型的技术与产品的思考、分享,也推荐对 AI 视觉技术感兴趣的开发者重点关注。CSDN 将持续报道大模型的最近技术趋势与实践。

这篇关于成立 15 年的美图分享,AI 视觉大模型的核心能力是什么?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/204824

相关文章

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

AI绘图怎么变现?想做点副业的小白必看!

在科技飞速发展的今天,AI绘图作为一种新兴技术,不仅改变了艺术创作的方式,也为创作者提供了多种变现途径。本文将详细探讨几种常见的AI绘图变现方式,帮助创作者更好地利用这一技术实现经济收益。 更多实操教程和AI绘画工具,可以扫描下方,免费获取 定制服务:个性化的创意商机 个性化定制 AI绘图技术能够根据用户需求生成个性化的头像、壁纸、插画等作品。例如,姓氏头像在电商平台上非常受欢迎,

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

这15个Vue指令,让你的项目开发爽到爆

1. V-Hotkey 仓库地址: github.com/Dafrok/v-ho… Demo: 戳这里 https://dafrok.github.io/v-hotkey 安装: npm install --save v-hotkey 这个指令可以给组件绑定一个或多个快捷键。你想要通过按下 Escape 键后隐藏某个组件,按住 Control 和回车键再显示它吗?小菜一碟: <template

从去中心化到智能化:Web3如何与AI共同塑造数字生态

在数字时代的演进中,Web3和人工智能(AI)正成为塑造未来互联网的两大核心力量。Web3的去中心化理念与AI的智能化技术,正相互交织,共同推动数字生态的变革。本文将探讨Web3与AI的融合如何改变数字世界,并展望这一新兴组合如何重塑我们的在线体验。 Web3的去中心化愿景 Web3代表了互联网的第三代发展,它基于去中心化的区块链技术,旨在创建一个开放、透明且用户主导的数字生态。不同于传统

AI一键生成 PPT

AI一键生成 PPT 操作步骤 作为一名打工人,是不是经常需要制作各种PPT来分享我的生活和想法。但是,你们知道,有时候灵感来了,时间却不够用了!😩直到我发现了Kimi AI——一个能够自动生成PPT的神奇助手!🌟 什么是Kimi? 一款月之暗面科技有限公司开发的AI办公工具,帮助用户快速生成高质量的演示文稿。 无论你是职场人士、学生还是教师,Kimi都能够为你的办公文

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

【专题】2024飞行汽车技术全景报告合集PDF分享(附原数据表)

原文链接: https://tecdat.cn/?p=37628 6月16日,小鹏汇天旅航者X2在北京大兴国际机场临空经济区完成首飞,这也是小鹏汇天的产品在京津冀地区进行的首次飞行。小鹏汇天方面还表示,公司准备量产,并计划今年四季度开启预售小鹏汇天分体式飞行汽车,探索分体式飞行汽车城际通勤。阅读原文,获取专题报告合集全文,解锁文末271份飞行汽车相关行业研究报告。 据悉,业内人士对飞行汽车行业

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验