Talk | 华为谢恩泽: PixArt-α, 基于Transformer的高质量文本到图像生成扩散模型的快速训练

本文主要是介绍Talk | 华为谢恩泽: PixArt-α, 基于Transformer的高质量文本到图像生成扩散模型的快速训练,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本期为TechBeat人工智能社区552线上Talk。

北京时间11月30(周四)20:00,华为诺亚方舟实验室·AI研究员谢恩泽的Talk将准时在TechBeat人工智能社区开播!

他与大家分享的主题是: PixArt-Alpha, 基于Transformer的高质量文本到图像生成的扩散模型的快速训练,介绍了他们团队在基于Transformer的T2I扩散模型PIXART-α的一系列研究成果。

Talk·信息

主题:PixArt-α, 基于Transformer的高质量文本到图像生成扩散模型的快速训练

嘉宾:华为诺亚方舟实验室AI研究员‍‍ 谢恩泽

时间:北京时间 11月30日(周四)20:00

地点:TechBeat人工智能社区

点击下方链接,即可观看视频!

TechBeatTechBeat是荟聚全球华人AI精英的成长社区,每周上新来自顶尖大厂、明星创业公司、国际顶级高校相关专业在读博士的最新研究工作。我们希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。icon-default.png?t=N7T8https://www.techbeat.net/talk-info?id=830

Talk·介绍

最先进的文本到图像(T2I)模型需要大量的训练成本(例如数百万个 GPU 小时),严重阻碍了 AIGC 社区的根本创新,同时增加了二氧化碳排放。本文介绍了PIXART-α,一种基于Transformer的T2I扩散模型,其图像生成质量可与最先进的图像生成器(例如Imagen、SDXL甚至Midjourney)竞争,达到接近商业应用的标准。我们希望 PIXART-α 能为 AIGC 社区和初创公司提供新的见解,以加速从头开始构建自己的高质量且低成本的生成模型。

Talk大纲

1、背景: Diffusion Model和文生图的发展。

2、动机与问题: 现有的文生图模型训练成本非常高,如何高效训练文生图模型。

3、解决方案: 介绍PixArt-Alpha训练流程,实验结果等。

4、总结, 讨论FAQ。

Talk·预习资料

项目链接:

https://pixart-alpha.github.io/ 

Demo链接:

https://huggingface.co/spaces/PixArt-alpha/PixArt-alpha 

代码链接:

https://github.com/PixArt-alpha/PixArt-alpha

​​​​​​​

Talk·提问交流

在Talk界面下的【交流区】参与互动!留下你的打call🤟和问题🙋,和更多小伙伴们共同讨论,被讲者直接翻牌解答!

你的每一次贡献,我们都会给予你相应的i豆积分,还会有惊喜奖励哦!

Talk·嘉宾介绍

图片

谢恩泽

华为诺亚方舟实验室·AI研究员

谢恩泽,现华为诺亚方舟实验室(香港) AI Theory Lab的研究员,2022年毕业于香港大学MMLab,导师为罗平教授和王文平教授。目前研究方向主要是: (1)AIGC, e.g. Diffusion model for 2D/3D/video generation; (2)大语言模型(LLM), e.g. LLM长链条推理、AI4Math定理证明。

担任TPAMI, IJCV, CVPR, NeurIPS等多个国际会议/期刊审稿人。发表过20+篇顶级会议/期刊论文,如TPAMI, CVPR, ICCV, ICML, ICLR, NeurIPS, ACL等。其中8篇第一作者。其谷歌学术引用超过9000次,其中2篇论文单篇引用超过1500次。有4篇论文入选CVPR2020, ICCV2021, NeurIPS2021, ECCV2022的十大最具影响力论文。代表作SegFormer在英伟达GTC大会上介绍,被英伟达官方评价为一项富有远见的研究,研究成果广泛应用于国内外各大公司产品中(自动驾驶,医疗AI等)。

曾获2022年英伟达奖学金Finalist Award(全球15人),世界人工智能大会WAIC2023优秀论文奖(全球10篇)。

个人主页: 

TecBeat


关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区

这篇关于Talk | 华为谢恩泽: PixArt-α, 基于Transformer的高质量文本到图像生成扩散模型的快速训练的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/709794

相关文章

定价129元!支持双频 Wi-Fi 5的华为AX1路由器发布

《定价129元!支持双频Wi-Fi5的华为AX1路由器发布》华为上周推出了其最新的入门级Wi-Fi5路由器——华为路由AX1,建议零售价129元,这款路由器配置如何?详细请看下文介... 华为 Wi-Fi 5 路由 AX1 已正式开售,新品支持双频 1200 兆、配有四个千兆网口、提供可视化智能诊断功能,建

使用Python快速实现链接转word文档

《使用Python快速实现链接转word文档》这篇文章主要为大家详细介绍了如何使用Python快速实现链接转word文档功能,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 演示代码展示from newspaper import Articlefrom docx import

0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型的操作流程

《0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeekR1模型的操作流程》DeepSeekR1模型凭借其强大的自然语言处理能力,在未来具有广阔的应用前景,有望在多个领域发... 目录0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型,3步搞定一个应

Deepseek R1模型本地化部署+API接口调用详细教程(释放AI生产力)

《DeepseekR1模型本地化部署+API接口调用详细教程(释放AI生产力)》本文介绍了本地部署DeepSeekR1模型和通过API调用将其集成到VSCode中的过程,作者详细步骤展示了如何下载和... 目录前言一、deepseek R1模型与chatGPT o1系列模型对比二、本地部署步骤1.安装oll

浅析如何使用Swagger生成带权限控制的API文档

《浅析如何使用Swagger生成带权限控制的API文档》当涉及到权限控制时,如何生成既安全又详细的API文档就成了一个关键问题,所以这篇文章小编就来和大家好好聊聊如何用Swagger来生成带有... 目录准备工作配置 Swagger权限控制给 API 加上权限注解查看文档注意事项在咱们的开发工作里,API

Spring AI Alibaba接入大模型时的依赖问题小结

《SpringAIAlibaba接入大模型时的依赖问题小结》文章介绍了如何在pom.xml文件中配置SpringAIAlibaba依赖,并提供了一个示例pom.xml文件,同时,建议将Maven仓... 目录(一)pom.XML文件:(二)application.yml配置文件(一)pom.xml文件:首

如何在本地部署 DeepSeek Janus Pro 文生图大模型

《如何在本地部署DeepSeekJanusPro文生图大模型》DeepSeekJanusPro模型在本地成功部署,支持图片理解和文生图功能,通过Gradio界面进行交互,展示了其强大的多模态处... 目录什么是 Janus Pro1. 安装 conda2. 创建 python 虚拟环境3. 克隆 janus

Java使用POI-TL和JFreeChart动态生成Word报告

《Java使用POI-TL和JFreeChart动态生成Word报告》本文介绍了使用POI-TL和JFreeChart生成包含动态数据和图表的Word报告的方法,并分享了实际开发中的踩坑经验,通过代码... 目录前言一、需求背景二、方案分析三、 POI-TL + JFreeChart 实现3.1 Maven

本地私有化部署DeepSeek模型的详细教程

《本地私有化部署DeepSeek模型的详细教程》DeepSeek模型是一种强大的语言模型,本地私有化部署可以让用户在自己的环境中安全、高效地使用该模型,避免数据传输到外部带来的安全风险,同时也能根据自... 目录一、引言二、环境准备(一)硬件要求(二)软件要求(三)创建虚拟环境三、安装依赖库四、获取 Dee

C#使用DeepSeek API实现自然语言处理,文本分类和情感分析

《C#使用DeepSeekAPI实现自然语言处理,文本分类和情感分析》在C#中使用DeepSeekAPI可以实现多种功能,例如自然语言处理、文本分类、情感分析等,本文主要为大家介绍了具体实现步骤,... 目录准备工作文本生成文本分类问答系统代码生成翻译功能文本摘要文本校对图像描述生成总结在C#中使用Deep