Talk | 约翰霍普金斯大学博士生魏晨: De-Diffusion-文本是不同模态的沟通桥梁

本文主要是介绍Talk | 约翰霍普金斯大学博士生魏晨: De-Diffusion-文本是不同模态的沟通桥梁，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

本期为TechBeat人工智能社区第557期线上Talk。

北京时间12月20日(周三)20:00，约翰霍普金斯大学博士生—魏晨的Talk已准时在TechBeat人工智能社区开播！

她与大家分享的主题是: “De-Diffusion-文本是不同模态的沟通桥梁题”，介绍了她的团队在如何通过文本(text) 构建一种强大的跨模态沟通桥梁 (cross-modal interface)上所做的研究。

Talk·信息

▼

主题：De-Diffusion-文本是不同模的沟通桥梁

嘉宾：约翰霍普金斯大学博士生魏晨

时间：北京时间 12月20日(周三)20:00

地点：TechBeat人工智能社区

点击下方链接，即可观看视频！

TechBeatTechBeat是荟聚全球华人AI精英的成长社区，每周上新来自顶尖大厂、明星创业公司、国际顶级高校相关专业在读博士的最新研究工作。我们希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。https://www.techbeat.net/talk-info?id=836

Talk·介绍

▼

我们探讨了如何通过文本(text) 构建一种强大的跨模态沟通桥梁 (cross-modal interface)。

长期以来，人们只使用deep embeddings来连接来自不同的模态模型，如图像模型和语言模型。我们提出，如果将图像表示为文本（text)而不是deep embeddings，那么我们不仅将享受到自然语言固有的可解释性，还能构建起另一种跨模态沟通桥梁。在经典的自动编码器 (autoencoder) 结构中，我们使用一个预训练好的文生图扩散模型 (text-to-image diffusion model) 作为解码器 (decoder)，从而得到输入图像的文字表征。这个文字表征全面地描述了输入图像的语义信息，从而将图像与其他模态的大模型模块化地连接起来。比如，通过与语言大模型PaLM2的有机连接，在没有任何微调和训练的情况下，我们利用一个ViT-L级别的视觉模型（600M）得到了比有着80B参数的Flamingo模型更好的小样本开放VQA能力。

Talk大纲

1、从牛油果扶手椅 (avocado armchair) 一窥图像生成式模型的泛化能力；

2、逆转文生图模型 -- 图生文的新方法；

3、文字作为不同模态的沟通桥梁：一种常被忽视的我们人类的“超”能力；

4、文字作为不同模态的沟通桥梁：用文字连接不同的文生图模型 -- 自动化的prompt engineering；

5、文字作为不同模态的沟通桥梁：用文字连接图像与语言大模型 -- 模块化设计同时带来更好的训练灵活度与更好的VQA能力

Talk·预习资料

▼

论文链接：

https://arxiv.org/abs/2311.00618

代码链接：

https://dediffusion.github.io/

Talk·提问交流

▼

在Talk界面下的【交流区】参与互动！留下你的打call🤟和问题🙋，和更多小伙伴们共同讨论，被讲者直接翻牌解答！

你的每一次贡献，我们都会给予你相应的i豆积分，还会有惊喜奖励哦！

Talk·嘉宾介绍

▼

魏晨

约翰霍普金斯大学博士生

约翰霍普金斯大学计算机系在读博士生，师从Alan Yuille教授。本科毕业于北京大学计算机科学专业。研究方向为计算机视觉的自监督学习、表征学习与生成式模型。工作发表于CVPR, ICCV, ECCV, ICLR, ICML等计算机视觉与机器学习顶级会议。曾获EECS Rising Star 2023。

个人主页:

https://www.techbeat.net/grzytrkj?id=36456

关于TechBeat人工智能社区

▼

TechBeat(www.techbeat.net)隶属于将门创投，是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验，加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地，分享自己最新工作的沃土，在AI进阶之路上的升级打怪的根据地！

更多详细介绍>>TechBeat，一个荟聚全球华人AI精英的学习成长社区

这篇关于Talk | 约翰霍普金斯大学博士生魏晨: De-Diffusion-文本是不同模态的沟通桥梁的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！