追赶OpenAI的Sora:Meta开源V-JEPA,让AI学会认识世界!

2024-02-19 15:44

本文主要是介绍追赶OpenAI的Sora:Meta开源V-JEPA,让AI学会认识世界!,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

就在Sora疯狂刷屏那天,还有两款重磅产品发布:一个是谷歌的Gemini 1.5,首个支持100万tokens上下文的大模型;另外一个便是全球科技、社交巨头Meta的V-JEPA。

有趣的是,在功能方面V-JEPA与Sora有很多相似之处,例如,都具备让AI学会如何通过自我监督学习认识、模拟世界,以提升生成视频的质量、表示学习方法和扩大视频训练数据范围。

可惜那天全世界的目光都聚焦在Sora身上,让图灵奖获得者,Meta首席科学家Yann LeCun s气的直跺脚,在社交平台上各种酸Sora的成果。

开源地址:https://github.com/facebookresearch/jepa

论文地址:https://ai.meta.com/research/publications/revisiting-feature-prediction-for-learning-visual-representations-from-video/

图片

不过放眼全球,在开源领域有能力追赶OpenAI的Sora不超过5家公司。而Meta作为曾经成功复制ChatGPT的大模型开源鼻祖,相信他有能力再一次创造奇迹。

下面,「AIGC开放社区」将根据其公开的论文,为大家介绍一下这款“悄悄”发布的最新开源模型。

V-JEPA介绍

我们人类对世界的许多认知,特别是在生命的早期阶段都是通过视觉观察、总结获取的。

以牛顿的运动第三定律为例:即使是婴儿(或动物)在多次将物体从桌子上推下并观察结果之后,也能知道凡是上升的必将下降。你无需花费几个小时甚至阅读上千本书,就能总结出这个道理。

同理,Meta希望AI模型也能像人类那样,通过观察以及自我思考、总结,来获取对世界新事物的认识,最终学习并模拟他们

所以,Meta基于Yann LeCun s提出的JEPA(联合嵌入预测架构)模型开发了非生成视频模型V-JEPA。

这是一种从视频中学习表示的自我监督方法,可以应用于各种视频、图像任务,而无需调整模型参数

在图像分类、动作分类和时空动作检测任务的冻结评估中,V-JEPA超越了之前的视频表示学习方法。

图片

V-JEPA核心技术思路是,通过Transformer架构对视频序列进行编码,利用遮蔽自编码框架学习视频的关键特征表示。

再通过基于查询的特征池化模块提取与任务相关的重要特征,最终通过联合嵌入预测架构进行特征预测任务,以学习视频中不同时间步骤之间的语义关系。

因此,V-JEPA能够在无监督的情况下从大量未标记的视频数据中,学习到有用的特征表示,为生成高质量视频提供强大的预测、分析能力

图片

也就是说,即便你使用了没有标签的低质量视频训练数据集,通过V-JEPA模型也能轻松获取视频中的关键表示特征,这对于扩大视频训练数据范围帮助巨大。

V-JEPA主要功能模块

遮蔽自编码:V-JEPA中的核心模块之一,主要用于学习视频中的特征表示。当输入视频序列中的某些帧被随机遮蔽或删除后,模型需要通过观察其余的帧来预测被遮蔽的帧。

因此,模型被迫学习从上下文中推断出缺失信息的能力。遮蔽自编码可以促使模型学习到视频中的关键特征,并且通过预测遮蔽帧,模型还可以学习到不同时间步之间的依赖关系。

图片

Transformer架构:在V-JEPA中,Transformer被用于建模视频序列中的时空关系。可以对输入序列中的每个时间步进行编码,并捕捉不同时间步之间的依赖关系。

Transformer的编码器由多个注意力头组成,每个头都可以学习不同的特征表示。所以,V-JEPA能够有效地建模视频中的时序信息,并将其用于特征预测任务。

JEPA:主要帮助V-JEPA模型,通过预测视频序列中不同时间步之间的特征嵌入,来学习视频中的特征表示。

模型将输入视频序列的不同时间步的特征进行编码,并通过自注意力机制捕捉它们之间的依赖关系。

然后,模型通过最小化预测特征嵌入,与实际特征嵌入之间的差异来进行训练。通过这种方式,使V-JEPA可以学习到视频中不同时间步之间的语义关系,并将其用于特征预测任务。

图片

基于查询的特征池化:主要用于从视频序列中提取关键特征。在这个模块中,模型使用自注意力机制来选择视频序列中最相关的帧作为查询,并从这些帧中提取特征。

基于查询的特征池化使得V-JEPA能够提取丰富的、与任务相关的特征,并为后续的特征预测任务提供强大的特征表示。

V-JEPA的实验数据和未来应用场景

为了评估V-JEPA的性能,使用了冻结和端到端微调两种评估方法,并在多个图像和视频任务上进行了性能测试。

低样本量冻结评估:在Kinetics-400和Something-Something-v2数据集上,通过变化用于训练注意力探针的标签样本百分比,比较V-JEPA与其他视频模型在冻结评估中的表现。

使用训练集的5%、10%或50%,并在每种设置下取三个随机分割以获得更稳健的指标,为每个模型进行九次不同的评估实验。

图片

结果显示,V-JEPA在Kinetics-400任务上达到81.9%的准确率,在Something-Something-v2任务上达到72.2%,在ImageNet1K任务上达到77.9%,明显优于其他模型。

此外,V-JEPA模型还显示出在标记样本数量减少时更具优势,与像素重构模型相比性能更好。

V-JEPA模型中的“V”代表的是Video的意思,也就是说现阶段主要用于视频领域

但Meta表示,下一步,将会把V-JEPA与音频相结合使用,并且可以充当早期的物理世界模拟器使用。

本文素材来源Meta官网,如有侵权请联系删除

END

这篇关于追赶OpenAI的Sora:Meta开源V-JEPA,让AI学会认识世界!的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/725130

相关文章

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

Java架构师知识体认识

源码分析 常用设计模式 Proxy代理模式Factory工厂模式Singleton单例模式Delegate委派模式Strategy策略模式Prototype原型模式Template模板模式 Spring5 beans 接口实例化代理Bean操作 Context Ioc容器设计原理及高级特性Aop设计原理Factorybean与Beanfactory Transaction 声明式事物

AI绘图怎么变现?想做点副业的小白必看!

在科技飞速发展的今天,AI绘图作为一种新兴技术,不仅改变了艺术创作的方式,也为创作者提供了多种变现途径。本文将详细探讨几种常见的AI绘图变现方式,帮助创作者更好地利用这一技术实现经济收益。 更多实操教程和AI绘画工具,可以扫描下方,免费获取 定制服务:个性化的创意商机 个性化定制 AI绘图技术能够根据用户需求生成个性化的头像、壁纸、插画等作品。例如,姓氏头像在电商平台上非常受欢迎,

从去中心化到智能化:Web3如何与AI共同塑造数字生态

在数字时代的演进中,Web3和人工智能(AI)正成为塑造未来互联网的两大核心力量。Web3的去中心化理念与AI的智能化技术,正相互交织,共同推动数字生态的变革。本文将探讨Web3与AI的融合如何改变数字世界,并展望这一新兴组合如何重塑我们的在线体验。 Web3的去中心化愿景 Web3代表了互联网的第三代发展,它基于去中心化的区块链技术,旨在创建一个开放、透明且用户主导的数字生态。不同于传统

每天认识几个maven依赖(ActiveMQ+activemq-jaxb+activesoap+activespace+adarwin)

八、ActiveMQ 1、是什么? ActiveMQ 是一个开源的消息中间件(Message Broker),由 Apache 软件基金会开发和维护。它实现了 Java 消息服务(Java Message Service, JMS)规范,并支持多种消息传递协议,包括 AMQP、MQTT 和 OpenWire 等。 2、有什么用? 可靠性:ActiveMQ 提供了消息持久性和事务支持,确保消

认识、理解、分类——acm之搜索

普通搜索方法有两种:1、广度优先搜索;2、深度优先搜索; 更多搜索方法: 3、双向广度优先搜索; 4、启发式搜索(包括A*算法等); 搜索通常会用到的知识点:状态压缩(位压缩,利用hash思想压缩)。

AI一键生成 PPT

AI一键生成 PPT 操作步骤 作为一名打工人,是不是经常需要制作各种PPT来分享我的生活和想法。但是,你们知道,有时候灵感来了,时间却不够用了!😩直到我发现了Kimi AI——一个能够自动生成PPT的神奇助手!🌟 什么是Kimi? 一款月之暗面科技有限公司开发的AI办公工具,帮助用户快速生成高质量的演示文稿。 无论你是职场人士、学生还是教师,Kimi都能够为你的办公文

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

揭秘世界上那些同时横跨两大洲的国家

我们在《世界人口过亿的一级行政区分布》盘点全球是那些人口过亿的一级行政区。 现在我们介绍五个横跨两州的国家,并整理七大洲和这些国家的KML矢量数据分析分享给大家,如果你需要这些数据,请在文末查看领取方式。 世界上横跨两大洲的国家 地球被分为七个大洲分别是亚洲、欧洲、北美洲、南美洲、非洲、大洋洲和南极洲。 七大洲示意图 其中,南极洲是无人居住的大陆,而其他六个大洲则孕育了众多国家和

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推