AI自动生成国风视频海外引关注,百度文心大模型助力AIGC智能创作

本文主要是介绍AI自动生成国风视频海外引关注,百度文心大模型助力AIGC智能创作,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

“风吹仙袂飘飖举,犹似霓裳羽衣舞。”去年河南卫视的春晚舞蹈《唐宫夜宴》和央视虎年春晚舞蹈《只此青绿》都爆火出圈,令无数人梦回大唐。近日,在美国波士顿举办的科技峰会 EmTech Digital 上,也有一支中国风视频受到与会者的瞩目,纷纷感叹中国传统文化的巨大魅力。

更受关注的是,这支名为“虎年春晚上的中国文化”的两分钟技术演示视频,是依托大模型技术由 AI 自动生成的,背后的技术来自百度研究院的智能视频合成平台 VidPress。为了更好地体现“国风”,由 VidPress 自动化制作的视频不但画面生动丰富,还使用中国传统乐器古筝作为背景音乐,并配以自动语音合成的解说进行生动解读。

在 EmTech Digital 科技峰会上,作为现场唯一受邀的中国科技公司,百度美国研发中心副总经理李幸在演讲中详细解读了 VidPress 背后的技术。由百度研究院孵化的 VidPress 是业界首个支撑通用型、大规模生产的智能视频合成平台,用户仅需一键输入新闻图文内容链接,就可以自动化完成视频制作,整套制作流程在数分钟内即可全部完成。

VidPress 原理揭秘

五大步骤实现图文自动转视频

VidPress 的工作原理和剪辑师制作视频的步骤类似:先准备文字脚本,然后收集媒体素材,再将素材处理成视频片段,将脚本配音和视频进行对齐,最后进行编辑和检查。通过 AI 技术,VidPress 可以实现文字分析和摘要、视频内容搜索、素材智能化处理、音视频对齐,以及智能剪辑等5个步骤的自动化。

用户输入图文内容后,例如输入某条新闻事件的链接,平台将利用多个自然语言处理模型对文字内容进行分析。通过文字摘要模型,平台可以自动生成一篇字数符合要求且适合视频呈现的解说词,并通过百度文字转音频服务(TTS)合成解说词语音;通过语义理解模型,平台识别故事中的关键信息,包括主题、段落主旨、核心人物或者机构等。

随后,平台会根据对原文的理解,通过自有视频库和精准搜索能力,智能化聚合最新最适合呈现的内容,以及从同一主题相关新闻里抽取更多的素材及其语义表征,充分保障素材内容的丰富度和相关性。对于收集到的视频素材,平台基于图像识别、视频内容理解等计算机视觉技术进一步解析和理解,自动剪切和精选视频素材。

音视频对齐剪辑是关键的一步。最直接的处理方式是将故事中的每一句话作为一个搜索目标,寻找对应的视频片段并拼接起来,但用户真正关注的是故事中的关键点,技术上称为兴趣锚点(anchor point)。通过 VidPress 特有的时间轴对齐算法,选取出文本中的兴趣锚点,再将媒体片段与兴趣锚点进行相关度打分,将优质媒体片段优先放入时间轴,并结合适当的素材搭配组织,以此保证视频的整体观感和用户兴趣的持续激发。当时间轴生成完毕之后,数据转交给渲染器,从而生成一个完成的视频。

文心大模型助力 VidPress

打开 AIGC 智能创作想象空间

VidPress 使用了大量自然语言处理技术对图文内容进行分析,而这些技术离不开百度文心大模型的支持。

去年12月,百度与鹏城实验室联合发布双方共同研发的全球首个知识增强千亿大模型——鹏城-百度·文心(模型版本号:ERNIE 3.0 Titan),模型参数规模达到2600亿,是目前全球最大中文单体模型,致力于解决传统 AI 模型泛化性差、强依赖于昂贵的人工标注数据、落地成本高等应用难题,降低 AI 开发与应用门槛。

鹏城-百度·文心在机器阅读理解、文本分类、语义相似度计算等60多项任务中取得最好效果,并大幅刷新小样本学习任务基准。VidPress 平台的文本摘要和语义分析模型都是基于文心大模型训练的结果。

此外,VidPress 还使用了文心跨模态大模型 ERNIE-ViL。借助飞桨深度学习平台分布式训练领先优势,百度 ERNIE-ViL 首次将场景图(Scene Graph)知识融入多模态预训练,曾在5项多模态任务上刷新世界最好效果。文心跨模态大模型可以对媒体片段与兴趣点进行相关度打分,寻找最契合故事的媒体片段。

在视频素材检索和内容质量提升上,源自百度积累多年的视觉技术,VidPress 以智感超清为基础进行画质提升,以多模态预训练大模型为主实现语义理解。秉持领先且实用的理念,百度视觉技术近年来已获得40余项世界冠军,相关专利位列中国申请量及质量第一,获得行业、政府及国家认可10余次,视觉公有云能力连续多次在 IDC/Forrester 等评选中位居市场第一。

来自 EmTech Digital 科技峰会的主办方麻省理工科技评论的高级 AI 编辑 Will Heaven 评价说“人工智能正变得越来越多模态,语言人工智能和视觉人工智能正在以一种非常酷的方式结合在一起。百度的视频生成系统 VidPress 充分融合了人工智能最具代表性的各个模型,是跨模态 AI 的代表应用。”

目前,AIGC(人工智能内容生产)正成为越来越重要的新型内容生产方式。VidPress 图文转视频作为其中的重要组成部分,未来会更大规模、更好地服务用户,这不仅会提升效率,也会打开更多内容创作的想象空间。

这篇关于AI自动生成国风视频海外引关注,百度文心大模型助力AIGC智能创作的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/293757

相关文章

Java编译生成多个.class文件的原理和作用

《Java编译生成多个.class文件的原理和作用》作为一名经验丰富的开发者,在Java项目中执行编译后,可能会发现一个.java源文件有时会产生多个.class文件,从技术实现层面详细剖析这一现象... 目录一、内部类机制与.class文件生成成员内部类(常规内部类)局部内部类(方法内部类)匿名内部类二、

使用Jackson进行JSON生成与解析的新手指南

《使用Jackson进行JSON生成与解析的新手指南》这篇文章主要为大家详细介绍了如何使用Jackson进行JSON生成与解析处理,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1. 核心依赖2. 基础用法2.1 对象转 jsON(序列化)2.2 JSON 转对象(反序列化)3.

用js控制视频播放进度基本示例代码

《用js控制视频播放进度基本示例代码》写前端的时候,很多的时候是需要支持要网页视频播放的功能,下面这篇文章主要给大家介绍了关于用js控制视频播放进度的相关资料,文中通过代码介绍的非常详细,需要的朋友可... 目录前言html部分:JavaScript部分:注意:总结前言在javascript中控制视频播放

Python基于wxPython和FFmpeg开发一个视频标签工具

《Python基于wxPython和FFmpeg开发一个视频标签工具》在当今数字媒体时代,视频内容的管理和标记变得越来越重要,无论是研究人员需要对实验视频进行时间点标记,还是个人用户希望对家庭视频进行... 目录引言1. 应用概述2. 技术栈分析2.1 核心库和模块2.2 wxpython作为GUI选择的优

java中使用POI生成Excel并导出过程

《java中使用POI生成Excel并导出过程》:本文主要介绍java中使用POI生成Excel并导出过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录需求说明及实现方式需求完成通用代码版本1版本2结果展示type参数为atype参数为b总结注:本文章中代码均为

Java的IO模型、Netty原理解析

《Java的IO模型、Netty原理解析》Java的I/O是以流的方式进行数据输入输出的,Java的类库涉及很多领域的IO内容:标准的输入输出,文件的操作、网络上的数据传输流、字符串流、对象流等,这篇... 目录1.什么是IO2.同步与异步、阻塞与非阻塞3.三种IO模型BIO(blocking I/O)NI

SpringBoot中封装Cors自动配置方式

《SpringBoot中封装Cors自动配置方式》:本文主要介绍SpringBoot中封装Cors自动配置方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录SpringBoot封装Cors自动配置背景实现步骤1. 创建 GlobalCorsProperties

在java中如何将inputStream对象转换为File对象(不生成本地文件)

《在java中如何将inputStream对象转换为File对象(不生成本地文件)》:本文主要介绍在java中如何将inputStream对象转换为File对象(不生成本地文件),具有很好的参考价... 目录需求说明问题解决总结需求说明在后端中通过POI生成Excel文件流,将输出流(outputStre

idea中创建新类时自动添加注释的实现

《idea中创建新类时自动添加注释的实现》在每次使用idea创建一个新类时,过了一段时间发现看不懂这个类是用来干嘛的,为了解决这个问题,我们可以设置在创建一个新类时自动添加注释,帮助我们理解这个类的用... 目录前言:详细操作:步骤一:点击上方的 文件(File),点击&nbmyHIgsp;设置(Setti

基于Flask框架添加多个AI模型的API并进行交互

《基于Flask框架添加多个AI模型的API并进行交互》:本文主要介绍如何基于Flask框架开发AI模型API管理系统,允许用户添加、删除不同AI模型的API密钥,感兴趣的可以了解下... 目录1. 概述2. 后端代码说明2.1 依赖库导入2.2 应用初始化2.3 API 存储字典2.4 路由函数2.5 应