快手可灵大模型开放视频续写功能,可生成最长约3分钟视频

本文主要是介绍快手可灵大模型开放视频续写功能,可生成最长约3分钟视频,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

6月21日,可灵再度进化,正式推出图生视频功能,支持用任意静态图像生成5s视频,并且可搭配不同的文本内容,实现丰富的视觉叙事 。

同时,可灵还发布了业内领先的视频续写功能,可为已生成的视频(含文生视频及图生视频)提供便捷的一键续写和连续多次续写,将视频最长可延伸至约3分钟,充分显示了可灵强大的想象力与精细的可控性,极大地拓展了视频大模型的创作边界。

化静为动,按需定制视觉叙事

此前,“可灵”在文生视频方面已经展现出了创造逼真运动场景、精确模拟物理特性的强大能力,以及将复杂概念巧妙融合的高超技艺,其输出堪比电影级画质,并允许用户自由调节视频的纵横比。

而这些卓越特性,如今都被完美融入到了图生视频模型。用户只需上传一张图片,“可灵”即能基于对图像的深度解析,变静为动,赋予其5秒的鲜活生命力。

上传经典的蒙娜丽莎,可灵能够让蒙娜丽莎戴上墨镜,并赋予她灵动的眼神交流。让名画中的人物活灵活现。

得益于其基础模型架构中的3D时空联合注意力机制,可灵在构建复杂时空运动方面也展现了卓越能力。这使得模型在转换静态图像为动态视频时,能够细腻而准确地实现大幅度运动场景。

例如,只需上传一张牧羊犬追球的静止照片,模型就能生成一段生动的视频:牧羊犬活灵活现地奔跑追逐网球,其耳朵轻轻晃动,毛发随风飘扬,而网球则在空中弹跳,视频整体自然而流畅。

再以一张汽车飞驰的图片为素材,可灵能创造出身临其境的驾驶场景。在这段视频中,汽车不仅在公路上展现出疾速前行的姿态,而且巧妙地融入了对向车道上连续不断的车流。

同时,道路两旁的树木快速向后掠去,模拟出强烈的行驶速度感,而虚化处理的隔离带进一步增强了视觉上的动态效果与速度印象,整体画面宛如出自精心策划的广告大片。

可灵图生视频模型还融入了强大的提示词融合技术,深化了对图像语义与用户指令的理解整合。这意味着,模型能够根据用户提供的不同文本指令,精妙地变换视频中的动态表现。

举例来说,当使用一张女孩的照片生成视频,模型默认生成的效果可能是轻风中她发丝轻轻飘动,周遭花朵摇曳,水面闪烁着细腻的波纹。而如果用户具体输入“女孩转身背对镜头”,视频便会智能添加女孩优雅转身的动作,并细腻捕捉到转身瞬间的微笑和眨眼,展现了自然而生动的细节处理能力。

再比如用巨龙图片生成视频,输入“正在捕食的巨龙,飞扬的沙子,奇幻风格的电影”,视频便呈现巨龙昂首展翅掀起漫天黄沙,嘴部开合仿佛在咆哮的生动效果与奇幻场景。通过这种文本与图像意义的紧密联动,可灵将按需定制的视觉叙事提升到了一个新高度。

此外,可灵图生视频模型支持不同风格的图像输入,不论是自然写实还是风格化图像都能轻松处理,同时兼容各种长宽比的图像输入,展示出强大的灵活性和适应性。例如这张骑士拿剑的竖版图片,生成视频中骑士黑袍飞舞,亮剑仙气环绕,拉满氛围感。

业内领先,视频续写可生成最长约3分钟视频

可灵大模型还新推出了业内领先的视频续写功能,用户只需一键操作,即可在已生成视频的基础上延续生成约5秒内容,该功能同时适用于文生视频和图生视频。更令人瞩目的是,通过连续多次续写,能够最长生产约3分钟的连贯视频。基于对物理运动的深入理解,视频续写不仅确保新生成部分与原视频间的运动连贯性及物理合理性,还能巧妙融入大幅度的动作变化,提升视频的生动性。

此次升级的一大亮点是集成文本控制机制于视频续写中,这意味着用户能够通过自定义提示词,为每段视频续写注入个性化创意。

得益于此,模型利用高效的提示词融合技术,平滑地在场景间过渡,响应用户的每一个灵感火花。

举例来说,一个关于古堡的视频片段,用户既可以选择让它先“太阳落下去,天空变暗”,继而“太阳升起来,天空变亮”,亦可探索另一路径:“太阳落下去,天空变暗,灯光渐亮”,随后“灯光亮起,雾气氤氲”,以此创造出各具特色的连续视觉叙事,完美贴合用户的多样化需求。

注:视频前5秒为输入视频,后9秒为续写两次后的结果

6月6日,可灵文生视频大模型正式亮相(可灵官网:https://kling.kuaishou.com),不仅在效果上比肩Sora,还即时在快影App上启动了邀测体验,截至目前,已有累计超过14万人排队申请。

此次进化,可灵文生视频基础大模型的强大能力被无缝整合到图生视频和视频续写功能中,将为用户带来更为丰富、灵活的视频创作体验。

恰逢近日CVPR2024在美国举行,在这一国际顶级计算机视觉和模式识别领域学术盛会上,快手也同步发布了可灵大模型的图生视频和视频续写等最新功能,引起现场的强烈反响。公开资料显示,今年快手共有8篇论文入选CVPR2024,彰显了其在该领域的深厚研究功底。

据「TMT星球」了解,快手还将在下月召开的2024世界人工智能大会(WAIC)上,举办以“新AI·新应用·新生态”为主题的大模型技术生态论坛。届时,快手将发布最新的大模型技术与应用战略,包括快手大模型技术矩阵全景、基座模型技术创新、应用和落地情况等。

这篇关于快手可灵大模型开放视频续写功能,可生成最长约3分钟视频的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1086331

相关文章

Java中Springboot集成Kafka实现消息发送和接收功能

《Java中Springboot集成Kafka实现消息发送和接收功能》Kafka是一个高吞吐量的分布式发布-订阅消息系统,主要用于处理大规模数据流,它由生产者、消费者、主题、分区和代理等组件构成,Ka... 目录一、Kafka 简介二、Kafka 功能三、POM依赖四、配置文件五、生产者六、消费者一、Kaf

MybatisGenerator文件生成不出对应文件的问题

《MybatisGenerator文件生成不出对应文件的问题》本文介绍了使用MybatisGenerator生成文件时遇到的问题及解决方法,主要步骤包括检查目标表是否存在、是否能连接到数据库、配置生成... 目录MyBATisGenerator 文件生成不出对应文件先在项目结构里引入“targetProje

Golang的CSP模型简介(最新推荐)

《Golang的CSP模型简介(最新推荐)》Golang采用了CSP(CommunicatingSequentialProcesses,通信顺序进程)并发模型,通过goroutine和channe... 目录前言一、介绍1. 什么是 CSP 模型2. Goroutine3. Channel4. Channe

Go语言实现将中文转化为拼音功能

《Go语言实现将中文转化为拼音功能》这篇文章主要为大家详细介绍了Go语言中如何实现将中文转化为拼音功能,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 有这么一个需求:新用户入职 创建一系列账号比较麻烦,打算通过接口传入姓名进行初始化。想把姓名转化成拼音。因为有些账号即需要中文也需要英

Python使用qrcode库实现生成二维码的操作指南

《Python使用qrcode库实现生成二维码的操作指南》二维码是一种广泛使用的二维条码,因其高效的数据存储能力和易于扫描的特点,广泛应用于支付、身份验证、营销推广等领域,Pythonqrcode库是... 目录一、安装 python qrcode 库二、基本使用方法1. 生成简单二维码2. 生成带 Log

基于WinForm+Halcon实现图像缩放与交互功能

《基于WinForm+Halcon实现图像缩放与交互功能》本文主要讲述在WinForm中结合Halcon实现图像缩放、平移及实时显示灰度值等交互功能,包括初始化窗口的不同方式,以及通过特定事件添加相应... 目录前言初始化窗口添加图像缩放功能添加图像平移功能添加实时显示灰度值功能示例代码总结最后前言本文将

Python视频处理库VidGear使用小结

《Python视频处理库VidGear使用小结》VidGear是一个高性能的Python视频处理库,本文主要介绍了Python视频处理库VidGear使用小结,文中通过示例代码介绍的非常详细,对大家的... 目录一、VidGear的安装二、VidGear的主要功能三、VidGear的使用示例四、VidGea

使用Python实现批量访问URL并解析XML响应功能

《使用Python实现批量访问URL并解析XML响应功能》在现代Web开发和数据抓取中,批量访问URL并解析响应内容是一个常见的需求,本文将详细介绍如何使用Python实现批量访问URL并解析XML响... 目录引言1. 背景与需求2. 工具方法实现2.1 单URL访问与解析代码实现代码说明2.2 示例调用

Python使用Pandas库将Excel数据叠加生成新DataFrame的操作指南

《Python使用Pandas库将Excel数据叠加生成新DataFrame的操作指南》在日常数据处理工作中,我们经常需要将不同Excel文档中的数据整合到一个新的DataFrame中,以便进行进一步... 目录一、准备工作二、读取Excel文件三、数据叠加四、处理重复数据(可选)五、保存新DataFram

SpringBoot生成和操作PDF的代码详解

《SpringBoot生成和操作PDF的代码详解》本文主要介绍了在SpringBoot项目下,通过代码和操作步骤,详细的介绍了如何操作PDF,希望可以帮助到准备通过JAVA操作PDF的你,项目框架用的... 目录本文简介PDF文件简介代码实现PDF操作基于PDF模板生成,并下载完全基于代码生成,并保存合并P