Stable Diffusion——Animate Diff一键AI图像转视频

2024-03-06 06:20

本文主要是介绍Stable Diffusion——Animate Diff一键AI图像转视频,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前言

AnimateDiff 是一个实用框架,可以对文本生成图像模型进行动画处理,无需进行特定模型调整,即可为大多数现有的个性化文本转图像模型提供动画化能力。而Animatediff 已更新至 2.0 版本和3.0两个版本,相较于 1.0 版本,2.0和3.0版本主要新增了三个插件功能:Lora、ControlNet 和 Prompt travel。Lora,官方新增了 8 个运动模型,使我们能够自由控制动画画面的走向。Prompt travel,可以在提示词中指定第几帧以及指定何种动作或画面,可以通过提示词实现动态控制动画。
在这里插入图片描述
感兴趣可加入:566929147 企鹅群一起学习讨论

算法简介

AnimateDiff 提出了一种创新的方法来解决个性化 Text to Video 的挑战。其核心原理是将一个新初始化的运动建模模块附加到冻结的基于文本到图像的模型上,并在接下来的视频剪辑中对其进行训练,以提炼出合理的运动先验知识。一旦训练完成,通过简单地注入这个运动建模模块,所有从相同基础模型派生的个性化版本都可以立即成为以文本驱动的模型,从而能够生成多样化和个性化的动画图像。

这一方法的创新之处在于它摆脱了传统方法中对于敏感超参数调整、大量个性化视频数据集收集以及密集的计算资源的依赖,使得普通用户也能够参与到个性化 Text to Video 的工作中。通过将运动建模模块与基础模型结合,AnimateDiff 实现了一种更加简洁高效的个性化动画生成方式,为用户提供了更多选择和可能性。
在这里插入图片描述
通过实验证明,运动先验可以推广到 3D 动画片和 2D 动漫等领域,这意味着 AnimateDiff 能够为个性化动画提供一个简单而有效的基线。用户只需承担个性化图像模型的成本,就能够快速获得自然的个性化动画。以下是官方提供的一些优秀作品效果:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
这些作品展示了 AnimateDiff 的强大功能和广泛适用性,为用户提供了一个简便而有效的个性化动画生成方案。

Stable Diffusion Webui安装

插件从网址安装:https://github.com/continue-revolution/sd-webui-animatediff ,击安装即可,等待安装完毕,重启一下SD UI界面。
在这里插入图片描述
然后从:https://huggingface.co/guoyww/animatediff/tree/main 里下载专用的运动模型和Lora模型。下载之后需要放置在对应的位置。
运动模型放在stable-diffusion-webui\extensions\sd-webui-animatediff\model里面,运动lora放在stable-diffusion-webui\models\Lora里面。
在这里插入图片描述
根据 Lora 的命名可以大概看出它们的功能:

  1. 向上运动(Up)
  2. 向下运动(Down)
  3. 向左运动(Left)
  4. 向右运动(Right)
  5. 拉远运动(Zoom Out)
  6. 拉近运动(Zoom In)
  7. 顺时针旋转(Clockwise)
  8. 逆时针旋转(Counter Clockwise)

这些 Lora 可以通过添加对应的 Lora 来控制生成的动画在空间中的运动方向和旋转方向。
在这里插入图片描述
在 animatediff 插件页面的配置参数中:

  • 动画模型:选择最新的 V2 版本。
  • 总帧数:指定动画总共包含的画面数量。
  • 帧率:指定每秒的帧数。例如,如果总帧数设置为 16,帧率设置为 8,则单个动画的播放时长为 2 秒。
  • 显示循环数量:指定动画循环播放的次数,0 代表一直重复播放。
  • 闭环:勾选此选项,使得动画的第一帧和最后一帧形成循环。
  • 上下文单批数:与总帧数保持一致即可。
  • 保存:选择输出动画的格式,可以多选。

插件使用

实现一个最基础的动画

1girl,night city,rain,coat,hands in pockets,best quality,masterpiece,HDR,UHD,8K,Highly detailed,simple background,
Negative prompt: (worst quality:1.6),(low quality:1.6),EasyNegative,
Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 601405023, Size: 512x512, Model hash: 876b4c7ba5, Model: cetusMix_Whalefall2, VAE hash: 63aeecb90f, VAE: vae-ft-mse-840000-ema-pruned.safetensors, Clip skip: 2, Version: v1.6.0

在这里插入图片描述

使用Lora
对于添加一个镜头往左移动的 Lora “lora:v2_lora_PanLeft:0.8”,它的使用方式与普通的 Lora 是一样的。可以看到画面往左移动的幅度相当大。通过调整 Lora 的权重,可以实现不同幅度的移动。权重越高,移动的幅度越大。

在这个例子中,权重为 0.8,表示移动的幅度较大。如果希望移动的幅度更小,可以降低权重;如果希望移动的幅度更大,可以增加权重。这样就可以根据具体需求调整镜头移动的幅度。

1girl,night city,rain,coat,hands in pockets,best quality,masterpiece,HDR,UHD,8K,Highly detailed,simple background,lora:v2_lora_PanLeft:0.8,
Negative prompt: (worst quality:1.6),(low quality:1.6),EasyNegative,
Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 601405027, Size: 512x512, Model hash: 876b4c7ba5, Model: cetusMix_Whalefall2, VAE hash: 63aeecb90f, VAE: vae-ft-mse-840000-ema-pruned.safetensors, Clip skip: 2, Lora hashes: “v2_lora_PanLeft: ed79025f8bea”, TI hashes: “EasyNegative: c74b4e810b03”, Version: v1.6.0

在这里插入图片描述

Prompt travel

“Prompt travel” 是一个需要安装 ControlNet 的功能。它允许用户在描述人物或场景的提示词中指定不同帧数对应的动作或画面。举例来说,如果总帧数只有 8 帧,那么在提示词中最大只能写到 7,因为索引从 0 开始,0 对应第一帧,7 对应第八帧,依此类推。如果不遵循这个规则,可能会导致错误。

提示词的格式应该为:在指定帧数后面加上冒号和空格,然后描述对应的动作或画面。例如:“0: 人物行走”,表示在第一帧人物行走。

如果发现功能没有生效,可能是由于插件之间发生了冲突。可以尝试禁用除 animatediff 和 ControlNet 之外的其他插件,然后逐个重新启用,查看是否恢复了功能。

1girl,best quality,masterpiece,realistic,close-up,simple background,
0: smile
2: open eyes
3: (closed eyes:1.2)
5: open eyes

在这里插入图片描述

这篇关于Stable Diffusion——Animate Diff一键AI图像转视频的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/779094

相关文章

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

流媒体平台/视频监控/安防视频汇聚EasyCVR播放暂停后视频画面黑屏是什么原因?

视频智能分析/视频监控/安防监控综合管理系统EasyCVR视频汇聚融合平台,是TSINGSEE青犀视频垂直深耕音视频流媒体技术、AI智能技术领域的杰出成果。该平台以其强大的视频处理、汇聚与融合能力,在构建全栈视频监控系统中展现出了独特的优势。视频监控管理系统EasyCVR平台内置了强大的视频解码、转码、压缩等技术,能够处理多种视频流格式,并以多种格式(RTMP、RTSP、HTTP-FLV、WebS

AI绘图怎么变现?想做点副业的小白必看!

在科技飞速发展的今天,AI绘图作为一种新兴技术,不仅改变了艺术创作的方式,也为创作者提供了多种变现途径。本文将详细探讨几种常见的AI绘图变现方式,帮助创作者更好地利用这一技术实现经济收益。 更多实操教程和AI绘画工具,可以扫描下方,免费获取 定制服务:个性化的创意商机 个性化定制 AI绘图技术能够根据用户需求生成个性化的头像、壁纸、插画等作品。例如,姓氏头像在电商平台上非常受欢迎,

基于人工智能的图像分类系统

目录 引言项目背景环境准备 硬件要求软件安装与配置系统设计 系统架构关键技术代码示例 数据预处理模型训练模型预测应用场景结论 1. 引言 图像分类是计算机视觉中的一个重要任务,目标是自动识别图像中的对象类别。通过卷积神经网络(CNN)等深度学习技术,我们可以构建高效的图像分类系统,广泛应用于自动驾驶、医疗影像诊断、监控分析等领域。本文将介绍如何构建一个基于人工智能的图像分类系统,包括环境

从去中心化到智能化:Web3如何与AI共同塑造数字生态

在数字时代的演进中,Web3和人工智能(AI)正成为塑造未来互联网的两大核心力量。Web3的去中心化理念与AI的智能化技术,正相互交织,共同推动数字生态的变革。本文将探讨Web3与AI的融合如何改变数字世界,并展望这一新兴组合如何重塑我们的在线体验。 Web3的去中心化愿景 Web3代表了互联网的第三代发展,它基于去中心化的区块链技术,旨在创建一个开放、透明且用户主导的数字生态。不同于传统

AI一键生成 PPT

AI一键生成 PPT 操作步骤 作为一名打工人,是不是经常需要制作各种PPT来分享我的生活和想法。但是,你们知道,有时候灵感来了,时间却不够用了!😩直到我发现了Kimi AI——一个能够自动生成PPT的神奇助手!🌟 什么是Kimi? 一款月之暗面科技有限公司开发的AI办公工具,帮助用户快速生成高质量的演示文稿。 无论你是职场人士、学生还是教师,Kimi都能够为你的办公文

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

AI行业应用(不定期更新)

ChatPDF 可以让你上传一个 PDF 文件,然后针对这个 PDF 进行小结和提问。你可以把各种各样你要研究的分析报告交给它,快速获取到想要知道的信息。https://www.chatpdf.com/