DreamPose: Fashion Image-to-Video Synthesis via Stable Diffusion

本文主要是介绍DreamPose: Fashion Image-to-Video Synthesis via Stable Diffusion，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

appearence控制：Split CLIP-VAE Encoder，之前的方法将图片条件和noised latents结合到一起作为输入，但是这种方法是为了spatial的align，所以本文采取了另一种办法，也就是结合使用CLIP和VAE，最初和VAE embedding相关的权重设置为0，最后得到的embedding $c_I = A(c_{CLIP},c_{VAE})$ ，其中 $A$ 代表adapter；
pose控制：采用五个连续pose帧 $c_p=\{p_{i - 2},p_{i - 1},p_i,p_{i + 1},p_{i + 2}\}$ ，这些和noised latents concat到一起作为输入，输入修改了以接收额外的10个通道，初始化参数为0；
训练：根据上面的描述初始化模型参数之后，分为两个阶段进行训练，第一个阶段在完整数据集上面进行训练，第二个阶段在特定主题数据上进行微调；
Pose and Image Classifier-Free Guidance： $\epsilon_\theta(z_t,c_i,c_p) = \epsilon_\theta(z_t,\empty,\empty) + s_I(\epsilon_\theta(z_t,c_I,\empty)-\epsilon_\theta(z_t,\empty,\empty)) + s_p(\epsilon_\theta(z_t,c_I,c_p)-\epsilon_\theta(z_t,c_I,\empty))$ ， $s_I$ 保证和输入图片的appearence相符， $s_p$ 保证和pose的align；