以对象为中心的视频编辑;SDXL高质量缩小版;Transformer在FPGA上实现12.8倍速度提升;深入研究ViT固有问题

本文主要是介绍以对象为中心的视频编辑;SDXL高质量缩小版;Transformer在FPGA上实现12.8倍速度提升;深入研究ViT固有问题,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本文首发于公众号:机器感知

以对象为中心的视频编辑;SDXL高质量缩小版;Transformer在FPGA上实现12.8倍速度提升;深入研究ViT固有问题

VASE: Object-Centric Appearance and Shape Manipulation of Real Videos

图片

现有方法通过文生图模型来做视频编辑任务,然而这些方法大多使用文本编辑整个视频帧,其只专注于提高帧之间的时间一致性。本文引入了一个以对象为中心的框架,旨在控制对象的外观,特别是执行精确和明确的结构修改。此方法以预训练的图像条件扩散模型为基础,集成了处理时间维度的层,并给出了实现外观控制的训练策略和架构修改。该方法在图像驱动的视频编辑任务上具有与SOTA方案相似的性能,并展示了新颖的外观编辑功能。

FED-NeRF: Achieve High 3D Consistency and Temporal Coherence for Face Video Editing on Dynamic NeRF

图片

GAN-NeRF使得面部编辑能够保持3D视图一致性,但在编辑视频序列时同时实现多视图一致性和时间连贯性仍然是一个巨大的挑战。本文提出了一种基于动态面部GAN-NeRF结构的全新面部视频编辑架构,该架构利用视频序列来恢复潜码和3D面部几何形状。由于面部几何形状的估计是在逐帧基础上进行的,这可能会引入抖动问题,由此作者提出了一种稳定器来保持面部表情的平滑变化,进而维持时间连贯性。与现有的2D或3D方法相比,该方法作为开创性的4D面部视频编辑器达到了SOTA水平。

Progressive Knowledge Distillation Of Stable Diffusion XL Using Layer Level Loss

图片

本文介绍了两种Stable Diffusion XL(SDXL)缩小的变体,Segmind Stable Diffusion(SSD-1B)和Segmind-Vega,分别通过渐进式移除具有1.3B和0.74B参数的UNets实现,并在减少模型大小的同时并保持生成质量。该方法涉及消除U-Net结构中的残差网络和transformer块,从而显著减少参数和延迟。小模型通过知识迁移模拟原始SDXL,取得了与数十亿参数的SDXL相当的结果。

A Cost-Efficient FPGA Implementation of Tiny Transformer Model using Neural ODE

图片

Transformer取得了优于CNN和RNN的准确率,但许多Transformer模型需要大量的参数,增加了计算复杂性。为此,本文提出了一种基于Neural ODE的混合模型,相比基于ResNet的模型,参数大小减少了94.6%,且准确率没有下降。在FPGA设备上部署该模型后,通过QAT量化方案进一步减少FPGA资源占用,实现了超轻量级的Transformer模型。此外,该模型还通过在FPGA上存储网络的权重来最小化内存传输开销,实现了更快的推理速度。最终,该FPGA实现相对于ARM Cortex-A53 CPU实现了12.8倍的速度提升和9.21倍的能效提升。

Diffusion Variational Inference: Diffusion Models as Expressive Variational Posteriors

图片

本文提出了一种名为“denoising diffusion variational inference (DDVI)”的近似推断算法,该算法依赖于扩散模型作为变分后验,并通过引入辅助潜在变量来增强变分后验。该方法易于实现,适合于黑盒变分推断,并且优于基于归一化流或对抗网络的替代类近似后验。当应用于深度潜在变量模型时,该方法变成了去噪扩散VAE(DD-VAE)算法,该算法应用在生物学Thousand Genomes数据集上时超过了强大的基线。

Diffbody: Diffusion-based Pose and Shape Editing of Human Images

图片

当前的人体姿态和体型编辑方法存在数据集偏差和身份失真问题,本文提出了一种能够进行高强度编辑且保留身份的方法。该方法首先将输入图像投影到3D模型上,然后改变身体姿态和体型。由于初始的纹理化身体模型存在遮挡和体型不准确的问题,本文提出了一种迭代细化方法,首先对整个身体进行弱噪声处理,然后对脸部进行弱噪声处理。此外,还通过自监督学习对text embeddings进行微调,以增强真实感。

Denoising Vision Transformers

图片

本文针对Vision Transformers(ViTs)中存在的固有问题进行了深入研究:这些模型的特征图展现出网格状伪影,对下游任务中的ViTs性能造成不利影响。研究发现,这一根本问题源自输入阶段的postional embeddings。为了解决这一问题,作者提出了一种新型噪声模型,该模型可广泛应用于所有ViTs。具体来说,噪声模型将ViT输出分解为三个部分:一个不受噪声伪影影响的语义项和两个依赖于像素位置的伪影相关项,这种分解通过在每个图像的基础上强制实施交叉视图的特征一致性来实现。该方法称为Denoising Vision Transformers(DVT),不需要重新训练现有的预训练ViTs,并且可立即应用于任何基于Transformer的架构。作者在各种代表性ViTs(DINO、MAE、DeiT-III、EVA02、CLIP、DINOv2、DINOv2-reg)上评估了该方法,实验表明,DVT在语义和几何任务中的多个数据集上取得了一致且显著地效果提升。

这篇关于以对象为中心的视频编辑;SDXL高质量缩小版;Transformer在FPGA上实现12.8倍速度提升;深入研究ViT固有问题的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/585151

相关文章

Java实现检查多个时间段是否有重合

《Java实现检查多个时间段是否有重合》这篇文章主要为大家详细介绍了如何使用Java实现检查多个时间段是否有重合,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录流程概述步骤详解China编程步骤1:定义时间段类步骤2:添加时间段步骤3:检查时间段是否有重合步骤4:输出结果示例代码结语作

使用C++实现链表元素的反转

《使用C++实现链表元素的反转》反转链表是链表操作中一个经典的问题,也是面试中常见的考题,本文将从思路到实现一步步地讲解如何实现链表的反转,帮助初学者理解这一操作,我们将使用C++代码演示具体实现,同... 目录问题定义思路分析代码实现带头节点的链表代码讲解其他实现方式时间和空间复杂度分析总结问题定义给定

Java覆盖第三方jar包中的某一个类的实现方法

《Java覆盖第三方jar包中的某一个类的实现方法》在我们日常的开发中,经常需要使用第三方的jar包,有时候我们会发现第三方的jar包中的某一个类有问题,或者我们需要定制化修改其中的逻辑,那么应该如何... 目录一、需求描述二、示例描述三、操作步骤四、验证结果五、实现原理一、需求描述需求描述如下:需要在

如何使用Java实现请求deepseek

《如何使用Java实现请求deepseek》这篇文章主要为大家详细介绍了如何使用Java实现请求deepseek功能,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1.deepseek的api创建2.Java实现请求deepseek2.1 pom文件2.2 json转化文件2.2

mybatis和mybatis-plus设置值为null不起作用问题及解决

《mybatis和mybatis-plus设置值为null不起作用问题及解决》Mybatis-Plus的FieldStrategy主要用于控制新增、更新和查询时对空值的处理策略,通过配置不同的策略类型... 目录MyBATis-plusFieldStrategy作用FieldStrategy类型每种策略的作

python使用fastapi实现多语言国际化的操作指南

《python使用fastapi实现多语言国际化的操作指南》本文介绍了使用Python和FastAPI实现多语言国际化的操作指南,包括多语言架构技术栈、翻译管理、前端本地化、语言切换机制以及常见陷阱和... 目录多语言国际化实现指南项目多语言架构技术栈目录结构翻译工作流1. 翻译数据存储2. 翻译生成脚本

linux下多个硬盘划分到同一挂载点问题

《linux下多个硬盘划分到同一挂载点问题》在Linux系统中,将多个硬盘划分到同一挂载点需要通过逻辑卷管理(LVM)来实现,首先,需要将物理存储设备(如硬盘分区)创建为物理卷,然后,将这些物理卷组成... 目录linux下多个硬盘划分到同一挂载点需要明确的几个概念硬盘插上默认的是非lvm总结Linux下多

如何通过Python实现一个消息队列

《如何通过Python实现一个消息队列》这篇文章主要为大家详细介绍了如何通过Python实现一个简单的消息队列,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录如何通过 python 实现消息队列如何把 http 请求放在队列中执行1. 使用 queue.Queue 和 reque

Python如何实现PDF隐私信息检测

《Python如何实现PDF隐私信息检测》随着越来越多的个人信息以电子形式存储和传输,确保这些信息的安全至关重要,本文将介绍如何使用Python检测PDF文件中的隐私信息,需要的可以参考下... 目录项目背景技术栈代码解析功能说明运行结php果在当今,数据隐私保护变得尤为重要。随着越来越多的个人信息以电子形

使用 sql-research-assistant进行 SQL 数据库研究的实战指南(代码实现演示)

《使用sql-research-assistant进行SQL数据库研究的实战指南(代码实现演示)》本文介绍了sql-research-assistant工具,该工具基于LangChain框架,集... 目录技术背景介绍核心原理解析代码实现演示安装和配置项目集成LangSmith 配置(可选)启动服务应用场景