Remote Photoplethysmograph Signal Measurement from Facial Videos Using Spatio-Temporal Networks

本文主要是介绍Remote Photoplethysmograph Signal Measurement from Facial Videos Using Spatio-Temporal Networks,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前言

前期方法的缺陷

        早期rPPG研究多数为“提取—分析”的两阶段方法,首先检测或跟踪人脸以提取rPPG信号,然后分析并估计相应的平均HR。缺点:1)基于纯经验知识自定义的面部区域,不一定是最有效的区域,这些区域应该随数据而变化。2)有些方法中使用了手动制作的特征或过滤器,可能使重要的心跳信息丢失。

        前期使用的深度学习方法也可能有一下缺点:1)HR估计任务被视为一个单阶段回归问题,输出一个简单的平均HR,而个体脉冲峰值信息丢失,限制了它们在高要求的医疗应用中的使用。2)该方法不是端到端系统,仍然包含手动制作的特征的预处理或后处理步骤。3)基于二维空间神经网络,没有考虑时间上下文特征,而时间上下文特征是rPPG测量问题的关键。

本文方法简介

        基于当前医疗工程的需求,rPPG技术除了需要提供平均HR,还可以提供更详细的IBI(搏动间隔,inter-beat-interval)等信息。平均HR是指计算一段时间内心脏跳动次数,是一种粗略的计算方法;而HRV是一种更为精细的脉搏描述方法,它通过脉搏跳动间隔得到。HRV最常见的特征包括低频(LF)、高频(HF)及其低频/高频比值,这些特征被广泛应用于许多医疗领域。此外,还可以通过分析心跳间隔的频率来估计呼吸频率(RF)。

 图1.一种基于时空网络的rPPG信号测量框架

        本文利用一个端到端的深度时空网络Physnet,从原始人脸视频中重建精确的rPPG信号。Physnet网络考虑了以前常被忽略的时间背景,探索并比较了多种常用的时空建模方法。实验表明,在真值信号的约束下,我们的方法可以恢复具有准确脉冲峰值的信号。本文使用两个数据集实验,在HR、HRV、AF检测和情感识别上都取得了很好的结果,同时也具有良好的跨数据集泛化能力。

        heart rate variability (HRV) 心率变异性;atrial fibrillation (AF) detection 心房震颤检测

方法

网络架构

        从人脸视频中获得脉搏信号有两个步骤:1.一是将RGB投影到表现能力更强的颜色子空间中。2.对颜色子空间进行重新投影,去除不相关的信息(如照明或运动引起的噪声),以实现目标信号空间。本文提出了一个端到端时空网络(PhysNet),它能够合并这两个步骤,并最终得到了rPPG信号。

 图2.用于rPPG信号恢复的时空网络框架。

a)基于3DCNN的PhysNet;b)基于RNN的PhysNet;c)它们对应的网络架构。

        图2中展示了PhysNet的总体架构。架构的输入是带有RGB通道的T帧面部图像,经过多次卷积和池化操作后,形成多通道流形来表示时空特征。最后,利用1×1 ×1核的通道卷积运算将潜在流形投影到信号空间,生成长度为T的预测rPPG信号。整个程序可以表述为

[y_{1},y_{2},...y_{T}]=g(f([x_{1},x_{2},...,x_{T}];\Theta );\omega )                                          (1)

其中,[x_{1},x_{2},...,x_{T}]是输入帧,[y_{1},y_{2},...y_{T}]是网络的输出信号,f是用于子空间投影的时空模型,\Theta是该模型所有卷积滤波器参数的集合,g为最终信号投影的信道聚合,w为g的参数集合。本文探索和比较两种主流的时空模型,即基于3D-CNN和基于RNN的PhysNet。

基于3DCNN的Physnet

        使用3DCNN作为时空模型f,该模型采用3×3×3卷积同时提取时空域的语义rPPG特征。3DCNN有助于学习更健壮的上下文特征,在更短的时间内恢复rPPG信号。文中还尝试了一种时间编码器-解码器(ED)结构,标记为“PhysNet-3DCNN-ED”,它能更有效的利用时间上下文,减少时间冗余和噪声。

基于RNN的Physnet

        首先利用2DCNN提取空间特征,然后利用基于RNN的模块在时域上传播空间特征,通过前向/后向信息流改进时间上下文特征。LSTM和ConvLSTM可以表示为:

\\i_{t}=\delta (W_{i}^{X}*X_{t}+W_{i}^{H}*H_{t-1}), \\ f_{t}=\delta (W_{f}^{X}*X_{t}+W_{f}^{H}*H_{t-1}), \\ o_{t}=\delta (W_{o}^{X}*X_{t}+W_{o}^{H}*H_{t-1}), \\ c_{t}=f_{t}\circ c_{t-1}+i_{t}\circ tanh(W_{c}^{X}*X_{t}+W_{c}^{H}*H_{t-1}) \\ H_{t}=o_{t}\circ tanh(c_{t})                          (2)

        其中∗表示LSTM和ConvLSTM的乘法和卷积运算符,◦表示Hadamard乘积。

损失函数

        设计适当的损耗函数来引导网络:我们的目标是恢复具有匹配趋势的rPPG信号,并准确估计出与真值信号匹配的脉冲峰值时间位置,这是详细HRV分析必不可少的。为了最大限度地提高趋势相似度,最大限度地减小峰位误差,采用负Pearson相关作为损失函数:

Loss=1-\frac{T\sum_{1}^{T}xy-\sum_{1}^{T}x\sum_{1}^{T}y}{\sqrt{(T\sum_{1}^{T}x^{2}-(\sum_{1}^{T}x)^{2})(T\sum_{1}^{T}y^{2}-(\sum_{1}^{T}y)^{2})}}                            (3)

        式中,T为信号长度,x为预测的rPPG信号,y为地面真值PPG信号。

        在训练时,我们使用PPG信号而不是ECG信号作为真值。这是因为,从手指测量的PPG与从面部测量的rPPG更类似,它们都用于测量血容量的变化,而ECG测量的电活动rPPG并不关心。在测试阶段,可以使用ECG作为真值进行验证。

实验

        我们在OBF数据集上训练PhysNet。经过训练的PhysNet首先在OBF上测试了HR和HRV测量精度,然后演示了AF检测的扩展应用。最后在MAHNOB-HCI数据集上对训练好的PhysNet进行交叉测试,并探讨了该算法在情感识别中的应用。

在OBF上的实验

        分别评估了该方法的损失函数、时空网络和切片长度,并报告了在HR和HRV水平上的性能。同时报告了使用测量的HRV特征作为一个应用场景的AF检测精度。

损失函数

        为了证明我们提出的负皮尔逊损失(NegPea)函数的优点,我们将其与均方误差(MSE)进行了比较。两个实验都采用基于3DCNN的PhysNet,训练视频切片长度固定为64,结果如表1所示。结果表明,NegPea在HV和HRV水平上的表现都优于MSE。

表1. 两个损失函数—负皮尔逊和均方差的性能比较。RMSE越小,R值越大,表示性能越好。

时空网络

        我们固定视频切片长度为64,损失函数为nepea,以此来评估时空网络的有效性。首先,我们用PhysNet-2DCNN作为评估基线。

        分别评估PhysNet64-3DCNN-ED和PhysNet64-3DCNN(不带解码编码器)模型。模型性能:PhysNet64-3DCNN-ED > PhysNet64-3DCNN > PhysNet-2DCNN。可以解释为,这种类似挤压—拉伸式的编码解码过程能够提取出时间冗余较少的语义特征。

        同时还评估了基于RNN的模型:PhysNet64-LSTM、PhysNet64-BiLSTM、PhysNet64-ConvLSTM。结果显示PhysNet64-LSTM比PhysNet64-2DCNN性能更好,但不如3DCNN,这说明LSTM模块能够提高性能,但在长期上下文聚合方面不如3DCNN; LSTM和ConvLSTM的水平相当,而BiLSTM的水平最差,这表明最高层特性的逆向信息似乎没有必要。

表2. 时空网络的性能对比

视频切片长度

        视频长度可能会对每个网络产生不同的影响,这里我们计算T ={32,64,128,256},结果如图3所示。1.输入视频切片长度越长,PhysNet2DCNN性能越好。2.PhysNet-3DCNN较稳定,不太受视频切片长度的影响。3.在视频切片更短的情况下,PhysNet32-3DCNN性能优于PhysNet-2DCNN,这说明时域卷积滤波器可以在学习时域表示方面提供额外的帮助。4.PhysNet-LSTM网络的长时间传播能力有限,因此只比较T ={32,64}的情况,T = 32时性能更好。5.PhysNet-3DCNN在T = 128和T = 64时HR和HRV分别达到最佳性能。

 图3.不同视频切片长度T = 32,64,128,256的性能比较。均方根误差(RMSE)越小,性能越好。

与先前实验比较

        与之前的三种方法ROI_green、CHROM、POS比较。性能最佳的是PhysNet128-3DCNN-ED,它在HR和HRV水平上优于所有比较方法。

表3. 比较以往方法和我们提出的方法的性能

心房震颤检测

        从恢复的rPPG信号中提取10维HRV特征,用于检测AF患者与健康人。如表4所示,结果显示PhysNet比以前的方法有更好的性能。

表 4.OBF心房颤动检测结果

在MAHNOB上的实验

        PhysNet128-3DCNN-ED模型在OBF上的性能最好,我们用它在MAHNOB-HCI上进行交叉测试,以验证其泛化能力。如表5所示,我们使用本方法的HR结果与之前的方法比较(之前的工作只有HR结果,无HRV水平)。

 表5.MAHNOB-HCI平均HR测量结果

        其中,前四种方法[4,10,14,22]是较早的方法,不涉及神经网络。虽然[10]和[22]的性能很好,但需要对每个输入执行代价高昂的计算处理步骤,这对于实时使用是有限制的。本文提出的方法是一种经过预先训练的端到端系统,在新的测试样本上运行非常快。后三种方法都基于神经网络,且都需要预处理步骤,不易于部署。交叉测试表明,本文方法具有较好的泛化能力。

情感识别

        本文方法的另一个优点是,恢复的rPPG信号可以用于更复杂的应用,如情感识别。我们使用PhysNet128-3DCNN-ED在MAHNOB-HCI数据集上恢复的rPPG信号中提取10维HRV特征,并将其输入支持向量机(带有多项式核),作为分类器来估计每个视频中人的情绪状态。MAHNOBHCI提供了几个情绪标签,其中“Arousal”和“Valence”分为3个水平,“Emotions”包含九个类别。如表6所示,结果非常有前景,特别是“Valence”的识别。

表6.在MAHNOB-HCI上的情感识别准确率结果

可视化和推理速度

可视化

        PhysNet 128-3DCNN-ED从两个数据集样本中提取的中级神经特征如图4 (a)和(b)所示。高光区域是该网络能够学习和选择的,具有最强rPPG信息的皮肤区域(例如,前额、脸颊和下颌)。此外,图4 (c)用PhysNet恢复的rPPG信号(红色)与基线方法“ROI_green”(蓝色)和真值ECG(黑色)进行比较。在峰值位置上,红色曲线比蓝色曲线与地面真值的匹配效果更好,证明了该方法的有效性。

图4.原始人脸可视化,学习神经特征,恢复rPPG信号。 

推理速度

        本文方法不需要任何预处理步骤,工作速度更快,并允许实时rPPG信号恢复。对于30秒的测试视频,“PhysNet64-3DCNN-ED”在Tesla P100 GPU上只需要0.235秒(3830 fps),这适合大多数实时应用。

这篇关于Remote Photoplethysmograph Signal Measurement from Facial Videos Using Spatio-Temporal Networks的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/343578

相关文章

Docker远程连接和Docker Remote Api

在Docker生态系统中一共有3种API:Registry API、Docker Hub API、Docker Remote API 这三种API都是RESTful风格的。这里Remote API是通过程序与Docker进行集成和交互的核心内容。 Docker Remote API是由Docker守护进程提供的。默认情况下,Docker守护进程会绑定到一个所在宿主机的套接字:unix:///v

2024年 Biomedical Signal Processing and Control 期刊投稿经验最新分享

期刊介绍 《Biomedical Signal Processing and Control 》期刊旨在为临床医学和生物科学中信号和图像的测量和分析研究提供一个跨学科的国际论坛。重点放在处理在临床诊断,患者监测和管理中使用的方法和设备的实际,应用为主导的研究的贡献。 生物医学信号处理和控制反映了这些方法在工程和临床科学的界面上被使用和发展的主要领域。期刊的范围包括相关的评论论文(review p

A Comprehensive Survey on Graph Neural Networks笔记

一、摘要-Abstract 1、传统的深度学习模型主要处理欧几里得数据(如图像、文本),而图神经网络的出现和发展是为了有效处理和学习非欧几里得域(即图结构数据)的信息。 2、将GNN划分为四类:recurrent GNNs(RecGNN), convolutional GNNs,(GCN), graph autoencoders(GAE), and spatial–temporal GNNs(S

KDD 2024 时空数据(Spatio-temporal) ADS论文总结

2024 KDD( ACM SIGKDD Conference on Knowledge Discovery and Data Mining, 知识发现和数据挖掘会议)在2024年8月25日-29日在西班牙巴塞罗那举行。 本文总结了KDD2024有关时空数据(Spatial-temporal) 的相关论文,如有疏漏,欢迎大家补充。 时空数据Topic:时空(交通)预测, 生成,拥堵预测,定价预

【VSCode v1.93.0】手动配置远程remote-ssh

开发环境 VS Code版本:1.93.0 (Windows) Ubuntu版本:20.04 使用VS Code 插件remote-ssh远程访问Ubuntu服务器中的代码,若Ubuntu无法联网,在连接的时候会报错: Could not establish connection to "xxxx": Failed to download VS Code Server(Failed to

Unity Adressables 使用说明(四)分发远程内容(Distribute Remote Content)

概述 远程分发内容可以减少应用程序的初始下载大小和安装时间。你还可以更新远程分发的资源,而无需重新发布应用程序或游戏。 当你将远程 URL 分配为 Group 的加载路径(Load Path)时,Addressables 系统会从该 URL 加载组中的资源。当你启用Build Remote Catalog选项时,Addressables 会在 Remote Catalog 中查找任何远程资源的

Apache-Flink深度解析-Temporal-Table-JOIN

在《JOIN LATERAL》中提到了Temporal Table JOIN,本篇就向大家详细介绍什么是Temporal Table JOIN。在ANSI-SQL 2011 中提出了Temporal 的概念,Oracle,SQLServer,DB2等大的数据库厂商也先后实现了这个标准。Temporal Table记录了历史上任何时间点所有的数据改动,Temporal Table的工作流程如下:

Complex Networks Package for MatLab

http://www.levmuchnik.net/Content/Networks/ComplexNetworksPackage.html 翻译: 复杂网络的MATLAB工具包提供了一个高效、可扩展的框架,用于在MATLAB上的网络研究。 可以帮助描述经验网络的成千上万的节点,生成人工网络,运行鲁棒性实验,测试网络在不同的攻击下的可靠性,模拟任意复杂的传染病的传

ssh问题:Connection closed by foreign host. Disconnected from remote host

放通一个远程ip能够ssh服务器,但是报错: Connection closed by foreign host.   Disconnected from remote host。。。   解决办法: firewall防火墙放通ip。 /etc/ssh/sshd_config文件修改,运行root用户密码登,再重启sshd服务。 /etc/hosts.allow和/etc/hos

Convolutional Neural Networks for Sentence Classification论文解读

基本信息 作者Yoon Kimdoi发表时间2014期刊EMNLP网址https://doi.org/10.48550/arXiv.1408.5882 研究背景 1. What’s known 既往研究已证实 CV领域著名的CNN。 2. What’s new 创新点 将CNN应用于NLP,打破了传统NLP任务主要依赖循环神经网络(RNN)及其变体的局面。 用预训练的词向量(如word2v