本文主要是介绍EV-Eye,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
这里介绍了首个基于事件相机的大规模多模态眼动跟踪数据集,旨在激发对高频眼动/注视跟踪的研究。本文利用新兴的生物启发事件相机捕捉眼球运动引起的独立像素级强度变化,实现了亚微秒级的延迟。研究表明,与现有解决方案相比,本文方法在瞳孔和注视估计任务上都达到了更高的精度。实现亚微秒级的延迟!通过事件相机重新思考高频眼动追踪
这是大佬发表的一篇论文,论文题目:EV-Eye: Rethinking High-frequency Eye Tracking through the Lenses of Event Cameras。文章介绍了首个基于事件相机的大规模多模态眼动跟踪数据集,旨在激发对高频眼动/注视跟踪的研究。
本文利用新兴的生物启发事件相机捕捉眼球运动引起的独立像素级强度变化,实现了亚微秒级的延迟。数据集是在两周的时间内从 48 位不同性别年龄的参与者中收集的。该数据集由两台 DAVIS346 事件相机生成的 150 多万张近眼灰度图像和 27 亿个事件样本组成。此外,该数据集还包含由 Tobii Pro Glasses 3 眼睛跟踪器捕获的 67.5 万张场景图像和 270 万个注视参考,用于跨模态验证。与现有的基于事件的高频眼动跟踪数据集相比,我们的数据集在规模上要大得多,而且注视参考涉及更多自然的眼动模式。除了事件数据,我们还提出了一种混合眼球跟踪方法作为基准,该方法同时利用近眼灰度图像和事件数据进行稳健的高频眼球跟踪。研究表明,与现有解决方案相比,本文方法在瞳孔和注视估计任务上都达到了更高的精度。
项目地址:https://github.com/Ningreka/EV-Eye
数据集下载: https://1drv.ms/f/s!Ar4TcaawWPssqmu-0vJ45vYR3OHw
眼动跟踪是一种连续测量眼球运动的技术(l),在科学领域和日常应用中显示出巨大的前景。目前主流的传统眼动跟踪系统利用传统的 CCD/CMOS 摄像头捕捉眼睛的外观进行计算。然而,受限于 CCD/CMOS 摄像头的帧频和有限的带宽,传统眼球跟踪系统的更新频率通常被限制在几百赫兹,它阻碍了需要超过千赫兹跟踪频率的应用的实现,如精神疾病的诊断,VR注视点渲染和基于眼球追踪的用户认证。人眼在眼跳状态下的角速度峰值可达 700°/s,眼球加速度高达 24,000°/s。要实现超过千赫兹频率的精确眼动追踪,需要大幅提高摄像头带宽,这成为基于 CCD/CMOS 摄像头的主流系统的一个基本障碍。一些昂贵的眼动仪(价格超过数万美元),如 EyeLink 1000,可以利用高速摄像头提供一千赫兹的眼动跟踪频率。然而,高帧率给下游任务的处理带来了相当大的计算负担,因此不适合用于 VR 头显等设备。
这一挑战激发了人们使用新兴的生物启发动态视觉传感器(也称为事件相机)来进行眼动跟踪。传统相机以固定帧率获取信息,而事件相机则通过捕捉独立的像素级光强变化来感知场景,并产生异步事件流来指示光强变化的位置和极性。由于其异步性和数据存储方式,事件相机可以实现亚微秒级的延迟。此外,事件相机还具有自适应功能:目标运动越快,每秒产生的事件就越多,反之亦然。在近眼拍摄场景中,眼睛运动引起的光强变化在时间和空间上都很稀疏。因此,与传统相机相比,事件相机可以根据眼球运动的速度来调整事件的密度,并更有效地利用相机带宽。这些特性使事件相机成为高频眼动跟踪的理想选择。
本文介绍了领域中最大、最多样化的高频眼球跟踪多模态帧-事件数据集(总容量超过 170Gb)。我们提出了一种新颖的混合帧-事件眼球跟踪基准测试方法,该方法专为所收集的数据集量身定制,能够以高达 38.4kHz 的频率跟踪瞳孔。通过对数据集的评估,本文方法在瞳孔和注视估计方面都大大优于现有的解决方案。
EV-Eye 数据集
事件相机基本原理:
与传统的 RGB 摄像机不同,事件摄像机不是以固定速率产生同步视频帧,而是产生异步事件流。具体来说,事件摄像机的像素独立工作,检测场景光强的变化,如:
图1. (a) 数据集采集设定(b) 采集样本示意,近眼灰度图像与 40 毫秒的事件重叠展示.
数据模态:
如图 1(a)所示,本文提出的EV-Eye 采用了三种不同的传感模式,包括由两组 DAVIS346 事件相机捕捉到的近眼灰度图像和事件流,以及由Tobii Pro Glasses 3提供的注视参考。
事件流:事件流由两组分辨率为 346×240 的 DAVIS346 事件摄像机收集。它们包括由眼球运动、眨眼和其他细微动作引起的强度变化所触发的事件。这种设置可提供高时间分辨率,实现高频眼动跟踪。
灰度图像: DAVIS346 摄像机还能以 25fps 的帧频记录近眼灰度图像序列。这些图像提供了丰富的眼部语义信息,有助于在图像域中对瞳孔进行准确的分割,是对事件流的补充。
注视参考: 由于在眼球运动过程中获取注视点(PoG)的真实标签并不可行,本文采用了一种商业化设备 Tobii Pro Glasses 3 来获取注视参考。它能以 100Hz 的频率提供用户的注视点和瞳孔直径。Tobii 眼镜式眼动仪的视场角(FoV)为 95∘×63∘,注视估计任务可以达到 0.6 的角度误差。
数据注释:文章利用 VGG 图像注释器,在整个图像数据集中统一选取 9,011 张近眼图像,对瞳孔区域进行注释。通常,瞳孔区域被视为一个椭圆。因此,我们通过调整代表瞳孔区域椭圆的主轴、次轴和倾斜度以及椭圆中心来标注该区域。然后根据椭圆区域生成二值化掩码 G' 作为真实标签。
EV-Eye 数据集
我们招募了 48 名参与者(28 名男性和 20 名女性)年龄在21岁至35岁。数据集包括从两台 DAVIS346 摄像机和一台 Tobi Pro Glasses 3眼动仪收集的多模态数据。两台 DAVIS346 相机生成了 150 万张近眼灰度图像和超过 27 亿个事件。图 1(b)显示了九个受试者的近眼灰度图像样本。
图 2(a) 展示了本文的数据集中所提供的注视参考的分布情况。从图中可以看出,数据集中的 PoGs 在二维空间中分布密集,偏航范围约为 95°,俯仰方向约为 63°。然而,如图 2(b) 所示,其他现有基于事件相机的数据集只提供了非常稀疏的注视参考。其中红点是固定状态下刺激物出现的位置,平方波浪线是平滑追逐过程中刺激物的轨迹,其假设人的注视可以跟随刺激物的指引,但实际情况往往并非如此。通过比较两个数据集,我们的数据集提供的注视参考明显更密集,并且涉及所有状态,即凝视fixation, 随机扫视saccade和平滑追逐smooth pursuit。因此,Tobii Glasses 眼动仪可以提供更丰富的时间信息,从而有助于研究注视估计和眼动动态信息。
图2. (a)本文所采集的数据集注视点分布(b) 其他现有的基于事件相机的数据集注视点分布
基准方法
本文提出的基准测试方法,可同时利用近眼灰度图像和事件相机生成的事件流来实现精确的高频眼球跟踪。方法的概览如图3所示。
图3 EV-Eye 基准方法概述
基于帧的瞳孔分割
本文采用 U-Net 进行瞳孔分割, 该模型已被证明达到了最先进的准确度, 并被许多基于深度学习的眼球追踪研究工作所采用。瞳孔分割组件输出二值化掩膜以提取曈孔区域。得到二值化掩膜M后,采用形态学闭口运算来去除分割瞳孔区域中的额外噪声。然后,将分割后的掩膜中心点视为瞳孔中心点c,并使用边缘检测器找到瞳孔边界。
基于事件的高频瞳孔跟踪
图4 选定候选点子集的示例(a)位于两个同心圆之间的事件点构成候选点子集。(b)点-边缘匹配的示例,候选点子集引导瞳孔更新示意图,蓝色箭头代表瞳孔的移动方向。
点到边匹配方法:本文提出了一种点到边匹配方法,根据累积的候选点集 来更新瞳孔模板中心。
注视点估计
实验
在本节中,我们将采用两种基准方法来评估 EV-Eye 数据集:本文提出的方法和基于模型的方法即EVBEYE方法。数据集评估采用了四个指标:1.Intersection over union(IoU) 是广泛用于瞳孔区域分割的指标,相当于估计瞳孔区域和真实瞳孔区域的重叠度。2.骰子系数(F1 Score) 是眼球分割任务中另一个常用的指标。用于衡量估计瞳孔区域与真实瞳孔区域之间的相似度。3.眼球跟踪的像素误差(Pixel error, PE) 是眼球跟踪的定位精度,用估计值与地面实况之间的像素欧氏距离来表示。4.注视跟踪中的方向误差(Difference of direction, DoD),注视跟踪中的方向误差(DoD)是估计注视方向与参考注视方向之间的差值,用于显示注视跟踪的性能。
基于帧的瞳孔分割评估
本文的方法和现有的EVBEYE方法都包含基于帧的瞳孔分割部分。不同的是,我们采用的是基于 DL 的方法而不是基于模型的方法。我们使用 9011 张人工标注的图像进行独立于用户的评估:在每一轮测试中,我们选择来自1个人的图像进行测试,其余 47 个对象的图像用于训练。报告了两种不同方法(即基于 DL 的方法和基于模型的方法)的每个被试对象的 loU、Fl score 和 PE。
图 5:基于帧的瞳孔分割的 IoUs(a)和 F1 score(b)
IoU 和 F1 分数。图 5(a)和图 5(b)分别显示了两种方法得到的不同研究对象的 loU 和 Fl 分数。与基于模型的方法相比,本文提出的基于 DL 的方法在所有研究对象上都获得了明显更高的 loU 和 Fl 分数,基于 DL 的方法和基于模型的方法的平均 IoU 值分别为 0.9187 和 0.8360,而这两种方法的平均 F1 分数分别为 0.9560 和 0.9075。在瞳孔分割任务中,基于 DL 的方法的 loU 和 F1 分数平均比基于模型的方法高 8.27% 和 4.85%。
基于帧的瞳孔分割像素误差(Pixel error, PE)。两种方法的 PE 值见图 6。在所有受试者中,本文基于 DL 的方法的 PE 值都明显低于基于模型的方法。基于 DL 的方法和基于模型的方法的平均 PE 值分别为 0.64px 和 1.3px。因此,基于 DL 的方法在基于帧的瞳孔分割方面比基于模型的方法显著提高了 50.7%。
图 6 基于帧的瞳孔追踪的像素误差。
基于事件的瞳孔跟踪评估
比较和评估我们基于模板匹配的方法和现有的EVBEYE方法提出的基于模型的方法在基于事件的瞳孔跟踪方面的准确性。 whaosoft aiot http://143ai.com
图 7 基于事件的瞳孔追踪的像素误差。
基于事件的瞳孔追踪的像素误差(PE)。我们将 9011 幅已标注的图像作为参考,来评估基于事件的瞳孔追踪的准确性。具体来说,两种方法都是先获取标注图像前最后一张灰度图像的瞳孔区域。然后,基于事件的瞳孔追踪模块对两幅图像之间的事件进行追踪。将基于事件的模块获得的最后一张瞳孔中心与标注灰度图像的真实标签进行比较,以获得跟踪精度。图 7 显示了两种方法对每个受试者的预测结果。与基于模型的方法相比,我们基于匹配的方法在所有受试者中的 PE 值都明显较低。所有受试者的平均 PE 降低了约 6.5 倍,即从 7.7px 降至 1.2px。
瞳孔追踪频率评估
(a) CDF (b) PDF
总结
在本文中,我们介绍了用于高频眼动跟踪的最多样化和最大的基于事件的多模态数据集 EV-Eye,该数据集是从使用不同设备的 48 名受试者中收集的。来自两个 DAVIS346 的帧和事件能够以极高的时间分辨率描述眼球运动,而一个商业化的眼球跟踪器可以为跨模态比较提供密集分布的注视参考。然后,文章提出了一种新颖的帧-事件混合眼动跟踪方法,以挖掘多模态数据集的潜力,实现高达 38.4Hz 的跟踪频率。在 EV-Eve 上进行的广泛评估表明,与最先进的帧-事件混合眼球跟踪方法相比,我们的方法在多样化数据集上实现了更高的准确性和更好的鲁棒性。
这篇关于EV-Eye的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!