Meta 发布 MMCSG (多模态智能眼镜对话数据集)

本文主要是介绍Meta 发布 MMCSG (多模态智能眼镜对话数据集)，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/

近年来，智能眼镜的热度直线上升，尤其在语音和音频应用领域，比如音乐播放和通讯，它们的优势相较于手机或是固定的智能音箱显而易见。想象一下，戴在头上的这玩意儿不仅装备了多个麦克风、摄像头和其他传感器，还能让你体验到与众不同的便捷。最吸引人的一点可能就是实时字幕功能了，想想未来还可能实现实时跨语言翻译，岂不是美滋滋？

但要实现这一切，得先攻克一系列难题，包括但不限于目标说话人的识别与定位、活动检测、语音识别和声音分离。加入其他信号，比如连续的加速度计和陀螺仪数据，结合音频数据，可能就是解决这些问题的钥匙。

为了支持这方面的研究，人们创建了MMCSG数据集。这个数据集包含了两位参与者之间自发对话的记录，两位参与者都获得了报酬，并同意他们的数据被纳入研究。其中一位参与者佩戴了可以捕捉视频、音频（配备7个麦克风）和惯性测量单元（IMU）数据（包括陀螺仪和加速度计）的智能眼镜。所有对话都经过人工注释，提供了智能眼镜佩戴者的转录、分割和标记。为了保护参与者的隐私，视频中的人脸都进行了模糊处理。

MMCSG数据集的目的是为了研究，使用需遵守我们的数据许可协议。

下载数据集： https://ai.meta.com/datasets/mmcsg-downloads/

下载论文：Task 3 - MMCSG | CHiME Challenges and Workshops

这篇关于Meta 发布 MMCSG (多模态智能眼镜对话数据集)的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！