本文主要是介绍【Ryerson情感说话/歌唱视听数据集(RAVDESS) 】,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
一、数据集介绍
该数据集共包含 7356个文件,其中包括24名专业演员(12男,12女),以中性的北美口音说出两个词法匹配的陈述,情绪包括平静、快乐、悲伤、恐惧、愤怒、惊讶、厌恶,每个表情都是在两个层次的情绪强度下产生的,并且带有中性表情。
所有条件均以三种形式提供:纯音频(16 位,48kHz .wav)、音频-视频(720p H.264、AAC 48kHz、.mp4)和纯视频(无声音)。请注意,没有用于Actor_18的歌曲文件。
文件命名:
每个 7356 RAVDESS 文件都有一个唯一的文件名。文件名由 7 部分的数字标识符组成
(例如,02-01-06-01-02-01-12.mp4)。这些标识符定义激励特征:
文件名标识符
- 模态(01 = 全 AV,02 = 纯视频,03 = 纯音频)。
- 声道(01 = 语音,02 = 歌曲)。
- 情绪(01 =中性,02 =平静,03 =快乐,04 =悲伤,05 =愤怒,06 =恐惧,07 =厌恶,08 =惊讶)。
- 情绪强度(01 =正常,02 =强烈)。注意:“中性”情绪没有强烈的强度。
- 语句(01 = “孩子们在门边说话”,02 = “狗坐在门边”)。
- 重复(01 = 第一次重复,02 = 第二次重复)。
- 演员(01至24。奇数演员是男性,偶数演员是女性)。
数据集下载链接:
瑞尔森情感言语和歌曲视听数据库(RAVDESS)|泽诺多 (zenodo.org)
这篇关于【Ryerson情感说话/歌唱视听数据集(RAVDESS) 】的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!