基于社会化大数据的音乐文化研究进展

本文主要是介绍基于社会化大数据的音乐文化研究进展，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

基于社会化大数据的音乐文化研究进展

耿屿，韩筱璞，吕琳媛

杭州师范大学阿里巴巴复杂科学研究中心，浙江杭州 311121

电子科技大学基础与前沿研究院，四川成都 611731

摘要：随着互联网的普及和技术的发展，一系列在线音乐社区和社交网站陆续出现，为音乐研究提供了大量的社会化数据。结合新兴的大数据分析方法和人工智能手段，研究者在音乐文化研究方面取得了一系列进展，在音乐文化感知、音乐文化社会学、音乐文化传播学等方面建立了大量新的认知，体现了大数据方法在音乐文化研究方面的广泛适用性。阐述了基于社会化大数据的音乐文化研究的进展，并总结了这一领域研究面临的问题与挑战。

关键词：音乐文化 ; 社会化大数据 ; 音乐文化感知 ; 音乐文化社会学 ; 音乐文化传播学

1 引言

音乐作为一种典型的普遍文化特征，在人们的日常生活中扮演着不可替代的角色。音乐不仅为听众提供了最直接的快乐享受，而且在构建和塑造社会结构方面也发挥着重要作用：人们可以用音乐来调节情绪、保持注意力、激发和维系日常社交、进行运动和舞蹈活动等。此外，音乐在人类群体文化的进化中也扮演了重要角色，包括保存人类知识、促进仪式活动和集体行为的出现以及提升人类群体的凝聚力。音乐贯穿了人类历史，与世界上大多数人的日常生活密切相关。

音乐具有多维性，可以从多个角度进行研究。其中，一个研究角度是关注音乐自身的特征，如旋律和韵律模式以及这些特征对个人音乐欣赏的影响。另一个角度则是强调音乐的文化和社会学意义。对个人音乐偏好的研究可以看作连接这两个角度的桥梁，受到了研究者的广泛关注。在研究方法上，这些研究常常通过各种心理测试、问卷调查等传统的心理学和社会学方法获取一手研究数据。然而，这些传统方法所能处理的问题有限，并受到较强的制约。例如，由于数据获取的成本较高，研究通常局限于小样本量，因此难以充分代表整体的情况。此外，这些研究大多只考虑了针对个体层面规律的挖掘，而鲜有针对社会化场景中群体层面规律的研究。

随着数字时代的到来，数字音乐迅速发展，大规模在线社交网络也随之崛起。大量用户在音乐社区收听、互动和传播过程中产生了海量的可供研究的社会化音乐数据集。这些在线数据集为音乐研究提供了便利。各类大数据方法和人工智能手段被广泛应用于基于音乐的社交媒体的数据挖掘和分析中。这些方法与传统的心理学、社会学等研究手段结合，极大地推动了音乐文化研究的发展。本文将从音乐文化感知、音乐文化社会学以及音乐文化传播学3个方面，综述这一领域近期的研究成果，特别是对采用了社会化大数据分析方法的系列研究进行介绍，并指出该领域面临的问题与挑战。

2 音乐文化感知研究

音乐感知是文化感知研究的一个重要方向。心理学家经过长期而广泛的研究，对于音乐感知，已经在个性影响、社交认同、文化背景及跨文化影响等方面获得了丰富的基础认知，建立了较完善的理论框架。这些基础认知可以简述如下。在个性影响方面，人们对音乐类型的偏好可能会揭示出他们性格的重要特征。研究者常常使用大五型人格作为主要的个性测度，通过心理测试来研究个性因素对音乐感知的影响。一般神经质人格者与音乐的情感表达之间有着更积极的联系，外向型人格者更可能会用音乐来摆脱无聊，开放性人格者更有可能通过音乐来创造丰富的认知体验。此外，研究者也发现，相比个性差异，一些其他的个体差异与音乐偏好的关系可能更为紧密。在社会认同感和自尊对音乐偏好的影响方面，研究发现青少年听音乐不仅仅是为了调节情绪，也是为了在社交中自我表现，增强自己对群体的归属感，使音乐偏好与个体的社会身份相关联。此外，男性倾向于用富有攻击性风格的音乐来体现其支配地位，用轻柔的音乐来表达情感和提高人际关系；而女性在社交上与男性不同，她们仅在情感表达上使用音乐。在文化背景对音乐感知的影响方面，Soley G等人通过对婴儿音乐偏好的研究，证明了早期的音乐偏好是由特定的文化体验和文化中的普遍性偏好特征共同驱动的。

近年来，一系列基于在线社交平台并融合大数据分析方法的研究取得了巨大进展。这些研究在认知风格对音乐偏好的影响、用户对音乐模式的偏好、音乐感知的年龄效应与性别差异等多个方面突破了人们的原有认知。

在认知风格对音乐偏好的影响方面，研究者使用在线社交平台进行了两项基于移情―系统化理论（E-S理论）(E-S理论是指由男、女两性脑解剖学和生理功能的差异而引起“移情-系统化”维度上的人格差异。移情（empathizing，E）是指人们对他人心态的理解和共鸣，以便用适当的情感和行为对他人进行反应的心理品格。与移情相反，系统化（systemizing， S）是一种驱动力，目的是为了从“不需要使用情感”就能理解的物理环境或系统中找到控制它们运作的规则和规律，从而控制和预测环境中的物理性事物。个体反复观察系统中的细节特征，最后归纳出一个不变的模式，把这个模式作为系统的规则。该理论认为男女两性的人格差异主要体现在E-S维度上，女性有较强移情品格，处在E-S维度的E端，而男性有强的系统化品格，处于E-S维度的S端)的研究，解释了认知风格对音乐偏好的影响。第一项研究分析了移情在音乐偏好中的作用。研究中的数据基于4个不同的样本。样本参与者是从Facebook上招募的，他们使用Facebook上的一个叫作“myPersonality”的应用来完成心理测试问卷。研究表明，移情在音乐偏好中起着重要的作用，这类作用与性别差异无关，并且独立于音乐偏好和个性之间的联系。第二项研究分析了系统化与音乐偏好的关系，他们在Qualtrics公司发布了一个在线调查，通过亚马逊的Mechanical Turk（MTurk）招募参与人员。结果表明，系统化与移情在音乐维度、心理属性和声音属性上的关联是截然相反的，但都与性别差异无关。此外，还对不同音乐风格以及对音乐中细粒度特征（如心理属性和声音属性）的偏好与不同大脑类型（E或S）的关系进行了研究。

在描述用户对音乐模式的偏好方面，常用的五大音乐风格维度包括：柔和、朴实、复杂、强烈和现代性。研究者发现，在不同的音乐类型中，移情性（E型）大脑与对柔和音乐（包括R＆B/soul、成人当代音乐、软摇滚等音乐类型）的喜好呈正相关，对强烈音乐（包括朋克、重金属和硬摇滚等音乐类型）的喜好呈负相关。对心理属性的分析表明，E型大脑首选的音乐具有低唤醒、负效价和情感深度等特征。在声学方面，E型的人喜欢弦乐，而系统化（S型）的人常常喜欢节奏密集、跌宕起伏、以铜管和电吉他为特色的音乐。这些结果表明，认知风格是音乐偏好个体差异的基础。

在音乐感知的年龄和性别效应方面，一般而言，用户的年龄和性别是影响他们音乐偏好的重要因素。音乐偏好是随着年龄的增长而不断变化的。多数年轻人把音乐视作自我发现、自我调节和自我表达的载体。他们对音乐的重视程度甚至高于服装、电影、书籍、杂志、电脑游戏、电视和体育。影响成年人音乐偏好变化的因素分为外在决定因素和内在决定因素。外在决定因素包括社会影响和人际关系的影响，如婚姻、家庭和工作以及人际关系中从众心理带来的影响；内在决定因素是来自音乐本身的各类特征的影响，例如年轻人和中年人的偏好模式越来越受到音色、动感和音调清晰度的音频特征的影响。一般而言，音乐品味随年龄的发展模式是，青年时期涉及范围相对较窄，随后不断扩展，中年以后逐步缩小，最终落入老年人音乐品味这一狭窄范畴。导致老年人音乐品味下降的原因主要有3个方面：首先，老年人社交网络的收缩和同质化倾向导致老年人不容易接触更多的音乐形式；其次，衰老和年龄带来的耻辱感、身体机能的下降也会对老年人听音乐的需求造成消极影响，并降低老年人对音乐的参与性；另外，新技术的兴起彻底改变了音乐传播和获取的方式，使老年人被排除在这些新技术之外。

近期基于社会化大数据的研究对以上音乐心理学的观点提供了有力的理论支撑。早期的研究和最近对大规模音乐在线社区的分析（如Spotify）表现出了一致的结果。在基于Spotify的分析中，研究者把用户收听音乐的数据与Echo Nest的艺术家排行榜进行比较，分析了各个用户所听音乐的流行度。研究发现，青少年的音乐品味主要由流行音乐来主导，但是在20多岁以后的人群中喜欢流行音乐的人的比例稳步下降；男性和女性在青春期听音乐的差异不大，但青春期之后男性听流行音乐次数的减少速度比女性快得多；在任何年龄段，有子女者（根据听音乐的习惯推断得知）听流行音乐的数量比同年龄段的其他听众收听得少，显示出子女对音乐欣赏的巨大影响。研究者还根据用户所关注艺术家的排序，构建了各个年龄段的用户所听歌曲与当前主流音乐的偏离距离。如图1所示，图1中圆心表示当前流行的艺术家。可以看出，从青春期开始，这种偏离随着用户年龄的增大而逐步增大，显示出用户的音乐口味越来越偏离主流音乐。并且，在这一偏离过程中，男性的偏离速度比女性更快，显示出男性的音乐口味会更快地远离主流音乐。对于这类年龄性别效应，参考文献对网易云音乐平台上的中国音乐听众的研究也得到了相似的结论，暗示着流行音乐偏好随年龄的变化效应可能存在着文化共性，即青少年通常更关注新的流行音乐，而且女性往往比同龄男性表现出更强的对新近流行音乐的兴趣。但是，笔者通过对网易云音乐数据的分析发现，青少年期是音乐偏好性别差异最大的年龄阶段，这一结论与基于Spotify的研究结论恰好相反。这一差异可能源自于网易云音乐数据有着更为精细的音乐分类和更大的用户规模。

640?wx_fmt=jpeg

图1 用户关注的音乐随年龄的变化

3 音乐文化社会学研究

音乐与社会生活密不可分，对个人和社会群体都有着重要的作用和意义。一般而言，音乐既是个人身份的标志，也是集体身份的组成部分，它甚至可以推动一个人融入或脱离某个特定的社会群体。不同群体对不同音乐风格的偏好导致了他们的音乐口味、音乐创作及流行层面的分化，进而产生了一系列跨种族、跨阶级、跨文化的社会性区别与联系。因此，音乐实质上构成了社会关系的一部分。人们的音乐偏好往往受到各类社会性因素的影响和驱动，例如地区经济发展水平、社会阶层、文化背景、民族认同等。公众的音乐偏好的普遍性差异往往可以反映出社会潜在的经济、政治、文化层面的差异性。近年来，一系列的研究对这些社会学因素与音乐偏好的关系进行了大量的分析和挖掘。

首先，在音乐偏好与地区经济发展水平方面，参考文献基于5个主要的音乐偏好类别，调查了美国95个大中型城市音乐听众的地区差异。他们使用因子分析法识别音乐偏好的地理变化，使用双变量相关分析和回归分析检验了各城市居民的音乐偏好与各城市的经济、地形、政治和心理等因素之间的关系。研究表明，人们对音乐品味的偏好和社会经济阶层之间具有很强的相关性。在较富裕、平均受教育程度较高、社会文化较自由、多样性较高的地区，其居民更倾向于自由主义，也更喜欢当代音乐；而经济发展程度较低、平均受教育程度较低、工人阶级、白人和宗教氛围浓厚的地区更倾向于保守主义，朴实、强烈的音乐往往更受欢迎。

在针对中国音乐平台的分析中也获得了类似的结果。参考文献抓取了虾米音乐(中国较受欢迎的网络音乐社区之一)的数据，采用分层抽样和随机抽样的方法，得到了一组由59454名用户构成的随机样本，对这些用户拥有的265456种类型级别的音乐和256195种子类型级别的音乐进行了分析。在RaoStirling多样性基础上，该文献首先提出了一套优化的多样性指标，用来提升对音乐多样性的区分能力。基于新的多样性指标，研究了用户的多样性与用户的活动行为、用户所在地区的经济发展水平之间的相关性，发现音乐多样性较高的用户在社区中更加活跃，他们往往具有更高的播放次数和更多喜欢的歌曲。与2016年中国各个省份的人均GDP进行比较，发现具有更高音乐多样性的用户更可能生活在人均GDP更高的省份。

参考文献针对网易云音乐的用户音乐偏好受地区经济的影响这一结论给出了更为详细、直接的定量性证据。该文献分析了超过3 000万条网易云音乐的歌单数据，统计了在5种分类模式下每一类型音乐的听众在各个地区的分布情况以及该分布情况与各地区的人均可支配收入之间的相关性，如图2所示。图2中*表示相关性的显著程度，1~4个*分别对应显著性P值小于0.05、0.01、0.001、0.000 1的情况。研究发现，一些小众音乐类型往往呈现出更为强烈的正相关，表示这些小众音乐类型的听众更可能集中在经济发达的地区，促进了该地区用户的音乐多样性。同时，经济发达地区的用户也倾向于关注更多的正面情绪音乐，如图2所示的情感分类。

640?wx_fmt=jpeg

图2 网易云音乐用户中不同类型的音乐的关注者地区分布与各地区的人均可支配收入之间的相关性

以上这些研究说明，地区经济的发展可能会促进提升该地区的用户音乐品味的多样性，也可能意味着生活在发达地区的人们有更多的机会接触到多种类型的音乐。

在挖掘音乐偏好与社会分层方面，近年来随着自然语言处理技术的日趋成熟，结合了自然语言文本处理与数据挖掘技术的分析手段显露出强大的应用潜力。Kozlowski A C等人采用神经网络技术，利用互联网上的数字化语料库训练词嵌入（word embedding）模型，识别语料中蕴藏的文化与社会信息。这里采用的词嵌入模型是基于词汇之间的语义关系的一种文本分析高维矢量空间模型。它可以用向量空间中的距离来描述词义关系的远近，并定量刻画出不同分类维度之间的语义相似性。研究者分别从文化社会学中的性别、阶级、种族3个维度进行挖掘，分析各文化类别背后的社会学信息。研究表明，词嵌入向量空间的维度能够很好地对应文化意义中的维度。基于这类词嵌入模型，可以准确地判断出音乐流派与该音乐流派所对应的社会阶层或社会群体之间的关系。

4 音乐文化传播学研究

流行音乐是一种典型的文化产品，挖掘其创作、推广与流行过程中的各类规律，对认知文化及文化产品的传播有着重要的价值。音乐流行排行榜一直是研究流行音乐传播过程的重要数据来源。随着网络社交音乐平台的兴起，比如潘多拉电台、MySpace Music、Spotify、网易云音乐、虾米音乐等，它们积累的大量用户信息、点播与关注数据以及海量音频信息为这一领域的深入研究提供了良好的数据支撑。近年来，采用各类大数据分析方法，结合机器学习等人工智能手段，研究者可以实现对海量音频数据的文化特征提取，从多个角度挖掘出驱动音乐流行的关键因素。

作为一种文化产品，音乐的流行与多种因素相关。概括来说，这些因素主要涉及文化生产者的特征、文化受众的需求、文化产品本身的特征以及外部商业驱动等方面。

在对艺术家特征和受众需求特征的挖掘方面，研究者发现，艺术家的声誉、艺术家过去的表演成果和艺术家之间的合作网络的结构对流行文化产品的成功有重要作用。代表性的例子是，Uzzi B等人发现，当艺术家和制作人之间的合作网络呈现出小世界的特征时，作品更有可能取得商业性的成功。

对文化产品本身的特征挖掘方面的研究可充分发挥大数据和智能化分析手段的优势。在这一方面，最为相关的典型分析技术是音乐信息检索（music information retrieval，MIR）技术和机器学习。MIR技术可以对音频文件中的音乐进行内容分析，并构建能够解释目标变化的模型。机器学习方法的进步促进了MIR技术的发展，使得在音乐内容分析时可以使用相对大量的特征，再使用特征选择和交叉验证手段来构建更有效的模型。Friberg A等人使用MIR技术和机器学习相关算法，将音乐作品的特征从高维降低到一组离散特征之上，进而获得包含离散化的音乐特征的数据集，通过对离散特征的分析，能够确定歌曲在特征空间中的相对位置，并得出音乐流行的程度与音乐特征的相对典型性之间的联系。总而言之， MIR技术和机器学习技术的发展使得对音乐的分析可以深入以前难以展开研究的方面。

采用这类方法论的一个代表性的研究是Askin N等人对流行音乐风格与音乐流行度之间关系的分析。他们通过Echo Nest的应用程序编程接口（application programming interface，API），利用网络爬虫和音频编码技术获取了从1958年到2016年出现在Billboard Hot 100排行榜上的25102首歌曲的完整音乐信息，其中既包含多类客观的音乐特征（例如节奏、模式和音阶），也包括音乐制作者的自行创作信息（例如歌手嗓音、音乐的声学信息等）。他们把歌曲的各个特征向量化，然后计算出各个音乐流派的平均特征，随后采用含权的余弦相似性来测度每首流行歌曲与相应流派平均特征之间的风格差异，并把这一余弦相似性定义为该流行音乐的含权风格典型性。研究发现，这些高流行度音乐的典型性分布呈现倒U型，如图3所示。这表明，那些和其他歌曲太相似的歌曲很难吸引听众的注意力，而极度独特的作品也难以成为流行之作，只有歌曲表现出与主流风格呈现部分程度的最佳分化，即在一定程度上相似，才更有可能登上排行榜的榜首。此外，Savage P E等人基于系统发育学思想，通过对全球304组音乐样本构建音乐特征之间的关联关系，寻找世界各类音乐中具有跨文化意义的普遍性规律。

640?wx_fmt=jpeg

图3 不同典型性水平的歌曲达到排行榜峰值位置的边际概率

在外部商业驱动因素的挖掘方面，近期的一个代表性成果是Shin S等人对Gaon音乐排行榜上的K-Pop（Korean pop）歌曲的分析。他们分析的数据集覆盖了从2010年到2015年总共313周的将近7 000首出现在排行榜上的歌曲，包含各歌曲的数字音乐销售数据、下载量以及在线点播量等信息。他们分析了每首歌曲在流行排行榜上的动态表现以及背后的驱动因素，发现韩国流行音乐在发布后的很短时间内就能登上排行榜的顶峰，与别国流行音乐在排行榜上的表现形成明显的差异。韩国流行歌曲表现出的典型行为源自于韩国最近的主导趋势：韩国音乐制作公司更加关注流行音乐的商业运作。这导致短时间内商业运作对歌曲成功的影响大于歌曲内在质量对歌曲成功的影响。其他国家歌曲流行速度很慢，但是比韩国流行歌曲更有生命力，如果其他国家流行音乐制作人没有强大的音乐制作公司背景，导致其作品未能在早期上榜，那么在音乐质量和其他因素（例如媒体曝光等）的共同影响下，其作品依然有可能“大器晚成”，在晚期上榜。

5 问题与挑战

对大型社会化音乐数据集（特别是从各种在线音乐平台上获得的数据集）的分析，通常会受到各种因素的制约。首先，基于社会化大数据的分析研究的关注点常常集中在相关性以及相关性的时间、空间稳定性等方面，而对传统社会学中的假设驱动、因果关系分析的关注相对较少。因此，大数据社会学研究常常更加倾向于探索大量的数据资源，生成新的社会学假设。但是，从当前针对音乐领域的大数据分析来看，大多数研究仍然以向原有社会学理论提供基于大数据的社会学支撑为核心，真正能够提供可突破原有社会学理论的研究尚不足。同时，如何从海量的在线数据中提取具有代表性的样本仍然是一个巨大的挑战，涉及的概念和方法上的复杂性往往会同时出现在多个不同的分析层面之上。

对音乐偏好的研究则受到识别音乐类型所用方法的制约。在使用机器学习方法进行音乐特征提取时，往往存在理论精度限制，准确率通常为48%~78%。相当一部分基于在线音乐点播数据的研究采用了平台给定的音乐类型标签来标识音乐流派。然而，由于新风格音乐和多类风格相融合的音乐层出不穷，而且音乐风格的分类维度本身存在较高的多样性，这些音乐类型标签覆盖的范围往往相当有限，因此，在用于描述用户偏好方面存在准确性问题。部分新近的研究采用了用户自主标注的音乐类型标签，这类标签中隐藏着个人对所听音乐的风格模式的特征感知及其心理效应等方面的信息，可以获得若干新的分析维度。但是这类标签也带来了新的不确定性，因为即使对于音乐专家来说，给各类音乐作品准确地贴上标签也是相当有挑战的事情，而这种不确定性带来的负面影响很难评估。总体而言，目前在挖掘人类的音乐偏好时，对于怎样实现最有效的音乐类型划分还没有形成普遍的共识。

最后，同各类在线社会化大数据一样，音乐大数据常常也存在大量的数据污染问题。这些数据污染除了各类虚假的用户信息（如虚假的年龄和性别）、音乐榜单刷评、虚假点播数据等有意识的数据造假行为以外，也包括若干由用户日常互动带来的无意识的污染。例如，许多在线音乐社区的用户倾向于与家人、伴侣或朋友分享他们所听的音乐，从而可能影响到对一些特定人群的音乐偏好的识别。对于这些数据污染问题，一些研究也提出若干针对性的解决方案，在对Spotify用户的分析中，为了过滤虚假年龄信息采用的近邻年份平均方法就是一个典型的例子。

6 结束语

总体而言，随着大数据技术和各类人工智能手段的介入，研究者获得了一套可以对音乐文化领域中的一系列研究对象进行定量刻画并挖掘其中隐藏规律的新的方法论。日益丰富的研究成果已经基本证明了这类新的方法论在音乐文化研究领域的有效性。尽管当前这套方法论在具体应用过程中依然受到各种来自外部数据资源和方法自身的制约，但已经显露出有望取得颠覆性发展的潜力。

The authors have declared that no competing interests exist.

作者已声明无竞争性利益关系。

作者简介

耿屿（1992-），男，杭州师范大学阿里巴巴复杂科学研究中心硕士生，主要从事信息经济与社会复杂性理论研究。

韩筱璞（1981-），男，杭州师范大学阿里巴巴复杂科学研究中心副教授，硕士生导师，主要从事人类行为分析与社会经济复杂性理论研究。

吕琳媛（1984-），女，电子科技大学基础与前沿研究院教授，杭州师范大学阿里巴巴复杂科学研究中心教授，博士生导师，主要从事网络信息挖掘和社会经济复杂性研究。

640?wx_fmt=jpeg