论文阅读:《Improving Content-based and Hybrid Music Recommendation using Deep Learning》

本文主要是介绍论文阅读:《Improving Content-based and Hybrid Music Recommendation using Deep Learning》,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

https://blog.csdn.net/u011239443/article/details/79984751

论文地址:

https://www.smcnus.org/wp-content/uploads/2013/09/deep_mr.pdf

摘要

现有的基于内容的音乐推荐系统通常采用两阶段的方法。他们首先提取传统的音频内容特征,如 Mel-frequency cepstral系数,然后预测用户的偏好。然而,这些传统的功能,最初并不是为音乐推荐而创建的,不能在音频中捕获所有相关信息,从而限制了推荐性能。利用基于深度信念网络和概率图形模型的新模型,将两个阶段统一为一个自动化过程,同时学习音频内容的特征,并提出个性化的建议。与现有的基于深度学习的模型相比,我们的模型在不依赖协同过滤(CF)的情况下,在热启动和冷启动阶段都优于它们。我们提出了一种高效的混合方法,将自动学习的特性和CF进行无缝集成。我们的混合方法不仅显著提高了CF的性能,而且优于传统的基于特征的混合方法。

介绍

音乐推荐系统会自动推荐符合用户音乐偏好的歌曲。一场比赛的质量受到许多因素的影响(例如,个性,情绪状态,活动,社会环境)和歌曲(例如,音乐音频内容,新奇,多样性)。

在与歌曲相关的因素中,音乐音频内容是非常重要的。在大多数情况下,我们喜欢/不喜欢一首歌是由于它的声音内容,如声乐、旋律、节奏、音色、体裁、乐器或歌词的特点。不听内容,我们对这首歌的质量几乎一无所知,更不用说我们是否喜欢它了。因为音乐内容在很大程度上决定了我们的喜好,所以它应该能够为推荐提供良好的预测能力。

然而,现有的音乐推荐依赖于音乐音频内容,通常会产生不令人满意的推荐效果。他们都采用了两阶段的方法:提取传统音频内容特征,如Mel-frequency cepstral系数(MFCC),然后利用这些特性来预测用户的偏好[1,2,3]。然而,传统的音频内容特性并不是为音乐推荐或音乐相关的任务而创建的(例如,MFCC最初用于语音识别[4])。他们只是在发现之后才加入了音乐推荐,他们还可以描述高级的音乐概念,如体裁、音色和旋律。使用这些特性可能导致推荐性能差的两种方式。首先,由于所谓的语义差距[5],不能准确地描述高级概念。其次,即使特征描述是准确的,高级概念可能对用户的音乐首选项并不重要。因此,传统的功能可能无法考虑到与音乐推荐相关的信息。

  • 关于 MFCC 可参阅:https://zhuanlan.zhihu.com/p/27416870

我们认为,有效的基于内容的音乐推荐方法的关键是一组好的内容特性。手工制作这样的功能是可能的,但费时费力。一种更好的方法是将现有的两阶段方法结合到一个统一的自动化过程中:从音频内容中自动和直接学习特性,以最大化推荐性能。深度学习技术的最近发展[6]使这种统一的方法成为可能。事实上,人们已经开始使用深度学习来学习其他音乐任务的特征,比如音乐类型分类[7]和音乐情感预测[8],结果很有希望。

基于内容的方法也经常结合协同过滤(CF),它根据志同道合的用户的兴趣推荐歌曲。大多数现有的推荐系统都基于CF[9]。然而,由于它完全依赖于使用数据,CF在面对新歌问题时是无能为力的——它不能推荐没有使用历史的歌曲。基于内容的方法并没有受到这个问题的影响,因为他们可以根据歌曲的音频内容进行预测,这通常是在线商家可以使用的。因此,基于内容的方法可以在新歌场景中挽救CF。由于CF和基于内容的方法利用了信息的不同维度,因此可以将它们组合成一种混合的方法来进行更好的预测。

因此,我们首先开发一个基于内容的模型,该模型自动并同时从音频内容中提取特征,并提出个性化推荐。然后,我们开发了一种混合方法,将CF和内容特性结合起来。具体而言,本文力求作出以下贡献:

  • 基于内容的方法:我们开发了一种新的基于概率图模型的基于内容的推荐模型和深信念网络(DBN)。它统一了特征学习和推荐。虽然它不依赖于协同过滤,但它优于基于CF的模型,无论是冷启动阶段还是暖启动阶段。
  • 混合法:将CF和音乐内容,我们将自动学会了音频特征的高效混合模型。实验结果表明,学习功能互补的CF也优于传统特征的混合方法。

本文的其余部分组织如下。2节简要回顾了流行音乐的记录方法推荐和简要介绍了深信念网络以及在音乐任务中的应用。第3节描述了我们的基于内容和混合推荐模型,并讨论了我们实验中使用的基线内容模型。第4节描述了我们广泛的实验评估。第5节总结了这项工作,并讨论了未来的研究方向。

相关工作

在介绍深层信仰网络和其他深层学习技术之前,我们将列举当前的音乐推荐技术。然后我们将回顾深层学习技术在音乐任务中的应用,包括音乐推荐。

音乐推荐

目前,音乐推荐系统可分为四类:协同过滤(CF)、基于内容的方法、基于上下文的方法和混合方法。

**协同过滤通过考虑其他志同道合用户的偏好来推荐歌曲。**例如,如果用户A和B具有相似的音乐首选项,那么B所推荐的歌曲,但尚未被B所考虑,B的最新方法是基于矩阵分解(MF)的,这一点很好地总结了[ 11 ]。在第3.1节中,我们将阐述一个MF方法,概率矩阵分解。

**基于内容的方法推荐具有与用户首选歌曲相似的音频内容的歌曲。**大多数现有的基于内容的方法首先提取传统的音频特征,如MFCC,然后根据歌曲特征向量之间的相似性进行推荐。然而,所使用的相似性度量通常是临时的,因为它们对推荐目标没有进行优化,通常从非常有限的一组距离函数中选择,如欧几里得距离[ 12, 13 ],地球移动器的距离[ 14 ],或皮尔森相关距离[ 15, 16 ]。虽然最近的两部作品试图利用机器学习技术自动学习相似性度量(17, 18),但它们仍然依赖于传统特征。已经尝试对传统特征[ 13, 15 ]进行特征选择或转换,但它们仍然是次优的,因为传统特征可能无法考虑必要的信息。
**基于上下文的方法推荐歌曲来匹配用户上下文的各个方面(例如,活动、环境或生理状态[ 3, 19 ])。**随着传感器丰富和计算能力强的智能手机的出现,他们近年来越来越流行。

**混合方法将上述两种或多种方法结合起来。**混合CF和基于内容的方法已被广泛的探索在推荐其他产品,如电影[ 20, 21, 22,23 ]。虽然这种方法可以推广到音乐推荐,我们不使用他们由于效率问题:(1)他们使用贝叶斯推理[ 20, 22, 23 ]和[ 24 ]和蒙特卡洛模拟比我们的算法慢因此多;(2)已被应用于与用户和项目的100万名,收视率在我们的数据集,数据集有成千上万的用户和项目和2800万额定值。直接在我们的数据集上应用这些算法是不平凡的。

深度学习在音乐中相关的任务

音乐信息检索领域最近才开始接受深度学习的力量。Lee et al。[ 35 ]使用卷积深层信度网络,以无监督的方式,如音乐流派分类的前道特征。结果表明,自动学习的特征明显优于MFCC。在Hamel等。(7)将深层信度网络用于音乐体裁分类和自动标注,其性能优于基于MFCC和MIM特征集。在[ 36, 37 ]中,汉弗莱等人。建议传统的两阶段机器学习过程——特征提取和分类/回归——同时进行。对一段音乐的节奏风格,Pikrakis运用工程特征代表的韵律特征DBN [ 38 ]。施密特等人。[ 39 ]发现,DBN容易优于基于音频内容的理解音乐的节奏和旋律的传统特色。其他类似稀疏编码的特征学习技术也开始应用于音乐任务中。在40中,采用稀疏编码的方法,以无监督的方式学习可解释的音频特征,并在音乐体裁分类中取得了良好的性能。

据我们所知,是由oorD等人几乎同时提出第一个基于深度学习的音乐推荐方法。[ 41 ]在去年。他们首先进行矩阵分解以获得所有歌曲的潜在特征,然后利用深层学习将音频映射到这些潜在特征。他们的方法和我们的方法的比较将在后面详述。

总之,除了“41”和所有混合方法之外,所有基于内容的音乐推荐方法都是基于传统特性,这些特性不是为音乐推荐而创建的。为了同时进行特征提取和推荐,我们将建立一个统一的纯内容推荐模型。我们还将展示自动学习的特征可以应用于我们的高效混合方法。

推荐模型

在本节中,我们将介绍我们的基于内容的模型和混合模型,以及两个基于基线的基于内容的模型,用来比较我们的模型。

基于概率矩阵分解的协同过滤

协同过滤是一种流行的推荐方法。最新的CF方法是基于矩阵分解(MF)的。本文提出了一种基于概率矩阵分解(PMF)42的MF方法,该方法简单、准确、高效。此外,PMF原则性的概率解释使它能够更容易地纳入内容信息。

这篇关于论文阅读:《Improving Content-based and Hybrid Music Recommendation using Deep Learning》的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1023030

相关文章

BD错误集锦1——[Hive]ERROR StatusLogger No log4j2 configuration file found. Using default configuration:

错误描述:在使用IDEA进行jdbc方式连接到hive数据仓库时,出现以下错误:                ERROR StatusLogger No log4j2 configuration file found. 问题原因:缺少log4j2.xml文件   <?xml version="1.0" encoding="UTF-8"?><Configuration><Appender

Deep Learning复习笔记0

Key Concept: Embedding: learned dense, continuous, low-dimensional representations of object 【将难以表示的对象(如图片,文本等)用连续的低维度的方式表示】 RNN: Recurrent Neural Network -> for processing sequential data (time se

ssh在本地虚拟机中的应用——解决虚拟机中编写和阅读代码不方便问题的一个小技巧

虚拟机中编程小技巧分享——ssh的使用 事情的起因是这样的:前几天一位工程师过来我这边,他看到我在主机和虚拟机运行了两个vscode环境,不经意间提了句:“这么艰苦的环境写代码啊”。 后来我一想:确实。 我长时间以来都是直接在虚拟机里写的代码,但是毕竟是虚拟机嘛,有时候编辑器没那么流畅,在文件比较多的时候跳转很麻烦,容易卡住。因此,我当晚简单思考了一下,想到了一个可行的解决方法——即用ssh

康奈尔大学之论文审稿模型Reviewer2及我司七月对其的实现(含PeerRead)

前言 自从我司于23年7月开始涉足论文审稿领域之后「截止到24年6月份,我司的七月论文审稿GPT已经迭代到了第五版,详见此文的8.1 七月论文审稿GPT(从第1版到第5版)」,在业界的影响力越来越大,所以身边朋友如发现业界有相似的工作,一般都会第一时间发给我,比如本部分要介绍的康奈尔大学的reviewer2 当然,我自己也会各种看类似工作的论文,毕竟同行之间的工作一定会互相借鉴的,我们会学他们

芯片后端之 PT 使用 report_timing 产生报告如何阅读

今天,就PT常用的命令,做一个介绍,希望对大家以后的工作,起到帮助作用。 在PrimeTime中,使用report_timing -delay max命令生成此报告。switch -delay max表示定时报告用于设置(这是默认值)。 首先,我们整体看一下通过report_timing 运行之后,报告产生的整体样式。 pt_shell> report_timing -from start_

【论文精读】分类扩散模型:重振密度比估计(Revitalizing Density Ratio Estimation)

文章目录 一、文章概览(一)问题的提出(二)文章工作 二、理论背景(一)密度比估计DRE(二)去噪扩散模型 三、方法(一)推导分类和去噪之间的关系(二)组合训练方法(三)一步精确的似然计算 四、实验(一)使用两种损失对于实现最佳分类器的重要性(二)去噪结果、图像质量和负对数似然 论文:Classification Diffusion Models: Revitalizing

【python】python葡萄酒国家分布情况数据分析pyecharts可视化(源码+数据集+论文)【独一无二】

👉博__主👈:米码收割机 👉技__能👈:C++/Python语言 👉公众号👈:测试开发自动化【获取源码+商业合作】 👉荣__誉👈:阿里云博客专家博主、51CTO技术博主 👉专__注👈:专注主流机器人、人工智能等相关领域的开发、测试技术。 python葡萄酒国家分布情况数据分析pyecharts可视化(源码+数据集+论文)【独一无二】 目录 python葡

论文阅读--Efficient Hybrid Zoom using Camera Fusion on Mobile Phones

这是谷歌影像团队 2023 年发表在 Siggraph Asia 上的一篇文章,主要介绍的是利用多摄融合的思路进行变焦。 单反相机因为卓越的硬件性能,可以非常方便的实现光学变焦。不过目前的智能手机,受制于物理空间的限制,还不能做到像单反一样的光学变焦。目前主流的智能手机,都是采用多摄的设计,一般来说一个主摄搭配一个长焦,为了实现主摄与长焦之间的变焦,目前都是采用数字变焦的方式,数字变焦相比于光学

【LLM之KG】CoK论文阅读笔记

研究背景 大规模语言模型(LLMs)在许多自然语言处理(NLP)任务中取得了显著进展,特别是在零样本/少样本学习(In-Context Learning, ICL)方面。ICL不需要更新模型参数,只需利用几个标注示例就可以生成预测。然而,现有的ICL和链式思维(Chain-of-Thought, CoT)方法在复杂推理任务上仍存在生成的推理链常常伴随错误的问题,导致不真实和不可靠的推理结果。

【python】python基于akshare企业财务数据对比分析可视化(源码+数据集+论文)【独一无二】

👉博__主👈:米码收割机 👉技__能👈:C++/Python语言 👉公众号👈:测试开发自动化【获取源码+商业合作】 👉荣__誉👈:阿里云博客专家博主、51CTO技术博主 👉专__注👈:专注主流机器人、人工智能等相关领域的开发、测试技术。 系列文章目录 目录 系列文章目录一、设计要求二、设计思路三、可视化分析 一、设计要求 选取中铁和贵州茅