基于深度学习的抑郁症检测混合模型

2023-12-29 06:50

本文主要是介绍基于深度学习的抑郁症检测混合模型,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Field: 深度学习、抑郁检测、多模态

Title: A hybrid model for depression detection using deep learning

Journal: Measurement: Sensors

Data: 2022.11

Author:Vandana a, Nikhil Marriwala

Research context:针对语音和文本数据,文章提出构建了三种模型,分别验证三种模型在抑郁倾向上的检测效果,对比研究

Method

提出了三种抑郁症检测模型:

1.textual CNN

2.audio CNN

3.text CNN and audio CNN 混合(混合LSTM,混合Bi-LSTM)

        作者验证了三者的各项指标,accuracy、F1 score、loss and so on,发现audio CNN在抑郁症检测方面上能获得良好的效果,准确率达到98%,损失为0.1%,而text CNN的准确度为92%,损失为0.2%,混合LSTM模型的准确率为0.80%,损失为0.4。Bi-LSTM模型的精度为0.88,高于混合LSTM模型,损失为0.2。这意味着对于抑郁症检测,Bi-LSTM模型比LSTM模型更准确地预测。但是仍低于Audio CNN

Goodness:

        提出了一个基于语音和文本的抑郁症倾向检测的混合模型(混合Bi-LSTM和混合LSTM),文章对比研究了语音数据集在Audio CNN上表现特点、文本数据集在Text CNN、以及语音和文本在混合模型上的性能。

        文章将文本信息转化为向量加入到CNN中,将语音限号每帧的频谱作为图像输入到CNN中

Badness:

        混合模型(混合Bi-LSTM和混合LSTM)的效果并没有Audio CNN 的好,并没有仔细提出实验过程,只是提供了原理

Study:

        1.在文本CNN中进行文本分类的工作,使用了工作嵌入层和CNN层。单词嵌入是单词的矢量或图片表示。Word 2 vec是词到向量的意思,是最流行的词嵌入技术。Word 2 vec的输入是文本数据,输出是矢量或图片。

        2.音频分类的第一步是将音频样本转换为频谱图。这是音频分类的重要步骤。频谱图是信号频率随时间变化的视觉表示。

        在将音频样本转换为频谱图之后,下一步是音频分割。在音频分割中,从音频样本中去除额外的噪声和静音,这一步骤也称为分段。在从音频或语音样本中去除不需要的噪声和静音之后,下一步是数据不平衡。在数据集中,非抑郁症患者的信息量要多于抑郁症患者。这是抑郁症患者数据的四倍。这就是为什么数据不平衡很重要。平衡抑郁症的数据:非降为等数。第三步是频谱转换。采样的音频片段然后被转换成大小为512*512像素的频谱图图像。这些图像以8:2的比例放入训练和验证文件夹中。

        3.LSTM或(长短期记忆)算法是一种递归神经网络(RNN),其中大部分特征与一层到上一层相关联,它还允许信息从过去传递到现在,然后从现在传递到未来。RNN对向量序列进行操作。因此,每一层都依赖于先前的输出。RNN的问题是,随着时间的推移,信息会迅速丢失。

        它们是为了解决RNN中的信息丢失问题而设计的。LSTM能够学习长时间的依赖关系,这使得RNN在记忆事物方面足够聪明。使用LSTM的优势在于,它将有助于数据处理预测和预处理应用。        

        4.neural network层

        (1)卷积层是神经网络的第一层,也是最重要的一层。这一层创建了整个神经网络的构建块。卷积层的主要目的是检测输入的类型,即,文本特征、音频特征或两者。在卷积层,输入图像与相同大小的滤波器卷积,然后得到输出图像。在输出中,开发了特征图。卷积层采用滤波核作为权值,权值在卷积层采用反向传播算法更新。

(2)最大池化层-池化层位于两个卷积层之间。池化层的主要工作是减少输入的大小。这一层帮助模型减少数据的实际大小,并仅使用必要的数据信息更新数据。这一层提高了神经网络的效率。它减少了数据中不需要的特征。池化层在卷积层和全连接层之间创建了一个桥梁。池层也有助于减少神经网络中发生的过拟合问题。

        (3)ReLU作为激活函数- ReLU意味着整流线性单元,该函数描述非线性。该层将所有负值数据替换为零值。该层是重要的层,因为它决定将哪些信息传递到下一个卷积层以及丢弃哪些信息。有许多激活函数,如SoftMax,ReLU,tanH,Sigmoid。

        (4)完全连接层-通常放置在输出分类层之前的完全连接层。在这一层中,分类开始发生,结果会自动更新。在神经网络中,使用一个或两个完全连接的层是很重要的。

        (5)Batch Normalization- Batch Normalization层将前一层的输出归一化。它有助于模型有效地学习特征。它使模型稳定,执行速度更快。它使模型的处理和学习更快。

        (6) Dropout层- Dropout是一个有助于减少模型中过度拟合的层。它随机丢弃神经网络的一些值,使模型学习速度更快。丢弃层放置在完全连接层之后。推荐的dropout值为0.25。它会导致神经网络的训练速度变慢。

这篇关于基于深度学习的抑郁症检测混合模型的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/548679

相关文章

Node.js 中 http 模块的深度剖析与实战应用小结

《Node.js中http模块的深度剖析与实战应用小结》本文详细介绍了Node.js中的http模块,从创建HTTP服务器、处理请求与响应,到获取请求参数,每个环节都通过代码示例进行解析,旨在帮... 目录Node.js 中 http 模块的深度剖析与实战应用一、引言二、创建 HTTP 服务器:基石搭建(一

Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)

《Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)》:本文主要介绍Python基于火山引擎豆包大模型搭建QQ机器人详细的相关资料,包括开通模型、配置APIKEY鉴权和SD... 目录豆包大模型概述开通模型付费安装 SDK 环境配置 API KEY 鉴权Ark 模型接口Prompt

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

零基础学习Redis(10) -- zset类型命令使用

zset是有序集合,内部除了存储元素外,还会存储一个score,存储在zset中的元素会按照score的大小升序排列,不同元素的score可以重复,score相同的元素会按照元素的字典序排列。 1. zset常用命令 1.1 zadd  zadd key [NX | XX] [GT | LT]   [CH] [INCR] score member [score member ...]