使用CNN进行情感分析(Sentiment Analysis)

2024-05-26 08:48

本文主要是介绍使用CNN进行情感分析(Sentiment Analysis),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、情感分析

情感分析是自然语言处理中很常见的任务,它的目的是识别出一段文本潜在的情感,是表扬还是批评,是支持还是反对。比如我们可以使用情感分析去分析社媒的评论,从而得到网友对某件事的看法,进一步分析可以得到舆论的趋势。大家都知道特朗普非常喜欢发Twitter,我们可以对推友们评论进行分析,看看他们是在骂特朗普还是在支持特朗普,然后把所有的评论汇总起来就能得到一个大概的特朗普是否能够连任的趋势了。总之情感分析的本质是一个文本分类的任务,在这里我们实现了一个CNN网络对IMDB数据集进行情感分析。完整代码

二、IMDB数据集

Large Moive Review Dataset通常指的就是IMDB数据集,这是由斯坦福的研究者收集自网站IMDB。这个数据集其实就是一些对电影的评论,一共包含两类,积极的评论(positive)和消极的评论(negative)。其中训练集和测试集各有25000条数据。

三、CNN情感分析

深度学习在NLP任务中有很广泛的作用,那怎样将CNN应用于情感分析呢?因为情感分析本质就是一个文本分类的任务,在这里我们使用一个经典的用于文本分类的CNN架构,如下图所示,首先使用一维卷积,所谓一维卷积就是尺寸为window size * embedding dimension的卷积。window size其实就是词的数量,如果window size等于2就是图中红色的filter,每次选取两个词。window size等于3的话就是图中黄色的部分,每次选取三个词。这样卷积的意义就是每次都能获取到一个n-gram特征,这与我们的直觉也是类似的。卷积之后再使用max-1-pooling,也就是选择这句话中最显著的词或词组作为下一层的结果。然后将这些关键词组合起来输入全连接层就可以得到分类结果了。更详细的CNN解释可以看这篇博客。CNN文本分类详解

下面介绍下如何使用Keras实现这个逻辑,首先载入IMDB数据集,选取词频最高的5000个词作为输入,其他的词都是0。然后再把句子的单词长度固定为500。

# load the dataset but only keep the top n words, zero the rest
top_words = 5000
(x_train, y_train), (x_test, y_test) = imdb.load_data(num_words=top_words)
# pad dataset to a maximum review length in words
max_words = 500
x_train = sequence.pad_sequences(x_train, maxlen=max_words)
x_test = sequence.pad_sequences(x_test, maxlen=max_words)

 接下里创建conv1D + max-pooling的CNN模型。首先初始化一个embedding,为所有词随机一个词向量(这里也可以使用预训练的词向量,效果会更好)。然后使用Conv1D进行卷积,其中kernel_size这个参数就是我们前面所说的window size, 这里我们让它等于3,也就是每次取3个词,得到的是tri-gram特征。然后GlobalMaxPooling进行池化,最后使用全连接层得到一个值。这个值就代表属于哪一类的分数。优化的时候使用Adam优化器。

sentence = Input(batch_shape=(None, max_words), dtype='int32', name='sentence')
embedding_layer = Embedding(top_words, embedding_dims, input_length=max_words)
sent_embed = embedding_layer(sentence)
conv_layer = Conv1D(filters, kernel_size, padding='valid', activation='relu')
sent_conv = conv_layer(sent_embed)
sent_pooling = GlobalMaxPooling1D()(sent_conv)
sent_repre = Dense(250)(sent_pooling)
sent_repre = Activation('relu')(sent_repre)
sent_repre = Dense(1)(sent_repre)
pred = Activation('sigmoid')(sent_repre)
model = Model(inputs=sentence, outputs=pred)
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])

最后训练模型

# fit the model
model.fit(x_train, y_train, batch_size=batch_size, epochs=epochs, verbose=1,validation_data=(x_test, y_test))

最终模型在测试集上的准确率为88.64% 。完整代码

25000/25000 [==============================] - 25s 1ms/step - loss: 0.3455 - acc: 0.8420 - val_loss: 0.2775 - val_acc: 0.8815
Epoch 2/2
25000/25000 [==============================] - 24s 973us/step - loss: 0.1603 - acc: 0.9390 - val_loss: 0.2871 - val_acc: 0.8864
Accuracy: 88.64%

四、使用多窗口的CNN

前面我们使用的是windows size等于3的卷积,也就是每次取三个词,得到tri-gram特征。那要是觉得只用tri-gram还不够丰富,还想加入bi-gram或者更多类型的n-gram怎么办?那只要把Conv-1D这里改下就好了,代码如下。使用一个循环,假设kernel_size_list = [2,3,4],这代表我们会分别取2个词,3个词,4个词进行卷积,然后将池化的结果进行拼接,最后得到了更加丰富的特征。

# use multi window-size cnn
cnn_result = []
for kernel_size in kernel_size_list:conv_layer = Conv1D(filters, kernel_size, padding='valid', activation='relu')sent_conv = conv_layer(sent_embed)sent_pooling = GlobalMaxPooling1D()(sent_conv)cnn_result.append(sent_pooling)
cnn_result = concatenate(cnn_result)

也可以看到使用多窗口的卷积最终准确率达到了89.99%,与只使用窗口为3的CNN相比提高了1个多点,还是挺有效果的。完整代码

25000/25000 [==============================] - 77s 3ms/step - loss: 0.3345 - acc: 0.8483 - val_loss: 0.2592 - val_acc: 0.8941
Epoch 2/2
25000/25000 [==============================] - 73s 3ms/step - loss: 0.1555 - acc: 0.9409 - val_loss: 0.2462 - val_acc: 0.8999
Accuracy: 89.99%

Reference

https://machinelearningmastery.com/predict-sentiment-movie-reviews-using-deep-learning/

https://keras.io/examples/imdb_cnn/

https://blog.csdn.net/u010960155/article/details/81112351

这篇关于使用CNN进行情感分析(Sentiment Analysis)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1003991

相关文章

java图像识别工具类(ImageRecognitionUtils)使用实例详解

《java图像识别工具类(ImageRecognitionUtils)使用实例详解》:本文主要介绍如何在Java中使用OpenCV进行图像识别,包括图像加载、预处理、分类、人脸检测和特征提取等步骤... 目录前言1. 图像识别的背景与作用2. 设计目标3. 项目依赖4. 设计与实现 ImageRecogni

python管理工具之conda安装部署及使用详解

《python管理工具之conda安装部署及使用详解》这篇文章详细介绍了如何安装和使用conda来管理Python环境,它涵盖了从安装部署、镜像源配置到具体的conda使用方法,包括创建、激活、安装包... 目录pytpshheraerUhon管理工具:conda部署+使用一、安装部署1、 下载2、 安装3

Mysql虚拟列的使用场景

《Mysql虚拟列的使用场景》MySQL虚拟列是一种在查询时动态生成的特殊列,它不占用存储空间,可以提高查询效率和数据处理便利性,本文给大家介绍Mysql虚拟列的相关知识,感兴趣的朋友一起看看吧... 目录1. 介绍mysql虚拟列1.1 定义和作用1.2 虚拟列与普通列的区别2. MySQL虚拟列的类型2

使用MongoDB进行数据存储的操作流程

《使用MongoDB进行数据存储的操作流程》在现代应用开发中,数据存储是一个至关重要的部分,随着数据量的增大和复杂性的增加,传统的关系型数据库有时难以应对高并发和大数据量的处理需求,MongoDB作为... 目录什么是MongoDB?MongoDB的优势使用MongoDB进行数据存储1. 安装MongoDB

关于@MapperScan和@ComponentScan的使用问题

《关于@MapperScan和@ComponentScan的使用问题》文章介绍了在使用`@MapperScan`和`@ComponentScan`时可能会遇到的包扫描冲突问题,并提供了解决方法,同时,... 目录@MapperScan和@ComponentScan的使用问题报错如下原因解决办法课外拓展总结@

mysql数据库分区的使用

《mysql数据库分区的使用》MySQL分区技术通过将大表分割成多个较小片段,提高查询性能、管理效率和数据存储效率,本文就来介绍一下mysql数据库分区的使用,感兴趣的可以了解一下... 目录【一】分区的基本概念【1】物理存储与逻辑分割【2】查询性能提升【3】数据管理与维护【4】扩展性与并行处理【二】分区的

使用Python实现在Word中添加或删除超链接

《使用Python实现在Word中添加或删除超链接》在Word文档中,超链接是一种将文本或图像连接到其他文档、网页或同一文档中不同部分的功能,本文将为大家介绍一下Python如何实现在Word中添加或... 在Word文档中,超链接是一种将文本或图像连接到其他文档、网页或同一文档中不同部分的功能。通过添加超

Linux使用fdisk进行磁盘的相关操作

《Linux使用fdisk进行磁盘的相关操作》fdisk命令是Linux中用于管理磁盘分区的强大文本实用程序,这篇文章主要为大家详细介绍了如何使用fdisk进行磁盘的相关操作,需要的可以了解下... 目录简介基本语法示例用法列出所有分区查看指定磁盘的区分管理指定的磁盘进入交互式模式创建一个新的分区删除一个存

C#使用HttpClient进行Post请求出现超时问题的解决及优化

《C#使用HttpClient进行Post请求出现超时问题的解决及优化》最近我的控制台程序发现有时候总是出现请求超时等问题,通常好几分钟最多只有3-4个请求,在使用apipost发现并发10个5分钟也... 目录优化结论单例HttpClient连接池耗尽和并发并发异步最终优化后优化结论我直接上优化结论吧,

SpringBoot使用Apache Tika检测敏感信息

《SpringBoot使用ApacheTika检测敏感信息》ApacheTika是一个功能强大的内容分析工具,它能够从多种文件格式中提取文本、元数据以及其他结构化信息,下面我们来看看如何使用Ap... 目录Tika 主要特性1. 多格式支持2. 自动文件类型检测3. 文本和元数据提取4. 支持 OCR(光学