【NLP论文】03 基于 jiagu 的情感分析

2024-01-01 18:28
文章标签 分析 论文 03 nlp 情感 jiagu

本文主要是介绍【NLP论文】03 基于 jiagu 的情感分析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本篇是NLP论文系列的最后一篇,主要介绍如何计算情感分析结果,并将其融入到XX评价体系和物流关键词词库,之前我已经写了两篇关于情感分析的文章,分别是 SnowNLP 和 Cemotion 技术,最终我才用了 jiagu 来写我的论文,因为 jiagu 准确率还行,并且写这个技术的毕竟少。 

目录

1 基于 Jiagu 的情感分析

1.1  Jiagu 介绍

1.2  情感分析计算

① 语料

② Jiagu 计算

③ xx 关键词匹配

2 XX评价体系结合情感分析


代码地址:nlp_yinyu

1 基于 Jiagu 的情感分析

Jiagu 和 SnowNLP + Cemotion 类似,均是情感分析技术之一,另外两种技术文章也在该专栏下,采用哪种看大家如何选择,本文主要介绍如何将情感分析技术融入到论文中。

1.1  Jiagu 介绍

Jiagu 情感分析是一种中文自然语言处理工具,用于识别和分析文本中的情感倾向,它可以根据文本的内容和语义,判断文本中的情感是积极的、消极的还是中性的。

它使用机器学习算法和自然语言处理技术来处理文本,并通过训练模型来识别情感。该工具可以应用于各种文本数据,如社交媒体评论、新闻文章、产品评论等。

Jiagu情感分析具有以下特点:高准确性、快速处理和多种应用场景。

1.2  情感分析计算

① 语料

语料依然是以之前爬取的京东网站上的 5000 条评论数据,可在文章顶部的代码仓库中下载!

② Jiagu 计算

主要分为以下三步:

  1. 引入语料 excel 数据
  2. 计算每条评论的情感值
  3. 生成【Jiagu情感分析原始结果_京东.xlsx】文件

代码如下:

import pandas as pd
import jiagu
from base_handle import BaseHandle  # 引入工具类baseHandle = BaseHandle()  # 实例化def jiagu_cal(url):'''计算每条评论的情感值'''df = pd.read_excel(url, sheet_name='Sheet1')# print(df)# 定义函数,批量处理所有的评论信息def get_sentiment_cn(text):return jiagu.sentiment(text)[1]  # jiagu的后边带positive或negative# 根据df里的“comments”列,将读取文本后的情感分析结果添加到新的一列,命名为“sentiment”df["sentiment"] = df['评论'].apply(get_sentiment_cn)# print(df)# 储存为表格。df.to_excel('Jiagu情感分析原始结果_京东.xlsx')if __name__ == "__main__":jiagu_cal(baseHandle.get_file_abspath('语料库_京东_5000条评论.xlsx'))

最终输出【Jiagu情感分析原始结果_京东.xlsx】文件如下:

每条评论都给安排了一个情感值~

③ xx 关键词匹配

以物流关键词词库为例,将每个关键词的情感值计算出来,本文的计算逻辑:统计该关键词在多少条评论中存在,若存在,则这些评论的情感值加和。

步骤如下:

  1. 读取物流关键词词库
  2. 统计每个关键词的情感值大小
  3. 生成【jiagu情感分析匹配结果_京东.xlsx】文件
import pandas as pd
import jiagu
from base_handle import BaseHandle  # 引入工具类baseHandle = BaseHandle()  # 实例化def match_words_jiagu():'''匹配关键词和情感分析结果'''words = baseHandle.logistics_listitems = []for word in words:row = handle_senti_result(word, "评论", "情感值")row.insert(0, word)items.append(row)dt = pd.DataFrame(items, columns=['关键词', '评论数量', '好评率', '情感值方差', '情感均值', '情感中值'])dt.to_excel("jiagu情感分析匹配结果_京东.xlsx")def handle_senti_result(word, col1, col2):'''子方法—统计每个关键词的情感值大小'''df = pd.read_excel('Jiagu情感分析原始结果_京东.xlsx', sheet_name='Sheet1')b1 = []b2 = []for i in range(len(df)):comment = df.loc[i, col1]if word in comment:  # 判断关键词是否存在于某个字符串(str)中a1 = df.loc[i, col1]a2 = df.loc[i, col2]if not a1 in b1:  # col1:评论,col2:情感值,去掉重复的评论,也可不去掉b1.append(a1)b2.append(a2)else:continueelse:continuef1 = pd.DataFrame(columns=['评论', '情感值'])f1['评论'] = b1f1['情感值'] = b2# print('分值之和:',f1['情感值'].sum())seti = f1['情感值']# 一些列数据row = [seti.count(), f1[seti >= 0.6]['情感值'].count() / seti.count(),seti.var(), seti.mean(), seti.median()]return rowif __name__ == "__main__":match_words_jiagu()

最终输出【jiagu情感分析匹配结果_京东.xlsx】文件如下:

如图,得到了每个关键词的情感分析详细数据,那么就可以拿这些数据来做些其他事情了~

2 XX评价体系结合情感分析

以物流评价体系为例,结合 TF-IDFJiagu 情感分析结果(本文只采用了它的情感均值)

如图:

这是一个比较粗略的统计结果,可以展示各维度他的重要程度以及情感值(或者说评分大小),不要忘了语料来自于网上在线评论。

以上还可以做更多研究,希望给大家提供帮助。因为毕业论文用到了这些技术,所以想着总结一下,最近终于有空把它更完了,纪念一下学生时代~

这篇关于【NLP论文】03 基于 jiagu 的情感分析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/560130

相关文章

Springboot请求和响应相关注解及使用场景分析

《Springboot请求和响应相关注解及使用场景分析》本文介绍了SpringBoot中用于处理HTTP请求和构建HTTP响应的常用注解,包括@RequestMapping、@RequestParam... 目录1. 请求处理注解@RequestMapping@GetMapping, @PostMappin

Spring Boot Interceptor的原理、配置、顺序控制及与Filter的关键区别对比分析

《SpringBootInterceptor的原理、配置、顺序控制及与Filter的关键区别对比分析》本文主要介绍了SpringBoot中的拦截器(Interceptor)及其与过滤器(Filt... 目录前言一、核心功能二、拦截器的实现2.1 定义自定义拦截器2.2 注册拦截器三、多拦截器的执行顺序四、过

C++ scoped_ptr 和 unique_ptr对比分析

《C++scoped_ptr和unique_ptr对比分析》本文介绍了C++中的`scoped_ptr`和`unique_ptr`,详细比较了它们的特性、使用场景以及现代C++推荐的使用`uni... 目录1. scoped_ptr基本特性主要特点2. unique_ptr基本用法3. 主要区别对比4. u

Nginx内置变量应用场景分析

《Nginx内置变量应用场景分析》Nginx内置变量速查表,涵盖请求URI、客户端信息、服务器信息、文件路径、响应与性能等类别,这篇文章给大家介绍Nginx内置变量应用场景分析,感兴趣的朋友跟随小编一... 目录1. Nginx 内置变量速查表2. 核心变量详解与应用场景3. 实际应用举例4. 注意事项Ng

Java多种文件复制方式以及效率对比分析

《Java多种文件复制方式以及效率对比分析》本文总结了Java复制文件的多种方式,包括传统的字节流、字符流、NIO系列、第三方包中的FileUtils等,并提供了不同方式的效率比较,同时,还介绍了遍历... 目录1 背景2 概述3 遍历3.1listFiles()3.2list()3.3org.codeha

Nginx分布式部署流程分析

《Nginx分布式部署流程分析》文章介绍Nginx在分布式部署中的反向代理和负载均衡作用,用于分发请求、减轻服务器压力及解决session共享问题,涵盖配置方法、策略及Java项目应用,并提及分布式事... 目录分布式部署NginxJava中的代理代理分为正向代理和反向代理正向代理反向代理Nginx应用场景

Redis中的有序集合zset从使用到原理分析

《Redis中的有序集合zset从使用到原理分析》Redis有序集合(zset)是字符串与分值的有序映射,通过跳跃表和哈希表结合实现高效有序性管理,适用于排行榜、延迟队列等场景,其时间复杂度低,内存占... 目录开篇:排行榜背后的秘密一、zset的基本使用1.1 常用命令1.2 Java客户端示例二、zse

Redis中的AOF原理及分析

《Redis中的AOF原理及分析》Redis的AOF通过记录所有写操作命令实现持久化,支持always/everysec/no三种同步策略,重写机制优化文件体积,与RDB结合可平衡数据安全与恢复效率... 目录开篇:从日记本到AOF一、AOF的基本执行流程1. 命令执行与记录2. AOF重写机制二、AOF的

MyBatis Plus大数据量查询慢原因分析及解决

《MyBatisPlus大数据量查询慢原因分析及解决》大数据量查询慢常因全表扫描、分页不当、索引缺失、内存占用高及ORM开销,优化措施包括分页查询、流式读取、SQL优化、批处理、多数据源、结果集二次... 目录大数据量查询慢的常见原因优化方案高级方案配置调优监控与诊断总结大数据量查询慢的常见原因MyBAT

分析 Java Stream 的 peek使用实践与副作用处理方案

《分析JavaStream的peek使用实践与副作用处理方案》StreamAPI的peek操作是中间操作,用于观察元素但不终止流,其副作用风险包括线程安全、顺序混乱及性能问题,合理使用场景有限... 目录一、peek 操作的本质:有状态的中间操作二、副作用的定义与风险场景1. 并行流下的线程安全问题2. 顺