对商品评论进行文本分析(NLP)的实战项目

2024-08-21 08:20

本文主要是介绍对商品评论进行文本分析(NLP)的实战项目,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文本分析技术是指使用计算机程序或算法处理、分析和理解文本数据的一系列方法。这种技术在自然语言处理(NLP)领域中非常重要,它可以应用于多种场景,包括但不限于情感分析、主题识别、信息提取、文本分类等。以下是一些常见的文本分析技术和方法:

1. 分词(Tokenization):
   - 将文本分割成单独的词汇或短语,这是文本处理的第一步。

2. 词性标注(Part-of-Speech Tagging):
   - 识别文本中每个词汇的词性,如名词、动词、形容词等。

3. 句法分析(Parsing):
   - 理解句子的语法结构,包括短语结构和依存关系。

4. 情感分析(Sentiment Analysis):
   - 判断文本的情感倾向,如正面、负面或中性。

5. 主题建模(Topic Modeling):
   - 识别文本集合中的主题分布,常用于文档聚类和探索性数据分析。

6. 文本分类(Text Classification):
   - 将文本分配到一个或多个类别中,如垃圾邮件检测、新闻分类等。

7. 命名实体识别(Named Entity Recognition, NER):
   - 识别文本中的特定实体,如人名、地点、组织等。

8. 链接识别(Entity Linking):
   - 将文本中的实体链接到知识库中的相应条目。

9. 关键词提取(Keyword Extraction):
   - 自动提取文本中的关键词汇或短语。

10. 摘要生成(Summarization):
    - 生成文本的简短摘要,保留主要信息。

11. 语义分析(Semantic Analysis):
    - 理解文本的深层含义,包括词义消歧和句子的真正意图。

12. 机器翻译(Machine Translation):
    - 将一种语言的文本自动翻译成另一种语言。

13. 文本相似度计算(Text Similarity):
    - 计算文本之间的相似度,常用于信息检索和去重。

14. 自然语言理解(Natural Language Understanding, NLU):
    - 综合理解自然语言的意图、情感、语境等。

15. 预训练语言模型(Pretrained Language Models):
    - 使用大规模数据预训练的深度学习模型,如BERT、GPT等,用于各种NLP任务。

文本分析技术的应用非常广泛,从社交媒体监控到客户反馈分析,从自动化内容生成到智能搜索引擎,都是文本分析技术的用武之地。随着技术的发展,文本分析技术正变得越来越精准和智能,为各种行业提供数据驱动的洞察。

在这里介绍一个用于情感分析的Python库SnowNLP。SnowNLP是一个专为中文文本处理设计的Python库,它提供了包括分词、词性标注、情感分析、文本转换(简繁转换)、关键词提取、摘要生成、短语提取等多种功能。SnowNLP的核心优势在于对中文文本的处理能力,特别是情感分析功能。

SnowNLP的安装非常简单,可以通过pip命令直接安装:

pip install snownlp

或者使用这个命令:

#安装snownlp包
!pip install snownlp  -i https://pypi.tuna.tsinghua.edu.cn/simple

接下来将对关于一个包含对一个商品的3637条评论的文本数据集来进行文本分析。本文将使用jieba,snownlp,wordcloud,matplotlib等模块对文本数据进行了简要的情感分析及可视化。

数据观看和下载入口:‌​​​​‍‌‍​‬​​‍‬‍​‍⁠‬​⁠​‌​⁠​​‍‌‍​​​​‌​‌​​​​数据集_NLP - 飞书云文档 (feishu.cn)

一、情感分析

先导入数据:

import pandas as pd
data = pd.read_csv('./商品评论数据.csv')
data1 = data[['sku_id','content']]
data1.head(10)

显示数据样貌为:

from snownlp import SnowNLP
data1['emotion'] = data1['content'].apply(lambda x:SnowNLP(x).sentiments)
data1.head(10)

接下来利用先前提到的用于情感分析的Python库SnowNLP:

from snownlp import SnowNLP
data1['emotion'] = data1['content'].apply(lambda x:SnowNLP(x).sentiments)
data1.head(10)

可以得到如下结果:

情感分析的结果是一个介于0到1之间的分数,越接近1表示情感越正面,越接近0则表示情感越负面 ,因此我们可以根据情感评分筛选出积极评论和消极评论。

我们也可对这些情感评分进一步可视化:

#情感分直方图
import matplotlib.pyplot as plt
import numpy as npplt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus'] = Falsebins=np.arange(0,1.1,0.1)
plt.hist(data1['emotion'],bins,color='#4F94CD',alpha=0.9)
plt.xlim(0,1)
plt.xlabel('情感分')
plt.ylabel('数量')
plt.title('情感分直方图')plt.show()

可以得到如下的直方图:

便可得到如下结论:

  • 由直方图可见,评论内容两级分化较为严重

二、所有评论的词云图

from wordcloud import WordCloud
import jieba
w = WordCloud()
text = ''
for s in data['content']:text += s
data_cut = ' '.join(jieba.lcut(text))w = WordCloud(font_path='SimHei',stopwords=['的', '我', '了', '是', '和', '都', '就', '用'],width=2000,height=1200).generate(data_cut)
# 保存词云
w.to_file('词云图.png')
# 显示词云文件
plt.imshow(w)
plt.axis("off")
plt.show()

需要注意的是,为了运行这段代码,除了需要安装wordcloudjieba库之外,还需要安装matplotlib库来显示图片。

  • WordCloud 是一个用于生成词云的库。
  • jieba 是一个中文分词库,用于将中文文本拆分成单独的词语。
  • font_path='SimHei' 设置词云使用的字体,SimHei是一种常用的中文字体。
  • stopwords=['的', '我', '了', '是', '和', '都', '就', '用'] 设置停用词列表,这些词在生成词云时会被忽略。
  • width=2000 和 height=1200 设置生成的词云图片的宽度和高度。
  • generate(data_cut) 是根据分词后的文本数据生成词云。

以下为所有评论的词云图:

接下来我们提取其中的最常出现的前10个关键词:

#关键词top10
from jieba import analyse 
key_words = jieba.analyse.extract_tags(sentence=text, topK=10, withWeight=True, allowPOS=())
key_words

代码调用extract_tags函数来提取关键词,并带有以下参数:

  • sentence=text:要提取关键词的文本,这里使用之前拼接好的长字符串text
  • topK=10:指定提取关键词的数量,这里设置为10,表示提取出现频率最高的10个关键词。
  • withWeight=True:设置是否返回每个关键词的权重(即该关键词在文本中的出现频率),这里设置为True表示返回权重。
  • allowPOS=():这是一个可选参数,用来指定提取关键词时允许的词性。这里设置为空元组(),表示不限制词性,默认情况下会提取所有词性的关键词。

结果如下:

以上关键词显示,消费者比较在意手机的“屏幕”“拍照”“手感”等特性。

三、积极评论和消极评论的词云图

先根据第一步得出的情感评分进行分类,数值大于0.5的为积极评论,数值小于0.5的为消极评论。从而得出积极评论与消极评论占比:

#计算积极评论与消极评论各自的数目
pos = 0
neg = 0
for i in data1['emotion']:if i >= 0.5:pos += 1else:neg += 1
print('积极评论,消极评论数目分别为:',pos,neg)

得出结果为积极评论,消极评论数目分别为: 2791,846。

接下来我们对消极评论进行详细的分析:

#获取消极评论数据
data2=data1[data1['emotion']<0.5]
data2.head(10)

我们先了解消极评论数据样貌:

用与之前类似的方法得出消极评论的词云图:

#消极评论词云图
text2 = ''
for s in data2['content']:text2 += s
data_cut2 = ' '.join(jieba.lcut(text2))
w.generate(data_cut2)
image = w.to_file('消极评论词云.png')# 显示词云文件
plt.imshow(w)
plt.axis("off")
plt.show()

结果如下:

随后我们再用与之前类似的方法提取消极评论中最常出现的前10个关键词:

#消极评论关键词top10
key_words = jieba.analyse.extract_tags(sentence=text2, topK=10, withWeight=True, allowPOS=())
key_words

结果如下:

  • 消极评论关键词显示,“屏幕”“快递”“充电”是造成用户体验不佳的几个重要因素;屏幕和充电问题有可能是手机不良品率过高或快递压迫;

  • 因此平台应注重提高手机品控,降低不良品率;另外应设法提升发货,配送,派件的效率和质量。

以上就完成了对商品评论进行文本分析(NLP)的实战项目的全部流程,可以帮助了解用户使用体验,以此对平台运营提出优化建议。

点下关注,分享更多有关AI,数据分析和量化金融的实用教程和实战项目。

这篇关于对商品评论进行文本分析(NLP)的实战项目的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1092625

相关文章

SpringBoot结合Docker进行容器化处理指南

《SpringBoot结合Docker进行容器化处理指南》在当今快速发展的软件工程领域,SpringBoot和Docker已经成为现代Java开发者的必备工具,本文将深入讲解如何将一个SpringBo... 目录前言一、为什么选择 Spring Bootjavascript + docker1. 快速部署与

MySQL 多列 IN 查询之语法、性能与实战技巧(最新整理)

《MySQL多列IN查询之语法、性能与实战技巧(最新整理)》本文详解MySQL多列IN查询,对比传统OR写法,强调其简洁高效,适合批量匹配复合键,通过联合索引、分批次优化提升性能,兼容多种数据库... 目录一、基础语法:多列 IN 的两种写法1. 直接值列表2. 子查询二、对比传统 OR 的写法三、性能分析

MySQL中的LENGTH()函数用法详解与实例分析

《MySQL中的LENGTH()函数用法详解与实例分析》MySQLLENGTH()函数用于计算字符串的字节长度,区别于CHAR_LENGTH()的字符长度,适用于多字节字符集(如UTF-8)的数据验证... 目录1. LENGTH()函数的基本语法2. LENGTH()函数的返回值2.1 示例1:计算字符串

linux解压缩 xxx.jar文件进行内部操作过程

《linux解压缩xxx.jar文件进行内部操作过程》:本文主要介绍linux解压缩xxx.jar文件进行内部操作,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、解压文件二、压缩文件总结一、解压文件1、把 xxx.jar 文件放在服务器上,并进入当前目录#

SpringBoot中如何使用Assert进行断言校验

《SpringBoot中如何使用Assert进行断言校验》Java提供了内置的assert机制,而Spring框架也提供了更强大的Assert工具类来帮助开发者进行参数校验和状态检查,下... 目录前言一、Java 原生assert简介1.1 使用方式1.2 示例代码1.3 优缺点分析二、Spring Fr

Python办公自动化实战之打造智能邮件发送工具

《Python办公自动化实战之打造智能邮件发送工具》在数字化办公场景中,邮件自动化是提升工作效率的关键技能,本文将演示如何使用Python的smtplib和email库构建一个支持图文混排,多附件,多... 目录前言一、基础配置:搭建邮件发送框架1.1 邮箱服务准备1.2 核心库导入1.3 基础发送函数二、

Android kotlin中 Channel 和 Flow 的区别和选择使用场景分析

《Androidkotlin中Channel和Flow的区别和选择使用场景分析》Kotlin协程中,Flow是冷数据流,按需触发,适合响应式数据处理;Channel是热数据流,持续发送,支持... 目录一、基本概念界定FlowChannel二、核心特性对比数据生产触发条件生产与消费的关系背压处理机制生命周期

PowerShell中15个提升运维效率关键命令实战指南

《PowerShell中15个提升运维效率关键命令实战指南》作为网络安全专业人员的必备技能,PowerShell在系统管理、日志分析、威胁检测和自动化响应方面展现出强大能力,下面我们就来看看15个提升... 目录一、PowerShell在网络安全中的战略价值二、网络安全关键场景命令实战1. 系统安全基线核查

怎样通过分析GC日志来定位Java进程的内存问题

《怎样通过分析GC日志来定位Java进程的内存问题》:本文主要介绍怎样通过分析GC日志来定位Java进程的内存问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、GC 日志基础配置1. 启用详细 GC 日志2. 不同收集器的日志格式二、关键指标与分析维度1.

从原理到实战深入理解Java 断言assert

《从原理到实战深入理解Java断言assert》本文深入解析Java断言机制,涵盖语法、工作原理、启用方式及与异常的区别,推荐用于开发阶段的条件检查与状态验证,并强调生产环境应使用参数验证工具类替代... 目录深入理解 Java 断言(assert):从原理到实战引言:为什么需要断言?一、断言基础1.1 语