关于情感词典计算情感倾向强度值的两种方法

2023-10-22 20:50

本文主要是介绍关于情感词典计算情感倾向强度值的两种方法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、SO-HowNet

情感倾向强度值计算公式为:


其中,Pwords代表正面情感种子词语集合,Nwords代表负面种子词语集合。


word1word2相似度就是各概念之间相似度的最大值。

计算两个义原相似度公式如下:


其中,p1,p2为两个需要计算比较的义原,Depth(p)是义原层次体系中的深度,Spd(p1,p2)表示p1p2两者在层次体系的重合度。

 

以上计算方式可以在github下载到源代码,直接调用该函数就可以计算两个单词的相似度,但是计算结果返回的值为0,即无法计算这两个词的相似度,个人理解是返回0,应该是其语义库中无法查询到该词(下载的情感词典中存在类似短语的词,或者成语,可能导致无法识别)


二、SO-PMI
在文献:


Turney使用PMI(点态互信息量)来计算两个词的相关强度


该值越大表示两个词语的相关程度就越强。

可以通过搜索引擎来计算PMI的值。一个词word的概率为搜索引擎返回hit值与总的搜索引擎返回的索引页面数比值。Word1word2共同出现的概率同样如此计算。

因此,word1word2PMI值计算为:

在实际应用中,也经常使用语料库来统计词语出现的概率。计算公式如下:


其中,df(word)表示在语料中含有词语word的文档数目,N代表为语料数据集中文档总的数目。

 

所以,一个为知情感倾向词语word的情感倾向强度值计算为:


Pwords是褒义情感种子词语的集合,Nwords是贬义情感种子的词语集合。(PwordsNwords可以取为语料数据集中hits最高的前100个词)

 

但是,在语料库中,如果一个词语出现概率较小时,可能得不到该词语的正确情感倾向。



三、情感词典分析流程

四、SO-PMI和SO-HowNet对比分析
关于SO-HowNet: 最近想通过HowNet来计算词语情感倾向强度值,但是经过不懈努力,发现词库中很多词无法计算情感倾向强度值,原因是:HowNet是董振东先生定义的一套词语知识库,里面根据语义表示了词与词的关系等信息,但是该词库是人工定义的有些词没有加入到知识库中,如“给力”,“正能量”,“坑爹”等词找不到义原。所以,如果确实要使用HowNet必须根据自己的实际工作构造自己的词语知识库,不过这个工作量相对较大,可行性不高。
关于SO-PMI:由于SO-HowNet存在以上缺点,基于统计的SO-PMI计算两个词的互信息,即计算词语在语料中出现的概率以及词语与词语在句子中同时出现的概率可用于提供计算词语倾向性的一种方法。该方法减少了人工编辑知识库的成本,完全依赖语料来决定词语的倾向性,比较有实际意义。但是该方法存在一个问题是,如果一个词出现概率比较小,可能得不到该词语的正确情感倾向。

这篇关于关于情感词典计算情感倾向强度值的两种方法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/263514

相关文章

Oracle查询优化之高效实现仅查询前10条记录的方法与实践

《Oracle查询优化之高效实现仅查询前10条记录的方法与实践》:本文主要介绍Oracle查询优化之高效实现仅查询前10条记录的相关资料,包括使用ROWNUM、ROW_NUMBER()函数、FET... 目录1. 使用 ROWNUM 查询2. 使用 ROW_NUMBER() 函数3. 使用 FETCH FI

Git中恢复已删除分支的几种方法

《Git中恢复已删除分支的几种方法》:本文主要介绍在Git中恢复已删除分支的几种方法,包括查找提交记录、恢复分支、推送恢复的分支等步骤,文中通过代码介绍的非常详细,需要的朋友可以参考下... 目录1. 恢复本地删除的分支场景方法2. 恢复远程删除的分支场景方法3. 恢复未推送的本地删除分支场景方法4. 恢复

Python将大量遥感数据的值缩放指定倍数的方法(推荐)

《Python将大量遥感数据的值缩放指定倍数的方法(推荐)》本文介绍基于Python中的gdal模块,批量读取大量多波段遥感影像文件,分别对各波段数据加以数值处理,并将所得处理后数据保存为新的遥感影像... 本文介绍基于python中的gdal模块,批量读取大量多波段遥感影像文件,分别对各波段数据加以数值处

Window Server2016加入AD域的方法步骤

《WindowServer2016加入AD域的方法步骤》:本文主要介绍WindowServer2016加入AD域的方法步骤,包括配置DNS、检测ping通、更改计算机域、输入账号密码、重启服务... 目录一、 准备条件二、配置ServerB加入ServerA的AD域(test.ly)三、查看加入AD域后的变

Window Server2016 AD域的创建的方法步骤

《WindowServer2016AD域的创建的方法步骤》本文主要介绍了WindowServer2016AD域的创建的方法步骤,文中通过图文介绍的非常详细,对大家的学习或者工作具有一定的参考学习价... 目录一、准备条件二、在ServerA服务器中常见AD域管理器:三、创建AD域,域地址为“test.ly”

NFS实现多服务器文件的共享的方法步骤

《NFS实现多服务器文件的共享的方法步骤》NFS允许网络中的计算机之间共享资源,客户端可以透明地读写远端NFS服务器上的文件,本文就来介绍一下NFS实现多服务器文件的共享的方法步骤,感兴趣的可以了解一... 目录一、简介二、部署1、准备1、服务端和客户端:安装nfs-utils2、服务端:创建共享目录3、服

Java 字符数组转字符串的常用方法

《Java字符数组转字符串的常用方法》文章总结了在Java中将字符数组转换为字符串的几种常用方法,包括使用String构造函数、String.valueOf()方法、StringBuilder以及A... 目录1. 使用String构造函数1.1 基本转换方法1.2 注意事项2. 使用String.valu

Python中使用defaultdict和Counter的方法

《Python中使用defaultdict和Counter的方法》本文深入探讨了Python中的两个强大工具——defaultdict和Counter,并详细介绍了它们的工作原理、应用场景以及在实际编... 目录引言defaultdict的深入应用什么是defaultdictdefaultdict的工作原理

使用Python进行文件读写操作的基本方法

《使用Python进行文件读写操作的基本方法》今天的内容来介绍Python中进行文件读写操作的方法,这在学习Python时是必不可少的技术点,希望可以帮助到正在学习python的小伙伴,以下是Pyth... 目录一、文件读取:二、文件写入:三、文件追加:四、文件读写的二进制模式:五、使用 json 模块读写

Oracle数据库使用 listagg去重删除重复数据的方法汇总

《Oracle数据库使用listagg去重删除重复数据的方法汇总》文章介绍了在Oracle数据库中使用LISTAGG和XMLAGG函数进行字符串聚合并去重的方法,包括去重聚合、使用XML解析和CLO... 目录案例表第一种:使用wm_concat() + distinct去重聚合第二种:使用listagg,