IJCNLP2015-Weakly Supervised Models of Aspect-Sentiment for Online Course Discussion Forums阅读笔记

本文主要是介绍IJCNLP2015-Weakly Supervised Models of Aspect-Sentiment for Online Course Discussion Forums阅读笔记,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

这篇文章的启发主要是aspect和sentiment之间的联系可以设置一些规则实现。

 

Abstract 

大量开放的在线课程 (MOOCs) 正在重新定义教育系统, 超越传统课程所构成的界限。随着在线课程的普及程度的提高, 理解和解释课程参与者的沟通需要相应的增加。在在线课程论坛帖子中确定谈话的主题或内容并推断情绪, 可以使教师干预能够满足学生的需要, 迅速解决与课程相关的问题, 并提高学生的保留能力。标记的aspect-MOOCs 的情绪数据是昂贵的获取和可能无法在课程之间转移, 表明需要不需要标签的数据的方法 。我们在在线课程中建立了一个弱监督的 aspect-sentiment 连接模型, 用最近开发的可伸缩类的统计关系模型 (称为铰链损耗马尔科夫随机场) 建模了各个方面和情绪之间的依赖性。我们在十二个在线课程的样本上验证我们的模型, 每一个都包含1万个帖子, 并证明与情绪共同建模方面提高了预测的准确性, 为方面和情绪。

 

Introduction 

由于以下几个原因, 自动识别这些报告的问题很重要:

  1. 在 MOOCs 中, 由于教师和学生 比例偏高, 教师手动筛选所有帖子是很耗时的,
  2.  迅速解决问题, 可以帮助提高学生的留存率,
  3. 今后的课程迭代可以从确定学生目前面临的技术和后勤问题中获益。本文研究了确定帖子的细粒度主题的问题 (我们称之为 "MOOC"的aspect) 和对他们的看法, 这可能会被用来改进课程。

 

 

目前的困境:

  1. 可能只有5-10%的帖子和aspect有关
  2. 标签标注花费太大,并且数据被私有化难以获取

 

我们设计了一个弱监督系统来决定帖子的aspect和sentiment。我们的系统能通过微小的修改或者不用修改,就能适用于所有MOOC论坛。贡献主要为以下几点:

  1. 我们展示了怎么在有种子词的情况下编码弱监督,用SeededLDA -一个变化的种子主题模型(Jagarlamudi et al., 2012 )来抽取MOOC中特殊课程的特征。
  2. SeededLDA 的基础上,我们提出了aspect和sentiment 的共同模型,使用hinge-loss Markov random field (HL-MRF) 概率建模框架。这个框架十分适合这个问题,因为他能从多个特征和aspect sentiment 的共同推论中组合信息
  3. 为了证实我们的系统的有效性,我们通过抽取12个MOOC课程的帖子构建了一个有标签的评估数据集,并且对这些帖子的细粒度aspect 和sentiment进行外包标注。这些标注捕获了细粒度的课程aspect,比如内容,等级,截止日,音频视频。以及在帖子中对于这些aspect的情感(i.e., positive, negative, and neutral)
  4. 我们表明了HL-MRF 在预测细粒度aspect和sentiment上性能优于仅仅使用SeededLDA 。

 

Related Work 

据我们所知, 在 MOOC 论坛中预测方面和情绪的问题尚未在文献中得到讨论。我们在这里回顾了相关领域的前期工作

Aspect-Sentiment in Online Reviews 

在线评论的aspect情绪识别是很有价值的,比如酒店清洁度和手机屏幕亮度等, 在这一背景下广泛研究了这方面的情绪分析 (Liu and Zhang, 2012 )。这些方法中有几个使用潜在的分配主题模型 (Blei et al., 2003 ) 和它的变体用于检测方面和情绪 (Lu et al.,2011; Lin and He, 2009 )。刘和张 (2012) 提供了对方面和情绪分析技术的全面调查。在这里, 我们讨论与我们密切相关的作品。

蒂托夫和麦当劳 (2008) 强调了一种无监督的角度检测方法的重要性。然而, 作者还表示, 标准的 LDA (Blei 等, 2003) 方法捕获全局主题, 而不是必要的相关aspect-这是我们在这项工作中解决的一个挑战。布罗迪和 Elhadad (2010), 蒂托夫和麦当劳 (2008), 和乔和 Oh (2011) 应用LDA 的变化, 在句子水平上的在线评论。我们发现, 大约90% 的 MOOC 职位只有一个方面, 这使得句子级方面建模不适合我们的领域。

以前大多数的情绪方法都依赖于人工构造的词汇强正负词典 (Fahrni and Klenner, 2008;Brody and Elhadad, 2010) 。这些方法在在线审查环境中是有效的, 然而 MOOC 论坛帖子中的情绪往往是隐含的, 并不一定是标准词汇所表明的。例如, 帖子 "我的证书在哪里?已经等待一个多月”. 对证书方面表示消极情绪, 但不包括任何典型的负面情绪词。在我们的工作中, 我们使用基于数据驱动模型的方法来发现由小套种子词引导的特定领域的词汇信息。

此外, 还进行了关于方面和情绪的联合模式的实质性工作 ((Kim et al., 2013;
Diao et al., 2014; Zhao et al., 2010; Lin et al.,2012) , 我们采取这样的方法在本文中。Kim 等人 (2013) 使用分层 aspect-sentiment 模型, 并对其进行在线评论评估。Mukherjee and Liu (2012)  使用种子词来发现基于方面的情绪主题。借鉴Mukherjee and Liu (2012) 、Kim et al. (2013)  的思想, 我们提出了一种结合种子词、aspect hierarchy 和flat aspect-sentiment relationships 的统计关系学习方法。值得注意的是, 以往关于方面情绪的大部分工作都侧重于在线审查数据的具体挑战。如上所述, MOOC 论坛数据有极大的不同的属性, 我们的方法是第一个特别为这个领域设计

 

 

Problem Setting and Data 

我们将这个任务形式化为一个aspect-sentiment 预测问题(Liu and Zhang, 2012). 任务是预测每个帖子的这些方面, 以及情绪极性朝向的方面, 我们代码为积极的, 消极的, 或中性的

 在我们的工作中, 我们假定一个帖子最多有一个细粒度的方面, 因为我们发现, 我们的数据中有90% 的帖子是这样的。这一属性的部分原因是论坛帖子的简短, 这些文档比其他方面所考虑的文件要短得多-情绪场景, 如产品评论

为了本研究的目的, 我们用两层次的层次结构来表示 MOOC 方面。我们确定了九个细粒度方面的列表, 这些方面分为四个粗题。粗糙的方面包括演讲、测验、证书和社会主题(LECTURE, QUIZ, CERTIFICATE, and SOCIAL topics.)。表2提供了每个方面的说明, 并给出了注释后每个方面类别中的帖子数

 

 

 

Dataset 

我们通过从 MOOC 课程中抽取帖子来构建数据集, 以捕获在线课程中讨论的各个方面。我们包括来自不同学科 (商业、技术、历史和科学) 的课程, 以确保对各个方面的广泛报道。尽管我们采用了不需要标记数据进行培训的方法, 这对于大多数实际的 MOOC 场景来说是非常重要的, 为了验证我们的方法, 我们使用 Crowdflower,1 在线众包注释平台来获取取样帖子的标签。平台。每个帖子至少3个注释者。Crowdflower 通过计算注释器使用测试问题的信任分数来计算对标签的confidence 。Kolhatkar et al. (2013)  详细分析了 Crowdflower 信任计算以及与注释器协议之间的关系。我们遵循他们的建议, 并只在confidence > 0.5 时保留标签

 

Aspect-Sentiment Prediction Models 

在这一节中, 我们开发模型和特征抽取技术来解决 MOOC 论坛方面的观点预测的挑战。我们提出了两种弱监督的方法

首先, 使用一个种子主题建模方法 (Jagarlamudi 等, 2012), 以确定方面和情绪。其次, 在这一方法的基础上, 我们引入了一个更强大的统计关系模型, 它的原因是种子的 LDA 预测, 以及情绪侧信息编码层次信息和关系之间的情绪和方面

Seeded LDA Model 

通过将主题 (即离散分布) 等同于词, 以方面和/或情绪极性, 主题模型可以恢复方面-情绪预测。在 MOOC 上下文中, 我们特别关注课程的问题, 而不是主题模型可以识别的一般主题, 例如课程材料的主题。为了指导主题模型, 以确定感兴趣的方面, 我们使用 SeededLDA (Jagarlamudi 等, 2012), 一个变体的 LDA, 允许分析师 "种子" 主题, 通过提供关键字, 应该属于主题。

我们通过为表2的纵横层次结构中的每个粗和细方面提供一组种子词来构造 SeededLDA 模型。我们也为积极的, 消极的和中性的情绪极性种子主题。粗主题的种子词在表3中提供, 表4中的精细方面。对于情感主题 (表 5), 主题的种子词是积极的词经常发现在网上课程, 如感谢, 祝贺, 学习和兴趣。同样, 负面话题的种子词在在线课程中是否定的, 如困难、错误、问题、问题和误解

此外, 我们还使用 SeededLDA 来隔离与情绪相关的在线课程中的一些常见问题, 如表6所述, 教学大纲中的困难、可用性、正确性和课程特定的种子词。最后, 从数据集推断出了 SeededLDA 模型, 对于每个 post p, 我们预测最可能的方面和最可能的情绪极性根据帖子的推断分布的主题θ (p)

在我们的实验中, 我们使用 NLTK 工具包 (Loper and Bird, 2002) 来标记化和使用停用词调整这些帖子, 并使用一个可调到在线课程讨论论坛的 stop 单词列表。主题模型 hyperparameters 被设置为α = 0.01, β = 0.01 在我们的实验中。对于与表3、4和5中的种子集相对应的 SeededLDA 模型, 主题的数目等于种子主题的数目。对于与表6和3中的种子词相对应的 SeededLDA 模型, 我们使用10主题, 允许某些非种子选手主题不被种子词捕获

 

 

Joint Aspect-Sentiment Prediction using Probabilistic Soft Logic (PSL-Joint) 

在本节中, 我们描述了我们在在线论坛中预测方面和情绪的联合方法, 利用了方面和情绪之间的强烈依赖性。我们提出了一个系统设计使用依据这一, 它结合了不同的特点, 核算各自的不确定性, 并编码的依赖关系之间的方面和情绪在 MOOC 上下文中

表7提供了我们的模型中的一些具有代表性的规则. 2 规则可以分为两个广泛的 categories—1) 规则, 结合多个功能和 2) 规则, 编码的依赖关系的方面和情绪

Encoding Dependencies Between Aspect and Sentiment 

除了结合特征, 我们还编码规则, 以捕获粗糙和精细方面的分类依赖性, 以及方面和情绪之间的依赖性 (表 7, 底部)。规则4和5分别对细微方面和情感之间的相互依赖性、粗性和细微性进行了编码。规则4使用 SeededLDA 值进行测验-最后期限可以共同预测情绪和细微方面。这连同其他的规则, 以预测情绪和 FINEASPECT 单独产生一个约束的满意问题, 迫使方面和情绪达成一致。规则5与规则4相似, 捕获目标变量粗和精细方面的分类关系。因此, 通过使用连词组合特征和适当地加权这些规则, 我们解释了底层特征的不确定性, 使它们更加健壮。这两种不同类型的加权规则结合在一起, 被称为 "作为" 的 "混合体", 能够共同解释方面和情绪

 

这篇关于IJCNLP2015-Weakly Supervised Models of Aspect-Sentiment for Online Course Discussion Forums阅读笔记的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/552341

相关文章

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

数学建模笔记—— 非线性规划

数学建模笔记—— 非线性规划 非线性规划1. 模型原理1.1 非线性规划的标准型1.2 非线性规划求解的Matlab函数 2. 典型例题3. matlab代码求解3.1 例1 一个简单示例3.2 例2 选址问题1. 第一问 线性规划2. 第二问 非线性规划 非线性规划 非线性规划是一种求解目标函数或约束条件中有一个或几个非线性函数的最优化问题的方法。运筹学的一个重要分支。2

【C++学习笔记 20】C++中的智能指针

智能指针的功能 在上一篇笔记提到了在栈和堆上创建变量的区别,使用new关键字创建变量时,需要搭配delete关键字销毁变量。而智能指针的作用就是调用new分配内存时,不必自己去调用delete,甚至不用调用new。 智能指针实际上就是对原始指针的包装。 unique_ptr 最简单的智能指针,是一种作用域指针,意思是当指针超出该作用域时,会自动调用delete。它名为unique的原因是这个

查看提交历史 —— Git 学习笔记 11

查看提交历史 查看提交历史 不带任何选项的git log-p选项--stat 选项--pretty=oneline选项--pretty=format选项git log常用选项列表参考资料 在提交了若干更新,又或者克隆了某个项目之后,你也许想回顾下提交历史。 完成这个任务最简单而又有效的 工具是 git log 命令。 接下来的例子会用一个用于演示的 simplegit

记录每次更新到仓库 —— Git 学习笔记 10

记录每次更新到仓库 文章目录 文件的状态三个区域检查当前文件状态跟踪新文件取消跟踪(un-tracking)文件重新跟踪(re-tracking)文件暂存已修改文件忽略某些文件查看已暂存和未暂存的修改提交更新跳过暂存区删除文件移动文件参考资料 咱们接着很多天以前的 取得Git仓库 这篇文章继续说。 文件的状态 不管是通过哪种方法,现在我们已经有了一个仓库,并从这个仓

忽略某些文件 —— Git 学习笔记 05

忽略某些文件 忽略某些文件 通过.gitignore文件其他规则源如何选择规则源参考资料 对于某些文件,我们不希望把它们纳入 Git 的管理,也不希望它们总出现在未跟踪文件列表。通常它们都是些自动生成的文件,比如日志文件、编译过程中创建的临时文件等。 通过.gitignore文件 假设我们要忽略 lib.a 文件,那我们可以在 lib.a 所在目录下创建一个名为 .gi