从应用创新的角度再论语义表示

2023-10-10 11:20

本文主要是介绍从应用创新的角度再论语义表示,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

从应用创新的角度再论语义表示

 author:XueQiang Tong  mail:niurenai@outlook.com  v:txq130 

先引入一个例子:

  bush这个词有灌木丛和总统两个意思。给你一句话,如果其中含有bush这个词,如何判断他的语义?

  这是一个经典又古老的nlp话题。解决他的方案,有很多。其中有一个方案是这样的:在计算bush的上下文与标注语料中出现bush句子的上下文的相似度,如果与总统的上下文相似度高,就是总统的意思,如果与灌木丛的上下文相似度高,就是灌木丛的意思。这个方案最大的特点是计算语义的上下文,这是语义消歧,除此之外,汉语中有很多同义词,反义词和近义词,衡量他们的最好办法仍然是上下文。那么在汉语中,会有如下的情况:①相同语境下出现不同的词②不同的语境下出现相同的词,这两种情况在语料中是大量存在的。稍后深入讨论这两种情况对语义表示的影响。

  本文要讨论的是,从w2v的核心思想入手,探讨他的语义表示在前面提到的两种情景下会有什么问题,如何改进然后迁移到句子或者短语语义表示。

  上面提到了通过计算上下文相似度来解决语义问题。那么问题来了,我们可不可以把上下文的信息融合到词本身,这样就可以直接衡量词的差异了。也就是,用一个稠密的向量(相对于one-hot)把词本身,语义信息和上下文信息压缩起来,用以解决此的语义问题。在nlp中,解决语义问题的核心是语言模型,有了语言模型就可以抽象出数学模型。这个问题的语言模型是:相同语境出现的词语义相近。举例子:现有一句话由以下词构成:ABCDE。现在要用一个稠密向量表示C的语义,把他的上下文A、B与D、E融合进来,也就是这样一个数学公式:A + B + D + E = C。这个公式是一个最简单的加法,但是要转化成机器学习的数学模型才能解决问题,这个公式的含义就是输入上下文,输出词分类,是个分类模型,当然也可以倒过来。构建这样一个分类模型,从中我们要得到词的语义表示,这是一个variable,同时还要有分类输出层的参数thelta,一共两个variable。那么,这两个变量应该是什么关系才能满足上述语言模型,也就是保证C的上下文是A,B,D,E的前提下获取到他的语义表示?很显然,这个过程中,两个参数绝非是独立的,必须相互决定相互影响才能满足这个需求。首先获取词的语义表示变量,获取之后进入到分类层,让着两个参数是互为对称的关系。于是,我们想到,用神经网络抽取到词的高阶语义表示,然后进行激活,把激活值的输出作为分类层的输入,完成模型的构建。说白了,就是现在有一个稠密语义表示的矩阵,这个矩阵就相当于词典,最初的时候每个词用one-hot表示,拿到这个one-hot后,到稠密词典中进行查找,找到对应的稠密向量表示,然后去做分类映射,这是基本的想法。查找的过程属于典型的矩阵操作(请体会矩阵的本质,以及矩阵分解的意义),这个过程其实是一层神经网络的操作,然后用y = x激活。

  上面的思考过程很重要。w2v的CBOW和Skip_Gram是两个非常经典的语言模型。关于他的优化及推导不做具体论述了,比较简单,现在回归本文的正题。之前做过siamese lstm的实验,主要用以解决句子语义相似度的计算,这个方案是2015年提出的,获得了很高的准确率。但是缺点也很明显,人工构建语料比较复杂,而且准确率难以确定。监督学习给企业应用带来不小的困扰,探索非监督学习用以解决句子或者短语的语义表示是一个很重要的尝试。因为之前word2vector在词语义表示上已经很成功了,所以没有必要推倒了重来,我们要做的是在此基础之上探索。为了探索w2v的语义表示问题,我们不妨从一个经典古老的话题开始:TF-IDF。在深度学习没有出现之前,他在特征词抽取上占据主导位置,包括lucene底层的文档打分也用到他。那么他有什么闪光点吗?在深度学习产生后他是不是没用了呢?这个方法认为,如果一个词在一篇文章中出现的频率高,那么他就是重要的,同时如果有多篇文章都出现了这个词,那么他又是不那么重要了。事实上,IDF的推导是由朴素贝叶斯简化来的,也可以用信息熵来理解他,就是平均信息量。现在来探讨前面提到的两种情景。用w2v训练词嵌入时,因为他是机器学习模型,有过经验的人都知道,在机器学习模型训练中会存在数据倾斜问题。什么意思呢?以垂直搜索的文档机器学习排序为例,在listwise产生之前,占据主导的是pairwise,比如用SVM转化为二分类问题,结果就转化为了文档对儿的分类。由于不同的文档集合文档对儿数量不一样,多的会对模型训练贡献大,预测时会出现数据倾斜。那么在w2v训练时同样存在这样的数据倾斜问题。①相同语境下出现不同的词。比如在训练语料中,上下文A,B,D,E,中间的词C,出现了100次,而同样的上下文情况下,中间的词F,只出现数次,那么在训练时C的语义表示会比F要稠密一些,会与相同的上下文联系更加紧密。但是,在汉语中,有很对类似于英文中的and,but,no等词,而且出现的频率很高,这些词对句子的语义贡献是无意义的,于是训练出来的语义表示会倾向于语义无意义方向。另外,相同的语境下出现的不同的词,用VSM来解释的话,应该是近义词,位于一个象限内。这样汉语中众多的词,在VSM中会汇聚成不同的簇,就像聚类一样。那么问题有来了,如果一个词有多个含义,如何表示歧义词的语义?目前的word2vector在这方面有没有问题呢,答案是有的。熟悉聚类算法的人都知道,除了kmeans还有高斯混合聚类。他们俩的区别可以这样说,前者的归类是hard,后者是soft,那么解决歧义词的语义表示,应该让他具备多重语义,也就是应该与多个上下文重叠。这个今年已经有学者改进了。②不同的语境下出现相同的词,out of context情况。如果要预测的词的上下文在训练语料中从来没有出现过,此时的预测与上下文显然是违和的。

  上面提到的两个问题,已经有了解决方案,之所以关注这些问题,是为了解决句子语义表示的非监督学习。对于每一个句子都有一个隐含的句子嵌入表示,以这个语义表示为中心,他会影响句子中每个词的分布。也就是我们应该找到一种解决办法,让这些词的语义表示,通过某种方式,比如加权求和之后得到最终的语义表示,与这个隐含的句子语义表示最接近,有点儿接近非监督学习的思想了吧。前面提到了TF-IDF的思想,这里很容易让人联想到:把每个句子看成文档,每个句子不允许重复词的情况。2017年学者提出了对w2v训练出的词嵌入进行平滑处理以及出去第一主成分的方案来解决句子向量。针对out of context的情况主要用平滑来解决,针对语义倾斜问题用去除第一主成分来解决。总结起来,这个方案就是:

  

  这个方案出来后,让人很吃惊,竟然这么简单而且超越了之前的siamese lstm,最大的特点是非监督学习。但是任何算法都有局限性,这个方案用在情感分析中是有问题的,因为and,but,no等词在情感分析中是有意义的。原论文连接地址:https://translate.googleusercontent.com/translate_c?depth=1&hl=zh-CN&prev=search&rurl=translate.google.de&sl=en&sp=nmt4&u=https://openreview.net/pdf%3Fid%3DSyK00v5xx&usg=ALkJrhj3hLRTIvvsJmVZz2lRkOljjVNSeA#11

  另外,文章或者段落的语义表示,这个方案也是有局限的。获取到每个句子向量后,不可能粗糙地累加起来,因为这不符合人脑神经元对于阅读文字的机制。本人认为最符合的模型应该是attention model。因为人在阅读一篇文章时,顺序地从第一句话开始往后阅读,首先记忆是逐渐消失的,但是有部分重要的词会形成记忆,其余的忽略掉,这些重要的词不断汇集,在这个过程中不断揣摩文章的中心思想,当遇到中心句时我们会比较他的上下文与中心句的关联程度,如果大的话,就认为他是中心句,就是这样的不断搜索的过程。而这个过程的解决方案,本人结合了siamese lstm和atttention model,比较符合这个机制。分别构造词级别和句子级别的两个attention model,前者重新获取每个句子的向量,后者再此基础上获取整个上下文的语义表示,然后把中心句共同引入siamese lstm中,输出相似度得分进行训练。预测时,按照上述人脑的机制,按照时间序列t,把每个句子当作中心句,用attention model获取上下文,然后计算t时刻的句子与上下文相似度,增加时间序列继续搜索,从中找出相似度最高的句子向量,这个句子就是中心句。这个过程完美地模拟了上述人脑寻找中心句的机制。

posted @ 2017-12-04 15:48 佟学强 阅读( ...) 评论( ...) 编辑 收藏

这篇关于从应用创新的角度再论语义表示的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/180090

相关文章

中文分词jieba库的使用与实景应用(一)

知识星球:https://articles.zsxq.com/id_fxvgc803qmr2.html 目录 一.定义: 精确模式(默认模式): 全模式: 搜索引擎模式: paddle 模式(基于深度学习的分词模式): 二 自定义词典 三.文本解析   调整词出现的频率 四. 关键词提取 A. 基于TF-IDF算法的关键词提取 B. 基于TextRank算法的关键词提取

水位雨量在线监测系统概述及应用介绍

在当今社会,随着科技的飞速发展,各种智能监测系统已成为保障公共安全、促进资源管理和环境保护的重要工具。其中,水位雨量在线监测系统作为自然灾害预警、水资源管理及水利工程运行的关键技术,其重要性不言而喻。 一、水位雨量在线监测系统的基本原理 水位雨量在线监测系统主要由数据采集单元、数据传输网络、数据处理中心及用户终端四大部分构成,形成了一个完整的闭环系统。 数据采集单元:这是系统的“眼睛”,

csu 1446 Problem J Modified LCS (扩展欧几里得算法的简单应用)

这是一道扩展欧几里得算法的简单应用题,这题是在湖南多校训练赛中队友ac的一道题,在比赛之后请教了队友,然后自己把它a掉 这也是自己独自做扩展欧几里得算法的题目 题意:把题意转变下就变成了:求d1*x - d2*y = f2 - f1的解,很明显用exgcd来解 下面介绍一下exgcd的一些知识点:求ax + by = c的解 一、首先求ax + by = gcd(a,b)的解 这个

hdu1394(线段树点更新的应用)

题意:求一个序列经过一定的操作得到的序列的最小逆序数 这题会用到逆序数的一个性质,在0到n-1这些数字组成的乱序排列,将第一个数字A移到最后一位,得到的逆序数为res-a+(n-a-1) 知道上面的知识点后,可以用暴力来解 代码如下: #include<iostream>#include<algorithm>#include<cstring>#include<stack>#in

zoj3820(树的直径的应用)

题意:在一颗树上找两个点,使得所有点到选择与其更近的一个点的距离的最大值最小。 思路:如果是选择一个点的话,那么点就是直径的中点。现在考虑两个点的情况,先求树的直径,再把直径最中间的边去掉,再求剩下的两个子树中直径的中点。 代码如下: #include <stdio.h>#include <string.h>#include <algorithm>#include <map>#

【区块链 + 人才服务】可信教育区块链治理系统 | FISCO BCOS应用案例

伴随着区块链技术的不断完善,其在教育信息化中的应用也在持续发展。利用区块链数据共识、不可篡改的特性, 将与教育相关的数据要素在区块链上进行存证确权,在确保数据可信的前提下,促进教育的公平、透明、开放,为教育教学质量提升赋能,实现教育数据的安全共享、高等教育体系的智慧治理。 可信教育区块链治理系统的顶层治理架构由教育部、高校、企业、学生等多方角色共同参与建设、维护,支撑教育资源共享、教学质量评估、

AI行业应用(不定期更新)

ChatPDF 可以让你上传一个 PDF 文件,然后针对这个 PDF 进行小结和提问。你可以把各种各样你要研究的分析报告交给它,快速获取到想要知道的信息。https://www.chatpdf.com/

【区块链 + 人才服务】区块链集成开发平台 | FISCO BCOS应用案例

随着区块链技术的快速发展,越来越多的企业开始将其应用于实际业务中。然而,区块链技术的专业性使得其集成开发成为一项挑战。针对此,广东中创智慧科技有限公司基于国产开源联盟链 FISCO BCOS 推出了区块链集成开发平台。该平台基于区块链技术,提供一套全面的区块链开发工具和开发环境,支持开发者快速开发和部署区块链应用。此外,该平台还可以提供一套全面的区块链开发教程和文档,帮助开发者快速上手区块链开发。

【C++高阶】C++类型转换全攻略:深入理解并高效应用

📝个人主页🌹:Eternity._ ⏩收录专栏⏪:C++ “ 登神长阶 ” 🤡往期回顾🤡:C++ 智能指针 🌹🌹期待您的关注 🌹🌹 ❀C++的类型转换 📒1. C语言中的类型转换📚2. C++强制类型转换⛰️static_cast🌞reinterpret_cast⭐const_cast🍁dynamic_cast 📜3. C++强制类型转换的原因📝

基于 YOLOv5 的积水检测系统:打造高效智能的智慧城市应用

在城市发展中,积水问题日益严重,特别是在大雨过后,积水往往会影响交通甚至威胁人们的安全。通过现代计算机视觉技术,我们能够智能化地检测和识别积水区域,减少潜在危险。本文将介绍如何使用 YOLOv5 和 PyQt5 搭建一个积水检测系统,结合深度学习和直观的图形界面,为用户提供高效的解决方案。 源码地址: PyQt5+YoloV5 实现积水检测系统 预览: 项目背景