实体库构建:大规模离线新词实体挖掘

2023-11-11 08:28

本文主要是介绍实体库构建:大规模离线新词实体挖掘,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

实体库构建:离线新词发现流程

命名体识别我们一般有两个操作:词典匹配+模型预测。

对于词典匹配来说,速度快,准确度高。但是有一个问题是由于不同人对同一个东西有不同的表达,所以OOV问题比较严重。

缓解OOV,我们可以使用模型预测增加泛化,还可以离线挖掘实体进行补充实体库。

美团在这个文章中提到了一种新词离线挖掘补充实体库的方法,我借鉴了其中的思路,并且用到了自己工作中,效果还不错。在这个文章,我主要是详细解读一下整个过程。

我们聊一下为什么需要做新词发现?

新词是什么?按照最普通的定义就是我词典中不存在的词汇都属于新词。如果按照这个思路去挖掘新词,我们一般使用两种方法:有监督和无监督。

无监督一般来说就是使用紧密度加自由度调整阈值就可以提取新词。但是这种方法有一个问题,就是你这个阈值的调整到哪里才可以,这个取决于你的召回和精确的一个平衡。

有监督的话,一个简单的思路就是序列标注做中文分词,出来的词汇不在字典中的我们就可以作为新词。

但是我们想一下这样新词出现的是什么情况?

举个最简单的例子,可能你挖掘出来的就是“爷青结”这样的词汇,确实是新词,不在我们已经有词典中,但是对于我们的实体库有没有帮助呢?

有没有帮助要看我们的目的。如果说我们的目的是为了分词的准确,那么这个新词完全可以用,直接放到txt文件中,保证下回分类的准确。

但是在这里,我们是做的事情是为了补充实体库,也就是需要有意义的词汇,比如说“外滩十八号”这种词汇。

所以,普通的新词发现的有监督和无监督方法只能挖掘词汇,不能保证挖掘的是实体。

基于此目的,可以借鉴新词挖掘的思路,对词汇做二元分类判断是不是实体的有监督方法就很容易想到。

总结下来步骤就是这样:

  1. 挖掘频繁项

  2. 提取频繁项的各种统计特征

  3. 频繁项和已经有的实体交集作为正样本,负采样得到负样本。使用多个分类器进行集成,训练多个二元分类器。

采用负样本的时候,美团有提到一个论文,大家可以去看一下。

  1. 搜索日志中搜索次数比较高的词条和正样本的交集作为高质量短语,负样本减去词条作为低质量短语,使用Bert训练质量打分器。

整个流程通读下来,其实很好理解。

一般来讲,如果实践过程,第四个步骤其实很难做。

我是这样想的,首先这个美团搜索很垂直,一般搜索属于短query,你很难去在美团搜索框去搜一个很长的句子。

这种情况下,就会出顾客的搜索记录本身就是高质量的短语或者实体。想一下是不是这样,你去搜“来杯啤酒烧烤”,这本身就是个商户名称,就是个实体。所以交集才可以作为高质量短语。

如果你是个大搜的搜索日志,这种情况基本不存在的,有长短语,有短的词汇,你找交集的阈值都无从下手。

第二个难点就是Bert打分器这个东西的可靠性。一般来说实体的字数都比较少,比如五六个字,字数这么少,这个打分究竟可靠不可靠我没有实践过,只是有这个疑惑。

整个做完,还有一个问题,实体库是分类别的,比如美食有一个词典,景点有一个词典等等吧。我们上面挖掘出来的是全部的实体,不分类别的,那么怎么分类呢?

美团提到他们使用的AutoNER,大家可以去看一下相关论文。针对这一块,其实能做的思路还挺多的,由于工作原因,这块我就不说了。大家可以发散思路。

这篇关于实体库构建:大规模离线新词实体挖掘的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/388781

相关文章

嵌入式QT开发:构建高效智能的嵌入式系统

摘要: 本文深入探讨了嵌入式 QT 相关的各个方面。从 QT 框架的基础架构和核心概念出发,详细阐述了其在嵌入式环境中的优势与特点。文中分析了嵌入式 QT 的开发环境搭建过程,包括交叉编译工具链的配置等关键步骤。进一步探讨了嵌入式 QT 的界面设计与开发,涵盖了从基本控件的使用到复杂界面布局的构建。同时也深入研究了信号与槽机制在嵌入式系统中的应用,以及嵌入式 QT 与硬件设备的交互,包括输入输出设

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

maven 编译构建可以执行的jar包

💝💝💝欢迎莅临我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:「stormsha的主页」👈,「stormsha的知识库」👈持续学习,不断总结,共同进步,为了踏实,做好当下事儿~ 专栏导航 Python系列: Python面试题合集,剑指大厂Git系列: Git操作技巧GO

嵌入式Openharmony系统构建与启动详解

大家好,今天主要给大家分享一下,如何构建Openharmony子系统以及系统的启动过程分解。 第一:OpenHarmony系统构建      首先熟悉一下,构建系统是一种自动化处理工具的集合,通过将源代码文件进行一系列处理,最终生成和用户可以使用的目标文件。这里的目标文件包括静态链接库文件、动态链接库文件、可执行文件、脚本文件、配置文件等。      我们在编写hellowor

利用命令模式构建高效的手游后端架构

在现代手游开发中,后端架构的设计对于支持高并发、快速迭代和复杂游戏逻辑至关重要。命令模式作为一种行为设计模式,可以有效地解耦请求的发起者与接收者,提升系统的可维护性和扩展性。本文将深入探讨如何利用命令模式构建一个强大且灵活的手游后端架构。 1. 命令模式的概念与优势 命令模式通过将请求封装为对象,使得请求的发起者和接收者之间的耦合度降低。这种模式的主要优势包括: 解耦请求发起者与处理者

Jenkins构建Maven聚合工程,指定构建子模块

一、设置单独编译构建子模块 配置: 1、Root POM指向父pom.xml 2、Goals and options指定构建模块的参数: mvn -pl project1/project1-son -am clean package 单独构建project1-son项目以及它所依赖的其它项目。 说明: mvn clean package -pl 父级模块名/子模块名 -am参数

JAVA用最简单的方法来构建一个高可用的服务端,提升系统可用性

一、什么是提升系统的高可用性 JAVA服务端,顾名思义就是23体验网为用户提供服务的。停工时间,就是不能向用户提供服务的时间。高可用,就是系统具有高度可用性,尽量减少停工时间。如何用最简单的方法来搭建一个高效率可用的服务端JAVA呢? 停工的原因一般有: 服务器故障。例如服务器宕机,服务器网络出现问题,机房或者机架出现问题等;访问量急剧上升,导致服务器压力过大导致访问量急剧上升的原因;时间和

利用Django框架快速构建Web应用:从零到上线

随着互联网的发展,Web应用的需求日益增长,而Django作为一个高级的Python Web框架,以其强大的功能和灵活的架构,成为了众多开发者的选择。本文将指导你如何从零开始使用Django框架构建一个简单的Web应用,并将其部署到线上,让世界看到你的作品。 Django简介 Django是由Adrian Holovaty和Simon Willison于2005年开发的一个开源框架,旨在简

828华为云征文|华为云Flexus X实例docker部署rancher并构建k8s集群

828华为云征文|华为云Flexus X实例docker部署rancher并构建k8s集群 华为云最近正在举办828 B2B企业节,Flexus X实例的促销力度非常大,特别适合那些对算力性能有高要求的小伙伴。如果你有自建MySQL、Redis、Nginx等服务的需求,一定不要错过这个机会。赶紧去看看吧! 什么是华为云Flexus X实例 华为云Flexus X实例云服务是新一代开箱即用、体

构建高性能WEB之HTTP首部优化

0x00 前言 在讨论浏览器优化之前,首先我们先分析下从客户端发起一个HTTP请求到用户接收到响应之间,都发生了什么?知己知彼,才能百战不殆。这也是作为一个WEB开发者,为什么一定要深入学习TCP/IP等网络知识。 0x01 到底发生什么了? 当用户发起一个HTTP请求时,首先客户端将与服务端之间建立TCP连接,成功建立连接后,服务端将对请求进行处理,并对客户端做出响应,响应内容一般包括响应