实体库构建:大规模离线新词实体挖掘

2023-11-11 08:28

本文主要是介绍实体库构建:大规模离线新词实体挖掘,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

实体库构建:离线新词发现流程

命名体识别我们一般有两个操作:词典匹配+模型预测。

对于词典匹配来说,速度快,准确度高。但是有一个问题是由于不同人对同一个东西有不同的表达,所以OOV问题比较严重。

缓解OOV,我们可以使用模型预测增加泛化,还可以离线挖掘实体进行补充实体库。

美团在这个文章中提到了一种新词离线挖掘补充实体库的方法,我借鉴了其中的思路,并且用到了自己工作中,效果还不错。在这个文章,我主要是详细解读一下整个过程。

我们聊一下为什么需要做新词发现?

新词是什么?按照最普通的定义就是我词典中不存在的词汇都属于新词。如果按照这个思路去挖掘新词,我们一般使用两种方法:有监督和无监督。

无监督一般来说就是使用紧密度加自由度调整阈值就可以提取新词。但是这种方法有一个问题,就是你这个阈值的调整到哪里才可以,这个取决于你的召回和精确的一个平衡。

有监督的话,一个简单的思路就是序列标注做中文分词,出来的词汇不在字典中的我们就可以作为新词。

但是我们想一下这样新词出现的是什么情况?

举个最简单的例子,可能你挖掘出来的就是“爷青结”这样的词汇,确实是新词,不在我们已经有词典中,但是对于我们的实体库有没有帮助呢?

有没有帮助要看我们的目的。如果说我们的目的是为了分词的准确,那么这个新词完全可以用,直接放到txt文件中,保证下回分类的准确。

但是在这里,我们是做的事情是为了补充实体库,也就是需要有意义的词汇,比如说“外滩十八号”这种词汇。

所以,普通的新词发现的有监督和无监督方法只能挖掘词汇,不能保证挖掘的是实体。

基于此目的,可以借鉴新词挖掘的思路,对词汇做二元分类判断是不是实体的有监督方法就很容易想到。

总结下来步骤就是这样:

  1. 挖掘频繁项

  2. 提取频繁项的各种统计特征

  3. 频繁项和已经有的实体交集作为正样本,负采样得到负样本。使用多个分类器进行集成,训练多个二元分类器。

采用负样本的时候,美团有提到一个论文,大家可以去看一下。

  1. 搜索日志中搜索次数比较高的词条和正样本的交集作为高质量短语,负样本减去词条作为低质量短语,使用Bert训练质量打分器。

整个流程通读下来,其实很好理解。

一般来讲,如果实践过程,第四个步骤其实很难做。

我是这样想的,首先这个美团搜索很垂直,一般搜索属于短query,你很难去在美团搜索框去搜一个很长的句子。

这种情况下,就会出顾客的搜索记录本身就是高质量的短语或者实体。想一下是不是这样,你去搜“来杯啤酒烧烤”,这本身就是个商户名称,就是个实体。所以交集才可以作为高质量短语。

如果你是个大搜的搜索日志,这种情况基本不存在的,有长短语,有短的词汇,你找交集的阈值都无从下手。

第二个难点就是Bert打分器这个东西的可靠性。一般来说实体的字数都比较少,比如五六个字,字数这么少,这个打分究竟可靠不可靠我没有实践过,只是有这个疑惑。

整个做完,还有一个问题,实体库是分类别的,比如美食有一个词典,景点有一个词典等等吧。我们上面挖掘出来的是全部的实体,不分类别的,那么怎么分类呢?

美团提到他们使用的AutoNER,大家可以去看一下相关论文。针对这一块,其实能做的思路还挺多的,由于工作原因,这块我就不说了。大家可以发散思路。

这篇关于实体库构建:大规模离线新词实体挖掘的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/388781

相关文章

一文详解如何从零构建Spring Boot Starter并实现整合

《一文详解如何从零构建SpringBootStarter并实现整合》SpringBoot是一个开源的Java基础框架,用于创建独立、生产级的基于Spring框架的应用程序,:本文主要介绍如何从... 目录一、Spring Boot Starter的核心价值二、Starter项目创建全流程2.1 项目初始化(

使用Java实现通用树形结构构建工具类

《使用Java实现通用树形结构构建工具类》这篇文章主要为大家详细介绍了如何使用Java实现通用树形结构构建工具类,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录完整代码一、设计思想与核心功能二、核心实现原理1. 数据结构准备阶段2. 循环依赖检测算法3. 树形结构构建4. 搜索子

MySQL新增字段后Java实体未更新的潜在问题与解决方案

《MySQL新增字段后Java实体未更新的潜在问题与解决方案》在Java+MySQL的开发中,我们通常使用ORM框架来映射数据库表与Java对象,但有时候,数据库表结构变更(如新增字段)后,开发人员可... 目录引言1. 问题背景:数据库与 Java 实体不同步1.1 常见场景1.2 示例代码2. 不同操作

使用Python和python-pptx构建Markdown到PowerPoint转换器

《使用Python和python-pptx构建Markdown到PowerPoint转换器》在这篇博客中,我们将深入分析一个使用Python开发的应用程序,该程序可以将Markdown文件转换为Pow... 目录引言应用概述代码结构与分析1. 类定义与初始化2. 事件处理3. Markdown 处理4. 转

Pytorch微调BERT实现命名实体识别

《Pytorch微调BERT实现命名实体识别》命名实体识别(NER)是自然语言处理(NLP)中的一项关键任务,它涉及识别和分类文本中的关键实体,BERT是一种强大的语言表示模型,在各种NLP任务中显著... 目录环境准备加载预训练BERT模型准备数据集标记与对齐微调 BERT最后总结环境准备在继续之前,确

Java使用Mail构建邮件功能的完整指南

《Java使用Mail构建邮件功能的完整指南》JavaMailAPI是一个功能强大的工具,它可以帮助开发者轻松实现邮件的发送与接收功能,本文将介绍如何使用JavaMail发送和接收邮件,希望对大家有所... 目录1、简述2、主要特点3、发送样例3.1 发送纯文本邮件3.2 发送 html 邮件3.3 发送带

Python结合Flask框架构建一个简易的远程控制系统

《Python结合Flask框架构建一个简易的远程控制系统》这篇文章主要为大家详细介绍了如何使用Python与Flask框架构建一个简易的远程控制系统,能够远程执行操作命令(如关机、重启、锁屏等),还... 目录1.概述2.功能使用系统命令执行实时屏幕监控3. BUG修复过程1. Authorization

Python依赖库的几种离线安装方法总结

《Python依赖库的几种离线安装方法总结》:本文主要介绍如何在Python中使用pip工具进行依赖库的安装和管理,包括如何导出和导入依赖包列表、如何下载和安装单个或多个库包及其依赖,以及如何指定... 目录前言一、如何copy一个python环境二、如何下载一个包及其依赖并安装三、如何导出requirem

nginx-rtmp-module构建流媒体直播服务器实战指南

《nginx-rtmp-module构建流媒体直播服务器实战指南》本文主要介绍了nginx-rtmp-module构建流媒体直播服务器实战指南,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有... 目录1. RTMP协议介绍与应用RTMP协议的原理RTMP协议的应用RTMP与现代流媒体技术的关系2

Python中构建终端应用界面利器Blessed模块的使用

《Python中构建终端应用界面利器Blessed模块的使用》Blessed库作为一个轻量级且功能强大的解决方案,开始在开发者中赢得口碑,今天,我们就一起来探索一下它是如何让终端UI开发变得轻松而高... 目录一、安装与配置:简单、快速、无障碍二、基本功能:从彩色文本到动态交互1. 显示基本内容2. 创建链