指代专题

反着用scaling law验证数据:群聊场景指代消歧

本文作者:白牛 我们之前开源了 LLM 群聊助手茴香豆(以下简称豆哥),它的特点是: 设计了一套拒答 pipeline,实用于群聊场景。能够有效抵抗各种文本攻击、过滤无关话题,累计面对 openmmlab 数千用户运行半年( 17 个群、7w 条群消息)。这个过程确认了 text2vec 模型更适合反着用工业级开源。除算法 pipeline 外,还实现对应的 android、web ser

指代消解类方法梳理

概念: MLM:带遮罩的语言模型 NSP:单句预测,任务包括两个输入序列 SBO:分词边界目标 1.spanBERT,2019 spanBERT是对bert从分词到文本跨度的优化,主要有两方面的优化:(1)连续随机文本跨度Span的遮罩和预测;(2)通过文本跨度Span边缘前后的词语来预测Span的含义。 spanBERT是从Token到Span文本片段的优化,可以更好的预测Span并

指代消解原理

指代,在下文采用简称或者代称来代替上文已经出现的某一词语,语言学中把这种现象叫做指代现象。 指代,是语言学中的一种语言现象,使用指代词来代替文本中已经出现的某个语言单元的表达方式。将代表同一实体的不同表述划分到一个等价集合的过程称为指代消解。指代消解在信息抽取、智能问答等任务中,具有十分重要的作用。 人称代词:【李明】怕高妈妈一人呆在家里寂寞,【他】便将家里的电视搬了过来。 指示代词:【很多人

Vue基础知识:路由的封装抽离,路由模块的封装抽离的好处是什么?,如何快速的引入组件,基于@指代src目录,从src目录出发找组件

如果将所有的路由配置都存放在main.js中,是非常有问题的,杂且乱。所以我们要将路由模块进行抽离,这样有利于:拆分模块,利于维护。大致的做法就是将路由相关的东西放到router这个文件夹的index.js中,而将来只需要将index.js导入到main.js中渲染就可以了。 具体步骤演示: 1.在src文件夹中创建router文件夹 2.在router中创建index.js 3.

Kosmos-2: 在多模态大语言模型中引入基准和指代能力

Kosmos-2: 在多模态大语言模型中引入基准和指代能力 FesianXu 20240304 at Baidu Search Team 前言 之前笔者在博文中介绍过kosmos-1模型 [1],该模型脱胎于MetaLM采用『因果语言模型作为通用任务接口』的思想,采用了多种形式的多模态数据进行训练得到。而在本文将要介绍的kosmos-2中,作者则尝试引入了基准(grounding)和

Js的$如同 sed的 java的$0 指代matcher匹配到的内容的符号

Js的$&如同 sed的& java的$0 $& 可用于Js,Vscode,RJTextEd,editplus,notepad++, 在 Vscode,RJTextEd,editplus,notepad++,等的替换中, 启用正则, 就能使 $&生效, 比如 ($&)表示给匹配到的内容加上括号 $& 可用于Js的String的replace(和replaceAll( 的第二个字符串参

实体消歧/实体统一/指代消解

1.Entity Disambiguation(实体消歧):就是把一个实体的具体意思搞明白,比如Apple,通过具体方法计算出,它是水果,还是苹果公司。 2.Entity Resolution(实体统一 ):给定两个实体,判断是否是指向同一个实体。 3.Co-reference Resolution(指代消解):就是文本里的she,he,it到底指代的什么。

NLP实践——中文指代消解方案

NLP实践——中文指代消解方案 1. 参考项目2. 数据2.1 生成conll格式2.2 生成jsonline格式 3. 训练3.1 实例化模型3.2 读取数据3.3 评估方法3.4 训练方法 4. 推理5. 总结 1. 参考项目 关于指代消解任务,有很多开源的项目和工具可以借鉴,比如spacy的基础模型,就包含了指代消解的功能,一般来讲,这些模型多是在Ontonotes 5.0

NLP实践——中文指代消解方案

NLP实践——中文指代消解方案 1. 参考项目2. 数据2.1 生成conll格式2.2 生成jsonline格式 3. 训练3.1 实例化模型3.2 读取数据3.3 评估方法3.4 训练方法 4. 推理5. 总结 1. 参考项目 关于指代消解任务,有很多开源的项目和工具可以借鉴,比如spacy的基础模型,就包含了指代消解的功能,一般来讲,这些模型多是在Ontonotes 5.0