机器阅读理解Machine Reading Comprehension（MRC）基本介绍

2024-01-26 12:20

文章标签 介绍机器理解基本阅读 machine comprehension mrc reading

本文主要是介绍机器阅读理解Machine Reading Comprehension（MRC）基本介绍，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

文章目录

NLP相关任务的基本流程
MRC四大任务
各任务相关数据集
机器阅读理解架构及方法
总体架构
评测指标

NLP相关任务的基本流程

文本预处理：

去除冗余字符标记（正则表达式）
分词（jieba）
单词处理（英文：大写->小写，单词还原，同义词扩展）
去除停用词
保护词应用于分词模块：开课吧，后厂理工学院
同义词用于分词后的语料扩展：扩展->扩充
停止词用于去除干扰信息，提取主要信息：的，么，了……

MRC四大任务

完形填空：原文中除去若干关键词，需要模型填入正确的单词或短语。

多项选择：模型需要从给定的若干选项中选出正确答案

答案抽取：回答限定是文章的一个子句，需要模型在文章中标注正确答案的起始和终止位置。

自由回答：不限定模型生成答案的形式，允许模型自由生产数据

各任务相关数据集

完形填空：
- CNN&Daily Mail
- CBT
单项选择
- MC Test
- RACE
答案抽取：
- SQuAD
- NewsQA
自由回答：
- MS MARCO
- DuReader2.0（10w可回答问题 +5w无答案问题）数据集在设计无答案的问题，就是看模型是否真的理解了问题，而不是单纯的匹配。
  - http://ai.baidu.com/broad/download?dataset=dureader
  - https://aistudio.baidu.com/aistudio/competition/detail/28

机器阅读理解架构及方法

特征+传统机器学习
BERT以前：各种神奇的QA架构
BERT以后：预训练+微调+trick

总体架构

最重要的模块是：Context-Query Interaction

评测指标

Accuracy：一共m个问题答对了n个

F1

Rouge-L：

最长公共子序列LCS，X为目标，Y为模型，m为标准答案的单词个数，n为模型答案的单词个数。 $\beta$ 一般取无穷大。所以F=R。

BLEU

示例：

candidate: the cat sat on the mat

reference: the cat is on the mat

就 $bleu_2$ 对 candidate中的5个词，{the cat，cat sat，sat on，on the，the mat} ，查找是否在reference中，发现有3个词在reference中，所以占比就是0.6

$bley_1= \frac{5}{6} = 0.83$

$bley_3= \frac{3}{5} = 0.60$

$bley_3= \frac{1}{4} = 0.25$

$bley_4= \frac{0}{3} = 0$

改进后的BLEU

https://blog.csdn.net/guolindonggld/article/details/56966200

这篇关于机器阅读理解Machine Reading Comprehension（MRC）基本介绍的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/646783。 23002807@qq.com

相关文章

redis过期key的删除策略介绍

redis过期key的删除策略介绍

《redis过期key的删除策略介绍》：本文主要介绍redis过期key的删除策略,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录第一种策略：被动删除第二种策略：定期删除第三种策略：强制删除关于big key的清理UNLINK命令FLUSHALL/FLUSHDB命

阅读更多...

MySQL 中的 LIMIT 语句及基本用法

MySQL 中的 LIMIT 语句及基本用法

《MySQL中的LIMIT语句及基本用法》LIMIT语句用于限制查询返回的行数,常用于分页查询或取部分数据,提高查询效率,：本文主要介绍MySQL中的LIMIT语句,需要的朋友可以参考下... 目录mysql 中的 LIMIT 语句1. LIMIT 语法2. LIMIT 基本用法(1) 获取前 N 行数据(

阅读更多...

深入理解Apache Kafka(分布式流处理平台)

深入理解Apache Kafka(分布式流处理平台)

《深入理解ApacheKafka(分布式流处理平台)》ApacheKafka作为现代分布式系统中的核心中间件,为构建高吞吐量、低延迟的数据管道提供了强大支持,本文将深入探讨Kafka的核心概念、架构... 目录引言一、Apache Kafka概述1.1 什么是Kafka？1.2 Kafka的核心概念二、Ka

阅读更多...

Pytest多环境切换的常见方法介绍

Pytest多环境切换的常见方法介绍

《Pytest多环境切换的常见方法介绍》Pytest作为自动化测试的主力框架,如何实现本地、测试、预发、生产环境的灵活切换,本文总结了通过pytest框架实现自由环境切换的几种方法,大家可以根据需要进... 目录1.pytest-base-url2.hooks函数3.yml和fixture结论你是否也遇到过

阅读更多...

Python Faker库基本用法详解

Python Faker库基本用法详解

《PythonFaker库基本用法详解》Faker是一个非常强大的库,适用于生成各种类型的伪随机数据,可以帮助开发者在测试、数据生成、或其他需要随机数据的场景中提高效率,本文给大家介绍PythonF... 目录安装基本用法主要功能示例代码语言和地区生成多条假数据自定义字段小结Faker 是一个 python

阅读更多...

用js控制视频播放进度基本示例代码

用js控制视频播放进度基本示例代码

《用js控制视频播放进度基本示例代码》写前端的时候,很多的时候是需要支持要网页视频播放的功能,下面这篇文章主要给大家介绍了关于用js控制视频播放进度的相关资料,文中通过代码介绍的非常详细,需要的朋友可... 目录前言html部分:JavaScript部分:注意：总结前言在javascript中控制视频播放

阅读更多...

MySQL中慢SQL优化的不同方式介绍

MySQL中慢SQL优化的不同方式介绍

《MySQL中慢SQL优化的不同方式介绍》慢SQL的优化,主要从两个方面考虑,SQL语句本身的优化,以及数据库设计的优化,下面小编就来给大家介绍一下有哪些方式可以优化慢SQL吧... 目录避免不必要的列分页优化索引优化JOIN 的优化排序优化UNION 优化慢 SQL 的优化，主要从两个方面考虑，SQL 语

阅读更多...

SpringBoot整合MybatisPlus的基本应用指南

SpringBoot整合MybatisPlus的基本应用指南

《SpringBoot整合MybatisPlus的基本应用指南》MyBatis-Plus,简称MP,是一个MyBatis的增强工具,在MyBatis的基础上只做增强不做改变,下面小编就来和大家介绍一下... 目录一、MyBATisPlus简介二、SpringBoot整合MybatisPlus1、创建数据库和

阅读更多...

C++中函数模板与类模板的简单使用及区别介绍

C++中函数模板与类模板的简单使用及区别介绍

《C++中函数模板与类模板的简单使用及区别介绍》这篇文章介绍了C++中的模板机制,包括函数模板和类模板的概念、语法和实际应用,函数模板通过类型参数实现泛型操作,而类模板允许创建可处理多种数据类型的类,... 目录一、函数模板定义语法真实示例二、类模板三、关键区别四、注意事项 ‌在C++中，模板是实现泛型编程

阅读更多...

Python实现html转png的完美方案介绍

Python实现html转png的完美方案介绍

《Python实现html转png的完美方案介绍》这篇文章主要为大家详细介绍了如何使用Python实现html转png功能,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 1.增强稳定性与错误处理建议使用三层异常捕获结构：try: with sync_playwright(

阅读更多...