NLP论文阅读记录 - 2022 | WOS 一种新颖的优化的与语言无关的文本摘要技术

本文主要是介绍NLP论文阅读记录 - 2022 | WOS 一种新颖的优化的与语言无关的文本摘要技术,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 前言
  • 0、论文摘要
  • 一、Introduction
    • 1.1目标问题
    • 1.2相关的尝试
    • 1.3本文贡献
  • 二.前提
  • 三.本文方法
  • 四 实验效果
    • 4.1数据集
    • 4.2 对比模型
    • 4.3实施细节
    • 4.4评估指标
    • 4.5 实验结果
      • 4.6 细粒度分析
  • 五 总结
  • 思考


前言

在这里插入图片描述

A Novel Optimized Language-Independent Text Summarization Technique(2204)

0、论文摘要

大量文本数据以多种语言以电子方式呈现。这些文本将齿轮导向信息冗余。消除这种冗余并减少这些数据的读取时间至关重要。因此,我们需要一种计算机化的文本摘要技术来从具有相关主题的文本文档组中提取相关信息。
本文提出了一种与语言无关的提取摘要技术。所提出的技术提出了一种基于聚类的优化技术。聚类技术确定文本的主要主题,而所提出的优化技术则最大限度地减少冗余并最大化重要性。
使用英语的 BillSum 数据集、德语和俄语的 MLSUM 以及阿拉伯语的 Mawdoo3 来设计和评估实验。使用 ROUGE 指标评估实验。结果表明,与其他依赖于语言和独立于语言的摘要技术相比,所提出的技术是有效的。我们的技术为所有使用的数据集实现了更好的 ROUGE 指标。
对于使用所有三个目标的所有数据集,该技术平均实现了 Rouge-1 41.9%、Rouge-2 18.7%、Rouge-3 39.4% 和 Rouge-4 16.8% 的 F 测量。我们的系统还表现出 26.6%、35.5%、34.65% 和 31.54% w.r.t. 的改进。最近的模型在 ROUGE 度量评估方面对 BillSum 的总结做出了贡献。我们的模型的性能高于对比模型,特别是在二元匹配的 ROUGE_2 的度量结果中。

一、Introduction

1.1目标问题

大量不同语言的电子数据增加了从中挖掘有用信息的难度。人们很难阅读如此庞大的文章信息。因此,有必要采用计算机化的摘要技术来推断重要的内容。并迅速突出信息。计算机摘要技术已应用于不同领域,例如网页和在线表格。例如,[1] 中的作者建议使用文本标记提取来改善搜索结果。 [2] 中的作者提出了一种用于媒体分析的文本标记提取方法。与语言无关的摘要提取器是语言分析应用程序。它们的目标是从单个或多文本文档生成较短的文本,同时保持含义。摘要技术可以根据输入、语言、方法或输出进行分类,如图 1 所示[3,4]。可以对单个文本文档或多文本文档的输入进行摘要。在多文本文档摘要中使用一组相关的文本文档。单文本文档源不会显示不一致,但是,在多文本文档源中可能会发现冲突和冗余。因此,多文本文档源摘要比单源文本文档更困难[3-5]。此外,摘要输出可以是非特定的,讨论一个巨大的社区,也可以是基于文本标记的,强调与文本标记相关的特定主题。这对于将该技术分类为指示性过程非常重要[3,4]。
摘要过程也可以定义为提取式,其中摘要输出是通过根据语言特征和统计方面选择主要短语来生成基于加权和的解决方案[3-8]。而摘要依赖于使用自然语言处理技术分析文本语义来生成掌握源文本文档中主要思想的新短语[3,4]。摘要概要更易于理解,类似于人类所做的摘要,但它们需要对源文本有深刻的了解,并且还需要解析器和文本生成器[6,7]。深度学习和迁移学习可以用于抽象概括。深度学习通常可以产生良好的结果。提取摘要利用预定义的特征选择重要的短语。然后组合所选短语以产生摘要输出。在多文本文档中,由于从多个文本文档中挖掘短语,因此出现了冗余问题。在这种情况下必须处理冗余。此外,受限摘要需要选择最佳的摘要输出,而不是杰出的短语。因此,多文本文档摘要将导致全局优化需求[8-10]。

1.2相关的尝试

1.3本文贡献

总之,我们的贡献如下:
1.本文提出了一种与语言无关的提取摘要技术。
2.所提出的技术提出了一种基于聚类的优化技术。
3. 聚类技术确定文本的主要主题,而所提出的优化技术则最大限度地减少冗余并最大化重要性。
4. 针对不同语言设计并评估实验,以证明模型的独立特征。
5. 在英语、德语、俄语和阿拉伯语语言的数据集上进行实验。

二.前提

三.本文方法

四 实验效果

4.1数据集

4.2 对比模型

4.3实施细节

4.4评估指标

4.5 实验结果

4.6 细粒度分析


五 总结

总之,我们将多语言无关的文本摘要过程制定为目标优化过程(同时最大化多个目标)。该模型采用四个阶段:第一阶段是预处理过程,然后进行特征提取和聚类,最后一个阶段是多目标同时优化。通过标记化、停用词去除和规范化等预处理,以统一的形式对句子进行建模。选择统计特征并将其用于每个短语的重要性评分。相关文档的主题是使用质心聚类来定义的。最后一个阶段使用多目标优化进化方法生成最佳摘要,最大化重要性并最小化冗余。结果通过测量 ROUGE 指标验证了我们的模型相对于最先进模型的有效性。我们仍然有一些限制,如下:(i)句子分数是通过实验计算的,可以通过遗传算法计算,以及(ii)我们没有包括输出的一致性,我们可以将其包括到要优化的目标中。

思考

这篇关于NLP论文阅读记录 - 2022 | WOS 一种新颖的优化的与语言无关的文本摘要技术的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/607621

相关文章

C#使用HttpClient进行Post请求出现超时问题的解决及优化

《C#使用HttpClient进行Post请求出现超时问题的解决及优化》最近我的控制台程序发现有时候总是出现请求超时等问题,通常好几分钟最多只有3-4个请求,在使用apipost发现并发10个5分钟也... 目录优化结论单例HttpClient连接池耗尽和并发并发异步最终优化后优化结论我直接上优化结论吧,

Java内存泄漏问题的排查、优化与最佳实践

《Java内存泄漏问题的排查、优化与最佳实践》在Java开发中,内存泄漏是一个常见且令人头疼的问题,内存泄漏指的是程序在运行过程中,已经不再使用的对象没有被及时释放,从而导致内存占用不断增加,最终... 目录引言1. 什么是内存泄漏?常见的内存泄漏情况2. 如何排查 Java 中的内存泄漏?2.1 使用 J

Python MySQL如何通过Binlog获取变更记录恢复数据

《PythonMySQL如何通过Binlog获取变更记录恢复数据》本文介绍了如何使用Python和pymysqlreplication库通过MySQL的二进制日志(Binlog)获取数据库的变更记录... 目录python mysql通过Binlog获取变更记录恢复数据1.安装pymysqlreplicat

使用SQL语言查询多个Excel表格的操作方法

《使用SQL语言查询多个Excel表格的操作方法》本文介绍了如何使用SQL语言查询多个Excel表格,通过将所有Excel表格放入一个.xlsx文件中,并使用pandas和pandasql库进行读取和... 目录如何用SQL语言查询多个Excel表格如何使用sql查询excel内容1. 简介2. 实现思路3

Go语言实现将中文转化为拼音功能

《Go语言实现将中文转化为拼音功能》这篇文章主要为大家详细介绍了Go语言中如何实现将中文转化为拼音功能,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 有这么一个需求:新用户入职 创建一系列账号比较麻烦,打算通过接口传入姓名进行初始化。想把姓名转化成拼音。因为有些账号即需要中文也需要英

Go语言使用Buffer实现高性能处理字节和字符

《Go语言使用Buffer实现高性能处理字节和字符》在Go中,bytes.Buffer是一个非常高效的类型,用于处理字节数据的读写操作,本文将详细介绍一下如何使用Buffer实现高性能处理字节和... 目录1. bytes.Buffer 的基本用法1.1. 创建和初始化 Buffer1.2. 使用 Writ

深入理解C语言的void*

《深入理解C语言的void*》本文主要介绍了C语言的void*,包括它的任意性、编译器对void*的类型检查以及需要显式类型转换的规则,具有一定的参考价值,感兴趣的可以了解一下... 目录一、void* 的类型任意性二、编译器对 void* 的类型检查三、需要显式类型转换占用的字节四、总结一、void* 的

通过C#获取PDF中指定文本或所有文本的字体信息

《通过C#获取PDF中指定文本或所有文本的字体信息》在设计和出版行业中,字体的选择和使用对最终作品的质量有着重要影响,然而,有时我们可能会遇到包含未知字体的PDF文件,这使得我们无法准确地复制或修改文... 目录引言C# 获取PDF中指定文本的字体信息C# 获取PDF文档中用到的所有字体信息引言在设计和出

Python实现NLP的完整流程介绍

《Python实现NLP的完整流程介绍》这篇文章主要为大家详细介绍了Python实现NLP的完整流程,文中的示例代码讲解详细,具有一定的借鉴价值,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1. 编程安装和导入必要的库2. 文本数据准备3. 文本预处理3.1 小写化3.2 分词(Tokenizatio

MySQL不使用子查询的原因及优化案例

《MySQL不使用子查询的原因及优化案例》对于mysql,不推荐使用子查询,效率太差,执行子查询时,MYSQL需要创建临时表,查询完毕后再删除这些临时表,所以,子查询的速度会受到一定的影响,本文给大家... 目录不推荐使用子查询和JOIN的原因解决方案优化案例案例1:查询所有有库存的商品信息案例2:使用EX