电脑也能写出连贯的文章吗?

2023-11-01 07:40
文章标签 电脑 文章 写出 连贯

本文主要是介绍电脑也能写出连贯的文章吗?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

作者:彭如雪

硅谷 Playstation 资深机器学习工程师

主页:https://oneepochaway.com/

生成式模型大行其道的今天,我们已经知道电脑能够自己写文章了. 但是他们文章的连贯度如何呢?

本文是语篇连贯度分析专题的上篇. 下篇专门讲局部连贯度分析的不同模型.

本文要点

  1. 简单介绍语篇连贯度分析

  2. 如何分析语篇的局部连贯度

  3. 如何分析不同文体的全局连贯度


简单介绍语篇连贯分析

Q1: 我们为什么在乎文本的连贯度高不高?
A1: 任何需要保证文本输出质量的NLP产品都需要语篇连贯度分析. 比如信息抽取、自动摘要、机器翻译.

Q2: 什么是连贯(coherence)?
A2: 连贯是一种句子之间的关系,定义了逻辑顺畅的语篇与随机排列的句子们之间的区别.

Q3: 可以从哪些角度一个文本的连贯度?
A3: 分为局部连贯(local coherence)以及全局连贯(global coherence).
局部连贯是指语篇中连续N句话之间的关系,比如前后连接的句子对(span)之间的连贯关系;

全局连贯是指站在段落乃至全文的高度,看语篇的行文结构对全文连贯度的影响.

Q4: 什么是语篇连贯度分析任务?
A4: 有很多方向,比如自动的对语篇进行解析,进而得到全文逻辑结构的图形表示;训练模型自动衡量文本的连贯度并打分.


如何分析语篇的局部连贯度

三种分析局部连贯的角度

一段话之所以连贯,可能是因为前后句子之间有逻辑关系,也可能是因为它们在讨论同一个现实世界的实体,还有可能是因为它们在讨论一个核心的话题.

  1. 句子之间存在连贯关系(Coherence Relations)
    句子之间可以存在各种各样的连贯逻辑关系.
    有RST树和PDTB两种不同风格的框架来句子之间不同的逻辑关系,第二部分会细讲.

  2. 存在Entity-based Coherence
    句子们在讨论同一个中心的实体(称之为Center).
    这个研究角度会追踪一个语篇里面,目前被讨论的实体是什么,如果实体变来变去,显然这个语篇就不是一个很连贯的语篇.

  3. 存在Topical Coherence
    句子们在讨论同一个话题,也就是使用同一个semantic field里面的词语 e.g. Before winter I built a chimney, and shingled the sides of my house… I have thus a tight shingled and plastered house… with a garret and a closet, a large window on each side.

下篇专门讲局部连贯度分析的Post里面会包括:

  1. 如何解析句子间的连贯关系(coherence relation)

  2. 如何追踪语篇当下的核心实体

  3. 如何使用纯神经网络给语篇的连贯度打分


如何分析不同文体的全局连贯度

全局连贯是指站在全文的高度,看语篇的行文结构对全文连贯度的影响.
起源可以从Propp’s model开始说:
它将故事的常见角色总结了出来,称为dramatis personae. 比如主人公(Hero),反派(Villian),Donor,Helper等.


这里简单带过对两种不同文体的全局连贯度研究:议论文和科研论文.

  • 如何研究议论文的全局连贯度

  • 如何研究科研论文的全局连贯度

如何研究议论文的全局连贯度

  • argument mining 一个任务,让计算机自动研究议论文

根据亚里士多德的理论,要论证一个观点可以通过三种修辞形式:

  • pathos 感情上打动受众

  • ethos 从受众的个性出发

  • logos 逻辑上说服受众.

数据集

现代模型主要研究用逻辑论证(logos)的议论文,一般训练集是标注好论点claim,论据premise的议论文.有时候还会包括论证关系(argumentative relation), 比如SUPPORT或者ATTACK.

示例议论文数据:
“(1) Museums and art galleries provide a better understanding about arts than Internet.
(2) In most museums and art galleries, detailed descriptions in terms of the background, history and author are provided.
(3) Seeing an artwork online is not the same as watching it with our own eyes, as
(4) the picture online does not show the texture or three-dimensional structure of the art, which is important to study.”

第1句话是论点
第2,3句话是支持论点的论据
第4句话是支持3的论据

所以表示成函数就是SUPPORT(2, 1), SUPPORT(3, 1), SUPPORT(4, 3)

一篇议论文可以表示为下图 (感觉高中时候的同学要是有了能自己写议论文的算法,好多人都不怕写作文了哈哈)

图片来自论文 https://arxiv.org/pdf/1604.07370.pdf
尖头箭头表示SUPPORT,圆头箭头表示ATTACK.
有趣的是,可以注意到Claim5表示了反证法

先提出反对的观点Claim5, 用Premise 9支持这个观点, 然后用Premise 11和Premise 10攻击这个观点,论证这个观点是错误的.

分析议论文结构的模型

一般是两个文本分类器,一个负责区分论点、论据和非议论文本(non-argumentation).
另一个负责区分两句话之间的关系是SUPPORT, ATTACK, 还是都没有.

另外的研究方向
  • 探索议论文除了SUPPORT和ATTACK之外更复杂的论证关系

  • 研究不同的语篇结构对文章说服力强弱的影响

  • 根据社会学角度设计出的特征,判断社交平台上谁是意见领袖,谁是被影响的受众


如何研究科研论文的全局连贯度

  • argumentative zoning 是指对科研论文修辞的研究

科研论文的结构一般包括目的、方法、结果、与已有研究的比较等.

数据集

论文中的每个句子被分为15种类别的标注.
比如:
目的AIM —— 句子表明了研究目的
新方法OWN_METHOD
新结果OWN_RESULT
使用USE —— 句子表明了研究中使用了什么工具/方法
缺陷GAP_WEAK —— 句子指出了本领域未被解决的问题,已有方案的不足
支持SUPPORT —— 句子提供了已有研究对本研究的支持
矛盾ANTISUPPORT —— 句子提出了对某已有结论的挑战

整个表如下:

图片来自论文 https://www.aclweb.org/anthology/D09-1155.pdf


总结

本文作为语篇连贯分析的上篇,介绍了这个领域的基本概念, 研究框架, 数据集和模型. 局部连贯度可以通过研究三条路研究:判断连贯关系,追踪讨论实体,以话题为中心.
不同问题的全局连贯度不同,介绍了议论文文体和科研论文文体.
下一篇我们将聚焦到语篇的局部连贯度分析,具体看每个研究角度都有什么理论框架和模型.


Reference

  • Speech and Language Processing

     https://web.stanford.edu/~jurafsky/slp3/23.pdf 

  • Parsing Argumentation Structures in Persuasive Essays 

    https://arxiv.org/pdf/1604.07370.pdf

  • Towards Discipline-Independent Argumentative Zoning: Evidence from Chemistry and Computational Linguistics

    https://www.aclweb.org/anthology/D09-1155.pdf


原文链接:

https://oneepochaway.com/discourse-coherence-intro/

个人微信:加时请注明 (昵称+公司/学校+方向)

历史精品文章推荐

1、知否?知否?一文看懂深度文本分类之DPCNN原理与代码

2、CCL“中国法研杯”相似案例匹配评测竞赛 - TOP队伍攻略分享

3、推荐|机器学习入门方法和资料合集

这篇关于电脑也能写出连贯的文章吗?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/321508

相关文章

微信公众号脚本-获取热搜自动新建草稿并发布文章

《微信公众号脚本-获取热搜自动新建草稿并发布文章》本来想写一个自动化发布微信公众号的小绿书的脚本,但是微信公众号官网没有小绿书的接口,那就写一个获取热搜微信普通文章的脚本吧,:本文主要介绍微信公众... 目录介绍思路前期准备环境要求获取接口token获取热搜获取热搜数据下载热搜图片给图片加上标题文字上传图片

mss32.dll文件丢失怎么办? 电脑提示mss32.dll丢失的多种修复方法

《mss32.dll文件丢失怎么办?电脑提示mss32.dll丢失的多种修复方法》最近,很多电脑用户可能遇到了mss32.dll文件丢失的问题,导致一些应用程序无法正常启动,那么,如何修复这个问题呢... 在电脑常年累月的使用过程中,偶尔会遇到一些问题令人头疼。像是某个程序尝试运行时,系统突然弹出一个错误提

电脑提示找不到openal32.dll文件怎么办? openal32.dll丢失完美修复方法

《电脑提示找不到openal32.dll文件怎么办?openal32.dll丢失完美修复方法》openal32.dll是一种重要的系统文件,当它丢失时,会给我们的电脑带来很大的困扰,很多人都曾经遇到... 在使用电脑过程中,我们常常会遇到一些.dll文件丢失的问题,而openal32.dll的丢失是其中比较

电脑win32spl.dll文件丢失咋办? win32spl.dll丢失无法连接打印机修复技巧

《电脑win32spl.dll文件丢失咋办?win32spl.dll丢失无法连接打印机修复技巧》电脑突然提示win32spl.dll文件丢失,打印机死活连不上,今天就来给大家详细讲解一下这个问题的解... 不知道大家在使用电脑的时候是否遇到过关于win32spl.dll文件丢失的问题,win32spl.dl

电脑提示msvcp90.dll缺少怎么办? MSVCP90.dll文件丢失的修复方法

《电脑提示msvcp90.dll缺少怎么办?MSVCP90.dll文件丢失的修复方法》今天我想和大家分享的主题是关于在使用软件时遇到的一个问题——msvcp90.dll丢失,相信很多老师在使用电脑时... 在计算机使用过程中,可能会遇到 MSVCP90.dll 丢失的问题。MSVCP90.dll 是 Mic

电脑开机提示krpt.dll丢失怎么解决? krpt.dll文件缺失的多种解决办法

《电脑开机提示krpt.dll丢失怎么解决?krpt.dll文件缺失的多种解决办法》krpt.dll是Windows操作系统中的一个动态链接库文件,它对于系统的正常运行起着重要的作用,本文将详细介绍... 在使用 Windows 操作系统的过程中,用户有时会遇到各种错误提示,其中“找不到 krpt.dll”

如何关闭 Mac 触发角功能或设置修饰键? mac电脑防止误触设置技巧

《如何关闭Mac触发角功能或设置修饰键?mac电脑防止误触设置技巧》从Windows换到iOS大半年来,触发角是我觉得值得吹爆的MacBook效率神器,成为一大说服理由,下面我们就来看看mac电... MAC 的「触发角」功能虽然提高了效率,但过于灵敏也让不少用户感到头疼。特别是在关键时刻,一不小心就可能触

电脑密码怎么设置? 一文读懂电脑密码的详细指南

《电脑密码怎么设置?一文读懂电脑密码的详细指南》为了保护个人隐私和数据安全,设置电脑密码显得尤为重要,那么,如何在电脑上设置密码呢?详细请看下文介绍... 设置电脑密码是保护个人隐私、数据安全以及系统安全的重要措施,下面以Windows 11系统为例,跟大家分享一下设置电脑密码的具体办php法。Windo

电脑没有仿宋GB2312字体怎么办? 仿宋GB2312字体下载安装及调出来的教程

《电脑没有仿宋GB2312字体怎么办?仿宋GB2312字体下载安装及调出来的教程》仿宋字体gb2312作为一种经典且常用的字体,广泛应用于各种场合,如何在计算机中调出仿宋字体gb2312?本文将为您... 仿宋_GB2312是公文标准字体之一,仿China编程宋是字体名称,GB2312是字php符编码标准名称(简

基于Python开发电脑定时关机工具

《基于Python开发电脑定时关机工具》这篇文章主要为大家详细介绍了如何基于Python开发一个电脑定时关机工具,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1. 简介2. 运行效果3. 相关源码1. 简介这个程序就像一个“忠实的管家”,帮你按时关掉电脑,而且全程不需要你多做