电脑也能写出连贯的文章吗?

2023-11-01 07:40
文章标签 电脑 文章 写出 连贯

本文主要是介绍电脑也能写出连贯的文章吗?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

作者:彭如雪

硅谷 Playstation 资深机器学习工程师

主页:https://oneepochaway.com/

生成式模型大行其道的今天,我们已经知道电脑能够自己写文章了. 但是他们文章的连贯度如何呢?

本文是语篇连贯度分析专题的上篇. 下篇专门讲局部连贯度分析的不同模型.

本文要点

  1. 简单介绍语篇连贯度分析

  2. 如何分析语篇的局部连贯度

  3. 如何分析不同文体的全局连贯度


简单介绍语篇连贯分析

Q1: 我们为什么在乎文本的连贯度高不高?
A1: 任何需要保证文本输出质量的NLP产品都需要语篇连贯度分析. 比如信息抽取、自动摘要、机器翻译.

Q2: 什么是连贯(coherence)?
A2: 连贯是一种句子之间的关系,定义了逻辑顺畅的语篇与随机排列的句子们之间的区别.

Q3: 可以从哪些角度一个文本的连贯度?
A3: 分为局部连贯(local coherence)以及全局连贯(global coherence).
局部连贯是指语篇中连续N句话之间的关系,比如前后连接的句子对(span)之间的连贯关系;

全局连贯是指站在段落乃至全文的高度,看语篇的行文结构对全文连贯度的影响.

Q4: 什么是语篇连贯度分析任务?
A4: 有很多方向,比如自动的对语篇进行解析,进而得到全文逻辑结构的图形表示;训练模型自动衡量文本的连贯度并打分.


如何分析语篇的局部连贯度

三种分析局部连贯的角度

一段话之所以连贯,可能是因为前后句子之间有逻辑关系,也可能是因为它们在讨论同一个现实世界的实体,还有可能是因为它们在讨论一个核心的话题.

  1. 句子之间存在连贯关系(Coherence Relations)
    句子之间可以存在各种各样的连贯逻辑关系.
    有RST树和PDTB两种不同风格的框架来句子之间不同的逻辑关系,第二部分会细讲.

  2. 存在Entity-based Coherence
    句子们在讨论同一个中心的实体(称之为Center).
    这个研究角度会追踪一个语篇里面,目前被讨论的实体是什么,如果实体变来变去,显然这个语篇就不是一个很连贯的语篇.

  3. 存在Topical Coherence
    句子们在讨论同一个话题,也就是使用同一个semantic field里面的词语 e.g. Before winter I built a chimney, and shingled the sides of my house… I have thus a tight shingled and plastered house… with a garret and a closet, a large window on each side.

下篇专门讲局部连贯度分析的Post里面会包括:

  1. 如何解析句子间的连贯关系(coherence relation)

  2. 如何追踪语篇当下的核心实体

  3. 如何使用纯神经网络给语篇的连贯度打分


如何分析不同文体的全局连贯度

全局连贯是指站在全文的高度,看语篇的行文结构对全文连贯度的影响.
起源可以从Propp’s model开始说:
它将故事的常见角色总结了出来,称为dramatis personae. 比如主人公(Hero),反派(Villian),Donor,Helper等.


这里简单带过对两种不同文体的全局连贯度研究:议论文和科研论文.

  • 如何研究议论文的全局连贯度

  • 如何研究科研论文的全局连贯度

如何研究议论文的全局连贯度

  • argument mining 一个任务,让计算机自动研究议论文

根据亚里士多德的理论,要论证一个观点可以通过三种修辞形式:

  • pathos 感情上打动受众

  • ethos 从受众的个性出发

  • logos 逻辑上说服受众.

数据集

现代模型主要研究用逻辑论证(logos)的议论文,一般训练集是标注好论点claim,论据premise的议论文.有时候还会包括论证关系(argumentative relation), 比如SUPPORT或者ATTACK.

示例议论文数据:
“(1) Museums and art galleries provide a better understanding about arts than Internet.
(2) In most museums and art galleries, detailed descriptions in terms of the background, history and author are provided.
(3) Seeing an artwork online is not the same as watching it with our own eyes, as
(4) the picture online does not show the texture or three-dimensional structure of the art, which is important to study.”

第1句话是论点
第2,3句话是支持论点的论据
第4句话是支持3的论据

所以表示成函数就是SUPPORT(2, 1), SUPPORT(3, 1), SUPPORT(4, 3)

一篇议论文可以表示为下图 (感觉高中时候的同学要是有了能自己写议论文的算法,好多人都不怕写作文了哈哈)

图片来自论文 https://arxiv.org/pdf/1604.07370.pdf
尖头箭头表示SUPPORT,圆头箭头表示ATTACK.
有趣的是,可以注意到Claim5表示了反证法

先提出反对的观点Claim5, 用Premise 9支持这个观点, 然后用Premise 11和Premise 10攻击这个观点,论证这个观点是错误的.

分析议论文结构的模型

一般是两个文本分类器,一个负责区分论点、论据和非议论文本(non-argumentation).
另一个负责区分两句话之间的关系是SUPPORT, ATTACK, 还是都没有.

另外的研究方向
  • 探索议论文除了SUPPORT和ATTACK之外更复杂的论证关系

  • 研究不同的语篇结构对文章说服力强弱的影响

  • 根据社会学角度设计出的特征,判断社交平台上谁是意见领袖,谁是被影响的受众


如何研究科研论文的全局连贯度

  • argumentative zoning 是指对科研论文修辞的研究

科研论文的结构一般包括目的、方法、结果、与已有研究的比较等.

数据集

论文中的每个句子被分为15种类别的标注.
比如:
目的AIM —— 句子表明了研究目的
新方法OWN_METHOD
新结果OWN_RESULT
使用USE —— 句子表明了研究中使用了什么工具/方法
缺陷GAP_WEAK —— 句子指出了本领域未被解决的问题,已有方案的不足
支持SUPPORT —— 句子提供了已有研究对本研究的支持
矛盾ANTISUPPORT —— 句子提出了对某已有结论的挑战

整个表如下:

图片来自论文 https://www.aclweb.org/anthology/D09-1155.pdf


总结

本文作为语篇连贯分析的上篇,介绍了这个领域的基本概念, 研究框架, 数据集和模型. 局部连贯度可以通过研究三条路研究:判断连贯关系,追踪讨论实体,以话题为中心.
不同问题的全局连贯度不同,介绍了议论文文体和科研论文文体.
下一篇我们将聚焦到语篇的局部连贯度分析,具体看每个研究角度都有什么理论框架和模型.


Reference

  • Speech and Language Processing

     https://web.stanford.edu/~jurafsky/slp3/23.pdf 

  • Parsing Argumentation Structures in Persuasive Essays 

    https://arxiv.org/pdf/1604.07370.pdf

  • Towards Discipline-Independent Argumentative Zoning: Evidence from Chemistry and Computational Linguistics

    https://www.aclweb.org/anthology/D09-1155.pdf


原文链接:

https://oneepochaway.com/discourse-coherence-intro/

个人微信:加时请注明 (昵称+公司/学校+方向)

历史精品文章推荐

1、知否?知否?一文看懂深度文本分类之DPCNN原理与代码

2、CCL“中国法研杯”相似案例匹配评测竞赛 - TOP队伍攻略分享

3、推荐|机器学习入门方法和资料合集

这篇关于电脑也能写出连贯的文章吗?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/321508

相关文章

电脑密码怎么设置? 一文读懂电脑密码的详细指南

《电脑密码怎么设置?一文读懂电脑密码的详细指南》为了保护个人隐私和数据安全,设置电脑密码显得尤为重要,那么,如何在电脑上设置密码呢?详细请看下文介绍... 设置电脑密码是保护个人隐私、数据安全以及系统安全的重要措施,下面以Windows 11系统为例,跟大家分享一下设置电脑密码的具体办php法。Windo

电脑没有仿宋GB2312字体怎么办? 仿宋GB2312字体下载安装及调出来的教程

《电脑没有仿宋GB2312字体怎么办?仿宋GB2312字体下载安装及调出来的教程》仿宋字体gb2312作为一种经典且常用的字体,广泛应用于各种场合,如何在计算机中调出仿宋字体gb2312?本文将为您... 仿宋_GB2312是公文标准字体之一,仿China编程宋是字体名称,GB2312是字php符编码标准名称(简

基于Python开发电脑定时关机工具

《基于Python开发电脑定时关机工具》这篇文章主要为大家详细介绍了如何基于Python开发一个电脑定时关机工具,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1. 简介2. 运行效果3. 相关源码1. 简介这个程序就像一个“忠实的管家”,帮你按时关掉电脑,而且全程不需要你多做

C#实现获取电脑中的端口号和硬件信息

《C#实现获取电脑中的端口号和硬件信息》这篇文章主要为大家详细介绍了C#实现获取电脑中的端口号和硬件信息的相关方法,文中的示例代码讲解详细,有需要的小伙伴可以参考一下... 我们经常在使用一个串口软件的时候,发现软件中的端口号并不是普通的COM1,而是带有硬件信息的。那么如果我们使用C#编写软件时候,如

macOS怎么轻松更换App图标? Mac电脑图标更换指南

《macOS怎么轻松更换App图标?Mac电脑图标更换指南》想要给你的Mac电脑按照自己的喜好来更换App图标?其实非常简单,只需要两步就能搞定,下面我来详细讲解一下... 虽然 MACOS 的个性化定制选项已经「缩水」,不如早期版本那么丰富,www.chinasem.cn但我们仍然可以按照自己的喜好来更换

python写个唤醒睡眠电脑的脚本

《python写个唤醒睡眠电脑的脚本》这篇文章主要为大家详细介绍了如何使用python写个唤醒睡眠电脑的脚本,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 环境:win10python3.12问题描述:怎么用python写个唤醒睡眠电脑的脚本?解决方案:1.唤醒处于睡眠状

不删数据还能合并磁盘? 让电脑C盘D盘合并并保留数据的技巧

《不删数据还能合并磁盘?让电脑C盘D盘合并并保留数据的技巧》在Windows操作系统中,合并C盘和D盘是一个相对复杂的任务,尤其是当你不希望删除其中的数据时,幸运的是,有几种方法可以实现这一目标且在... 在电脑生产时,制造商常为C盘分配较小的磁盘空间,以确保软件在运行过程中不会出现磁盘空间不足的问题。但在

电脑显示hdmi无信号怎么办? 电脑显示器无信号的终极解决指南

《电脑显示hdmi无信号怎么办?电脑显示器无信号的终极解决指南》HDMI无信号的问题却让人头疼不已,遇到这种情况该怎么办?针对这种情况,我们可以采取一系列步骤来逐一排查并解决问题,以下是详细的方法... 无论你是试图为笔记本电脑设置多个显示器还是使用外部显示器,都可能会弹出“无HDMI信号”错误。此消息可能

电脑多久清理一次灰尘合? 合理清理电脑上灰尘的科普文

《电脑多久清理一次灰尘合?合理清理电脑上灰尘的科普文》聊起电脑清理灰尘这个话题,我可有不少话要说,你知道吗,电脑就像个勤劳的工人,每天不停地为我们服务,但时间一长,它也会“出汗”——也就是积累灰尘,... 灰尘的堆积几乎是所有电脑用户面临的问题。无论你的房间有多干净,或者你的电脑是否安装了灰尘过滤器,灰尘都

Python实现局域网远程控制电脑

《Python实现局域网远程控制电脑》这篇文章主要为大家详细介绍了如何利用Python编写一个工具,可以实现远程控制局域网电脑关机,重启,注销等功能,感兴趣的小伙伴可以参考一下... 目录1.简介2. 运行效果3. 1.0版本相关源码服务端server.py客户端client.py4. 2.0版本相关源码1