本文主要是介绍七月论文审稿GPT第2版:从Meta Nougat、GPT4审稿到微调Mistral、LongLora Llama,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
前言
如此前这篇文章《学术论文GPT的源码解读与微调:从ChatPaper到七月论文审稿GPT第1版》中的第三部分所述,对于论文的摘要/总结、对话、翻译、语法检查而言,市面上的学术论文GPT的效果虽暂未有多好,可至少还过得去,而如果涉及到论文的修订/审稿,则市面上已有的学术论文GPT的效果则大打折扣
原因在哪呢?本质原因在于无论什么功能,它们基本都是基于API实现的,而关键是API毕竟不是万能的,API做翻译/总结/对话还行,但如果要对论文提出审稿意见,则API就捉襟见肘了,故为实现更好的review效果,需要使用特定的对齐数据集进行微调来获得具备优秀review能力的模型
继而,我们在第一版中,做了以下三件事
- 爬取了3万多篇paper、十几万的review数据,并对3万多篇PDF形式的paper做解析(review数据爬下来之后就是文本数据,不用做解析)
当然,paper中有被接收的、也有被拒绝的 - 为提高数据质量,针对paper和review做了一系列数据处理
当然,主要是针对review数据做处理 - 基于RWKV进行微调,然因其遗忘机制比较严重,故最终效果不达预期
所以,进入Q4后,我司论文审稿GPT的项目团队开始做第二版(我司自从23年Q3在教育团队之外,再成立LLM项目团队之后,便一直在不断迭代三大LLM项目,每个项目各自一个项目组,除了阿荀带头的论文审稿GPT之外,还有:霍哥带头的AIGC模特生成系统、朝阳带头的企业知识库问答),并着重做以下三大方面的优化
- 数据的解析与处理的优化,meta的一个ocr即「nougat」能提取出LaTeX,当然,我们也在同步对比另一个解析器sciencebeam的效果
- 借鉴GPT4做审稿人那篇论文,让ChatGPT API帮爬到的review语料,梳理出来 以下4个方面的内容
1 重要性和新颖性
2 论文被接受的原因
3 论文被拒绝的原因
4 改进建议 - 模型本身的优化,比如Mistral或llama longlora
第一部分 第二版对论文PDF数据的解析
1.1 两大PDF解析器:nougat VS ScienceBeam
1.1.1 Meta nougat
nougat是Meta针对于学术PDF文档的开源解析工具(其主页、其代码仓库),以OCR方法为主线,较之过往解析方案最突出的特点是可准确识别出公式、表格并将其转换为可适应Markdown格式的文本。缺陷就是转换速读较慢、且解析内容可能存在一定的乱序
和另一个解析器sciencebeam做下对比,可知
- nougat比较好的地方在于可以把图片公式拆解成LaTeX源码,另外就是识别出来的内容可以通过“#”符号来拆解文本段
缺陷就是效率很低、非常慢,拿共约80页的3篇pdf来解析的话,大概需要2分钟,且占用20G显存,到时候如果要应用化,要让用户传pdf解析的话,部署可能也会有点难度 - sciencebeam的话就是快不少,同样量级的3篇大约1分钟内都可以完成,和第1版用的SciPDF差不多,只需要CPU就可以驱动起来了
当然,还要考虑的是解析器格式化的粒度,比如正文拆成了什么样子的部分,后续我们需不需要对正文的特定部分专门取出来做处理,如果格式化粒度不好的话,可能会比较难取出来
- 环境配置
# 新建虚拟环境 conda create -n nougat-ocr python=3.10 # 激活虚拟环境 conda activate nougat-ocr # 使用pip安装必要库(镜像源安装可能会出现版本冲突问题,建议开启代理使用python官方源进行安装) pip install nougat-ocr -i https://pypi.org/simple
- 使用方法
# 初次使用时会自动获取最新的权重文件 # 针对单个pdf文件 nougat {pdf文件路径} -o {解析输出目录} # 针对多个pdf所在文件夹 nougat {pdf目录路径} -o {解析输出目录}
- 测试示例
标题及开头
公式识别与转换
脚注识别
1.1.2 ScienceBeam
ScienceBeam是经典PDF文档解析器GROBID的变体项目,是论文《Can large language models provide useful feedback on research papers? A large-scale empirical analysis》所采用的文本提取方法,同其他较早期的解析方法一样,对公式无法做出LateX层面的解析,且该解析器仅支持在X86架构的Linux系统中使用
// 待更
1.2 对2.6万篇paper的解析
最终,针对有review的2.6万篇paper (第一版 全部paper3万篇,其中带review的2.5万篇;第二版 全部paper3.2万篇,其中带review的2.6万篇 )
1.2.1 nougat的解析过程
- 我司审稿项目组的其中一位“雪狼”用的2张24G的P40解析完其中一半,另外一半由另一位“不染”用的48G的A40解析完
- 因nougat解析起来太耗资源,加之当时我们的卡有限,所以这个PDF的解析,我们便用了一两周..
1.2.2 ScienceBeam的解析结果
ScienceBeam解析的结果为字典,其中涉及的键有
- title: Paper的标题,有部分会因为解析不出而留空,可以使用相应的OpenReview数据的标题来代替
- abstract: Paper的摘要,可能有部分会因为解析不出而留空,可以使用相应的OpenReview数据的摘要来代替
- introduction: Paper的介绍,通常会包含在main_content中
- figure_and_table_captions: Paper中图表下方的文字描述
- section_titles: Paper各个小节的标题
- main_content: Paper的正文(含introduction)
实际取用的部分是其中的title、abstract、figure_and_table_captions以及main_content
且会加入[TITLE]、[ABSTRACT]、[CAPTIONS]、[CONTENT]特殊符号加以区分Paper的各个部分,考虑到[CONTENT]可能会提及[CAPTIONS]中的内容,因此将[CAPTIONS]置于[CONTENT]之前
[TITLE]
标题[ABSTRACT]
摘要[CAPTIONS]
各图表描述[CONTENT]
其余正文
// 待更
第二部分 第二版对paper和review数据的处理
2.1 第一版对review数据的处理
在第一版中,我们对review数据做了如下处理
总之
- 第一版中,面向paper 更多是做的PDF解析(解析器解析出来的正文直接就没包含reference)
第二版中,对于paper的数据处理沿用第一版的处理方法:解析完了之后 不再做什么处理 - 第一版中,面向review 则做的如上图所示的数据处理(注意,review无解析一说,毕竟如前言中所说,review数据爬下来之后就是文本数据,不用做解析)
那第二版 针对review数据的处理呢?详见下文
2.2 第二版对review数据的处理
以“b_forum”字段为与Paper数据所关联的外键,“b_forum”为对应Paper的唯一标识符(id)
- 某篇paper所对应的Review数据如果只是单行即为单个Review
- 但很多时候,单篇Paper可能对应有多个Review,故存在多行数据下b_forum相同的情况
针对原始数据,我们做以下4点处理
- 过滤需求外的Review
主要是去掉作者自己的回复,以及对paper的评论 - 将Review字符串化
- 过滤内容过少的Review
- 将Review的内容规范出4个要点且进行“多聚一”,下文详述
本部分数据处理的代码,暂在七月在线的「大模型项目开发线上营」中见
// 待更
第三部分 对review数据的进一步处理:规范Review的格式且多聚一
3.1 斯坦福:让GPT4首次当论文的审稿人
近日,来自斯坦福大学等机构的研究者把数千篇来自Nature、ICLR等的顶会文章丢给了GPT-4,让它生成评审意见、修改建议,然后和人类审稿人给出的意见相比较
- 在GPT4给出的意见中,超50%和至少一名人类审稿人一致,并且超过82.4%的作者表示,GPT-4给出的意见相当有帮助
- 这个工作总结在这篇论文中《Can large language models provide useful feedback on research papers? A large-scale empirical analysis》,这是其对应的代码仓库
所以,怎样让LLM给你审稿呢?具体来说,如下图所示
- 爬取PDF语料
- 接着,解析PDF论文的标题、摘要、图形、表格标题、主要文本
- 然后告诉GPT-4,你需要遵循业内顶尖的期刊会议的审稿反馈形式,包括四个部分
成果是否重要、是否新颖(signifcance andnovelty)
论文被接受的理由(potential reasons for acceptance)
论文被拒的理由(potential reasons for rejection)
改进建议(suggestions for improvement)Your task now is to draft a high-quality review outline for a top-tierMachine Learning (ML) conference fora submission titled “{PaperTitle}”:``` {PaperContent} ```====== Your task: Compose a high-quality peer review of a paper submitted to a Nature family journal.Start by "Review outline:". And then: "1. Significance and novelty" "2. Potential reasons for acceptance" "3. Potential reasons for rejection", List multiple key reasons. For each key reason, use **>=2 sub bullet points** to further clarify and support your arguments in painstaking details. Be as specific and detailed as possible. "4. Suggestions for improvement", List multiple key suggestions. Be as specific and detailed as possible.Be thoughtful and constructive. Write Outlines only.
- 最终,GPT-4针对上图中的这篇论文一针见血地指出:虽然论文提及了模态差距现象,但并没有提出缩小差距的方法,也没有证明这样做的好处
3.2 为了让模型对review的学习更有迹可循:归纳出来4个要点且多聚一
3.2.1 设计更好的提示模板以让大模型帮梳理出来review语料的4个内容点
上一节介绍的斯坦福这个让GPT4当审稿人的工作,对我司做论文审稿GPT还挺有启发的
- 正向看,说明我司这个方向是对的,至少GPT4的有效意见超过50%
- 反向看,说明即便强如GPT4,其API的效果还是有限:近一半意见没被采纳,证明我司做审稿微调的必要性、价值性所在
- 审稿语料的组织 也还挺关键的,好让模型学习起来有条条框框 有条理 分个 1 2 3 4 不混乱,瞬间get到review描述背后的逻辑、含义
比如要是我们爬取到的审稿语料 也能组织成如下这4块,我觉得 就很强了,模型学习起来 会很快
1) 成果是否重要、是否新颖
2) 论文被接受的理由
3) 论文被拒的理由
4) 改进建议
对于上面的“第三大点 审稿语料的组织”,我们(特别是阿荀,其次我)创造性的想出来一个思路,即通过提示模板让大模型来帮忙梳理咱们爬的审稿语料,好把审稿语料 梳理归纳出来上面所说的4个方面的常见review意见
那怎么设计这个提示模板呢?借鉴上节中斯坦福的工作,提示模板可以在斯坦福那个模板基础上,进一步优化如下
// 暂在「大模型项目开发线上营」中见,至于在本文中的更新,待更
3.2.2 如何让归纳出来的review结果更全面:多聚一
我们知道一篇paper存在多个review,而对review数据的学习有三种模式
- 一种是多选一
但多选一有个问题,即是:如果那几个review都不是很全面呢,然后多选一的话会不会对review信息的丰富程度有损 - 一种是多聚一
对多个review做一下总结归纳(阿荀、我先后想到),相当于综合一下,此时还是可以用GPT 3.5 16K或开源模型帮做下review数据的多聚一 - 一种是多轮交互
这种工作量比较大,非首选
如此,最终清洗之后的24000篇paper的review,用多聚一的思路搞的话,便可以直接一次调用支持16K的GPT 3.5(毕竟16K的长度足够,可以把所有的review数据一次性给到GPT3.5 16K),或开源模型让它直接从所有review数据里提炼出4个要点,大概是24000多次
3.2.3 通过最终的prompt来处理review数据:ChatGPT VS 开源模型
综上,即是考虑多聚一策略来处理Review数据,主要是对Prompting提出了更高的要求:
- 要求大模型聚合所有Review的观点来进行摘要
- 为保证规整Review的统一性,需提供具体的类别(如新颖性、接受原因、拒绝原因、改进建议等)对观点进行明确“分类”
- 强调诚实性来缓解幻觉,在prompt中提供“示弱”选项(如回复“不知道”或允许结果为空等)
- 为使得后续工作更容易从大模型的输出中获取到所关注的信息,需对其输出格式进行要求
上一节斯坦福研究者对模型review效果评估的工作看似很完美,不过其中有个小问题,即尽管LLM可以根据指令遵循来基于Prompt的要求返回JSON格式的内容,但并非每次都能生成得到利于解析的JSON格式内容
相当于咱们得基于上述要求来设计Prompt (最终设计好的prompt暂在七月在线的「大模型项目开发线上营」里讲,至于本文本部分内容的更新则明年Q1更新)
当我们最终的prompt设计好了之后,接下来,便可以让大模型通过该prompt处理review数据了,那我们选用哪种大模型呢,是ChatGPT还是开源模型,为此,我们对比了以下三种大模型
- zephyr-7b-alpha
- Mistral-7B-Instruct-v0.1
- OpenAI刚对外开放的gpt-3.5-turbo-1106,即上一节图中的GPT3.5 Turbo 16K
经过对比发现
- 用OpenAI的gpt-3.5-turbo-1106效果相对更好些,能力更强 效果更好,加之经实际研判,费用也还好 不算高
- 更让OpenAI脱颖而出的是,gpt-4-1106-preview和gpt-3.5-turbo-1106版本中提供了JSON mode,在接口中传入response_format={"type": "json_object"}启用该模式、并在prompt中下达“以JSON格式返回”的指示后,将会返回完全符合JSON格式的内容
// 待更,具体怎么个对比法,以及怎么个效果更好,暂在线上营里见,至于本文后续更新
不过我们在实际使用的过程中,发现OpenAI对API的访问有各种限制且限制的比较严格(即对用户有多层限制:https://platform.openai.com/docs/guides/rate-limits/usage-tiers?context=tier-one,比如分钟级请求限制、每日请求限制、分钟级token限制、每日token限制 ),访问经常会假死不给返回、也没报错,所以很多时间耗费在被提示“访问超限”,然后等待又重复访问、再被提示超限这样的过程,使得我们一开始使用OpenAI的官方接口23年11.24到11.30大概7天才出了2600多条,并且后续限制访问的出现频率愈加高,头疼..
- 后面实在没办法,我们找了一个国内的二手商,最终调二手商的接口,而二手商调OpenAI的接口,于此,用户访问频率限制、代理等问题就让二手商那边解决了(我们也琢磨了下为何二手商可以解决这类访问限制的问题,根据以往的经验,我们判断,应该是二手商那边的OpenAI账户很多、代理路线很多,做了统一调度管理,然后在用户调用的时候选取当前低频的官方账户来访问官方接口,时不时还自动切换下代理,要知道一个代理被用来高频访问OpenAI的时候,其实有可能是会被放进黑名单的,所以持续维护一个代理池来做自动切换也很重要 )
当然,二手商的接口晚上(或者别的高峰期)有时候还是会返回访问受限的提示,那时候应该用的人比较多,导致即使“最低频访问”的官方接口,访问频率也不算低了,所以也会被访问受限 - 最终,使用二手商的中转接口,12.04到12.08大概5天出了9000多条
3.2.4 对review数据的最后梳理:得到JSON文本的变体版且剔除长尾数据
原本的经过“多聚一”review侧的数据由JSON mode返回所得,均为JSON格式(字典),大体形式如下
{"Significance and novelty": {大体描述: 具体描述,大体描述: 具体描述,...},"Potential reasons for acceptance": {大体描述: 具体描述,大体描述: 具体描述,...},"Potential reasons for rejection": {大体描述: 具体描述,大体描述: 具体描述,...},"Suggestions for improvement": {大体描述: 具体描述,大体描述: 具体描述,...}
}
但考虑到后续要微调的开源模型对JSON格式的关注程度可能不足,学习JSON文本可能存在一定的困难,故最终将上述JSON格式的内容转为如下的格式(可以理解为JSON文本的变体版)
[Significance and novelty]
<大体描述> 具体描述
<大体描述> 具体描述
...[Potential reasons for acceptance]
<大体描述> 具体描述
<大体描述> 具体描述
...[Potential reasons for rejection]
<大体描述> 具体描述
<大体描述> 具体描述
...[Suggestions for improvement]
<大体描述> 具体描述
<大体描述> 具体描述
...
即如下图所示
且依据内部文件《[正式方案]长尾数据清洗及后续安排》,文本长度过少的Review可能仅包含有一些无关紧要的信息,因此还可以考虑将长度过少的Review进行剔除(当然,paper侧也得剔除相关的长尾数据)
经过一系列操作之后,数据量从22319降到了15566
接着通过设计相关指令,且结合处理后的Paper及Review,最终得到一份类Alpaca格式的数据集(instruction-input-output三元组数据),至于具体长什么样,我司的大模型项目开发线上营里见
再考虑到单条数据算作“instruction+input+output”的拼接,使用Mistral的tokenizer对各条数据进行分词,并统计数据的token数
由上图大致可了解到单条token数大致在6000至12000的区间,较多数据的长度分布在8500左右,因此后续在为训练模型设定序列裁切(cut off)长度时选择11264或12288比较合适
3.3 (选读)相关工作之AcademicGPT:增量训练LLaMA2-70B,包含论文审稿功能
3.3.1 AcademicGPT: Empowering Academic Research
11月下旬,我司第二项目组的阿荀发现
- 有一个团队于23年11.21日,在arXiv上提交了一篇论文《AcademicGPT: Empowering Academic Research》,论文中提出了AcademicGPT,其通过学术数据在LLaMA2-70B的基础上经过继续训练得到的
- 然后该团队AcademicGPT的基础之上延伸开发了4个方面的应用:学术问答、论文辅助阅读、论文评审、标题和摘要的辅助生成等功能,由于其中的论文问答、论文摘要等功能已经很常见了(比如此文提到的chatpaper、中科院一团队的gpt_academic都通过GPT3.5的API做了还可以的实现),但论文评审此前一些开源工具通过GPT3.5做的效果并不好,所以既然AcademicGPT做了论文审稿这一功能,而且还用了70B的模型,那必须得关注一波,于是便仔细研究了下他们的论文
(当然,我相信,他们很快也会关注到我司论文审稿GPT这个工作,然后改进他们的训练策略,毕竟同行之间互相借鉴,并不为怪 )
他们与我们有两点显著不同的是,一者,他们对LLaMA做了增量预训练(AcademicGPT is a continual pretraining on LLaMA2),二者,我司目前的论文审稿GPT暂只针对英文论文的评审(毕竟七月的客户要发论文的话,以英文EI ei期刊 SCI论文为主,其次才中文期刊),而他们还考虑到了中文,故他们考虑到LLaMA2-70B有限的中文能力与学术领域知识,所以他们收集中文数据和学术英文数据来对相关方面进行提高
- 中文数据:取自CommonCrawl、Baike、Books等(此外还从互联网爬取了200K学术文本)
由于CC这类数据通常会包含很多广告、色情等有害信息,所以需要对其进行数据清洗,最终他们借助LLM且使用下图所示的Prompt来对取自互联网的数据进行清洗,比如对文档进行各种标注
(根据论文原文,我们判断,他们应该是先让模型基于人类给的prompt 对一些文本做标注,之后ChatGPT对同样那些文本做标注,最后对比这两者之间的差异,建损失函数 然后微调模型本身,差不多后,模型对剩下的文本做标注) - 英文学术数据:爬取来自200所顶尖大学的100多万篇Paper、Arxiv的226万篇Paper(截止到23年5月),其中较长的Paper使用Nougat进行解析(和我司七月一样 )、较短的Paper使用研究团队自己的解析器,此外还有4800多万篇来自unpaywall2的免费学术文章,以及Falcon开源的数据集中的学术相关数据
基于上述所得的120B的数据,他们使用192个40G显存的A100 GPU进行继续二次预训练(他们的所有工作我没有任何羡慕,但唯独他们有192块A100,让我个人着实羡慕了一把,好期待有哪个大豪可以解决下我司七月的GPU紧缺问题,^_^),最终通过37天的训练,使得LLaMA2-70B进一步获得理解中文与学术内容的能力,以下是关于训练的更多细节
- 且为了加快训练过程,用了FlashAt-tention2 (Dao, 2023),它不仅加快了注意力模块的速度,而且节省了大量内存,且通过Apex RMSNorm实现了融合cuda内核(Apex RMSNorm that implements a fused cuda kernel)
- 由于AcademicGPT是LLaMA2- 70b的二次训练模型,因此它使用了一些与LLaMA2相同的技术,包括
RMSNorm (Zhang and Sennrich, 2019)而不是LayerNorm,
SwiGLU (Shazeer, 2020)而不是GeLU
对于位置嵌入,它使用RoPE (Su et al., 2021)而不是Alibi(Press et al., 2021)
对于tokenizer,它使用BPE (Sennrich等人,2015)
且使用DeepSpeed (Rasley et al., 2020)和Zero (Rajbhandari et al., 2020),且他们的训练基于gpt-neox (Black et al., 2022)框架,其中我们集成了许多新引入的技能。使用具有40GB内存的192个A100 gpu完成120B数据的训练需要大约37天
3.3.2 论文评审:借鉴ReviewAdvisor抽取出review的7个要点(类似我司借鉴斯坦福工作把review归纳出4个要点)
他们和我司一样,都是从同一带有论文review的网站上收集了29119篇Paper和约79000条Review,然后经过下述处理
- Paper侧处理:剔除了7115篇无内容或无Review的Paper、剔除了解析失败的Paper
- Review侧处理:
- 剔除了具有过多换行符的Review
- 剔除了过短(少于100 tokens),或过长(多于2000 tokens)的Review
- 剔除了与Decision Review决策不一致、且confidence低的Review
- 抽取review要点
和我司「3.2.1 设计更好的提示模板以让大模型帮梳理出来review语料的4个内容点」类似,他们则参考的是《Can We Automate Scientific Reviewing?》中的7个方面要点,去掉Summary所以是7个:
1 动机/影响Motivation/Impact
2 原创性Originality
3 合理性/正确性Soundness/Correctness
4 实质性Substance
5 可复现性Replicability
6 有意义的对比Meaningful Comparison
7 清晰程度Clarity)
且使用该论文的源码对Review进行进一步标注,然后抽取出相应的要点「具体而言,他们在归纳单篇review的7或8个要点时,给定一篇review,让BERT逐个逐个的标注出每个token/词它可能所属的要点类别,BERT对整篇review标注完以后,把有要点标注结果的内容给抽出来,比如下图,模型逐个对每个token标注出了summary(紫色)、clarity(黄色)、substance(橙色)等等,然后把带颜色的要点部分抽出来作为该篇review的归纳,其中+表示积极的情绪,-表示负面情绪」
最终,经过上面一系列梳理之后得到的paper数据 + 归纳好的review数据去微调70B模型
为方便大家理解,我补充一下关于这篇《Can We Automate Scientific Reviewing?》的解释说明
事实上,该篇论文的视角在于将“Review”视作对Paper的摘要与对应内容的评估,以此保证事实正确性。因此该篇论文考虑将Paper Review问题建模为摘要生成任务,采用当时(2021)较为先进的BART模型进行训练,得到ReviewAdvisor模型
通过设计好的评估系统,得出如下观察:
- 模型容易生成非事实性陈述
- 模型尚未学习到高级理解,如没法实质地分辨Paper的高质量与低质量
- 模型倾向于模仿训练数据的语言风格(倾向低级模式),如容易生成训练样本中的高频句子
- 可以较好地概括论文核心思想
最终结论是:“模型评审还尚未能替代人工评审,但可以辅助人工进行评审”
这项工作有两个值得关注的地方:
- 增强Review数据(通过BERT对review数据抽取式归纳出8个要点、然后人工做校正)
对于相对杂乱的Review内容来说,研究团队只想保留有用的“结构化”内容,因此他们将从定义“结构化方面”开始,从Review中取出相应的结构化内容,由此实现Review侧的数据增强 1 定义结构化方面
研究团队讨论出了他们所认为的一篇“好的Review”所应该具备的各个方面,包括如下8个要点:
Summary(SUM):总结摘要
Motivation/Impact(MOT):动机/影响
Originality(ORI):原创性
Soundness/Correctness(SOU):合理性/正确性
Substance(SUB):实质性
Replicability(REP):可复现性
Meaningful Comparison(CMP):有意义的对比
Clarity(CLA):清晰程度
2 人工标注
研究团队邀请6名具有机器学习背景的学生对原本的Review进行注释,注释手法倾向于“抽取式摘要”,即标注原文本中哪些片段属于何种类别「which are Summary (SUM), Moti-vation/Impact (MOT) , Originality (ORI), Sound-ness/Correctness (SOU), Substance (SUB), Repli-cability (REP), Meaningful Comparison (CMP)and Clarity (CLA)」
类似于“... ... The results are new[Positive Originality] and important to this field[Positive Motivation] ... ...”
3 训练标注器
考虑到人工标注全部数据并不现实,使用第2步标注过的Review数据训练一个BERT抽取模型作为标注器,用于自动标注原Review中的方面项。即输入Review文本,BERT对文本进行逐token分类预测,预测出Review哪些部分属于哪些方面
4 后处理
使用标注器BERT对余下数据进行标注后,其结果并不完全可信(毕竟BERT的能力没有像GPT3.5那么强,即结果没那么可信),需要制定规则或使用人工对标注器的预测结果进行校正
5 人工检查
邀请具有机器学习背景的人员检查标注结果- 生成Review(通过paper和BERT抽取且人工校正过的review语料,微调BART)
根据给定Paper生成Review,模型选型为彼时最大长度为1024的BART模型,考虑到Paper的长度较长,因此整个生成Review的方案被设计成了两阶段的形式,即首先从Paper中择取出突出片段(输入上下文长度压缩),然后基于这些突出片段来生成review摘要
选取突出片段
使用诸如“demonstrate”“state-of-the-art”等关键词及对句子的诸多规则判断来确定突出片段
训练方面感知摘要(Aspect-aware Summarizaiton)模型
基于基础Seq2Seq模型实现的是由输入序列(Paper)预测输出序列(Review)的过程,研究团队在这个基础上引入了“方面感知”来辅助模型进行预测,强调模型对“方面要点”的输出,即引入两个的多层感知机来分别进行生成任务:模型不仅要逐token生成Review内容,还要逐token预测其对应的“方面要点” 因此模型需要同时学习两个损失函数
这也意味着模型在一次推理中将输出2条序列,其一为预测的Review内容(其损失函数为),其二为预测的方面要点(其损失函数为)
3.3.3 70B的AcademicGPT在论文审稿上效果不佳的原因
根据原论文中展示的对一些论文做审稿的案例来看,其效果并不佳
下图是论文中的两个审稿案例
- 下图是论文中的审稿案例1,可以看出来,它指出对应论文的缺点:“写作需要打磨。存在太多的拼写和语法错误。实验设置不够令人信服。首先,没有提供基线。其次,作者仅在单一数据集上进行了实验。第三,作者没有报告结果的方差。”
这种审稿意见对于论文作者本身而言,参考价值可能不大,毕竟当你指出有太多的拼写和语法错误,最好是具体指出来所谓的拼写和语法错误是在论文中哪一段- 下图是论文中的审稿案例2 但第5个Weaknesses的点「5. The writing of the paper could be improved. For example, the authors should explain what xt,i means in
Eq. (1) 」是说论文应该解释下公式(1)中 的含义,但原论文的公式(1)不涉及
而效果不佳的原因有多个方面,下面更多对比与我司的不一致
- Focus程度不一样
与我司现在整个项目组全力以赴迭代论文审稿GPT不同,对于AcademicGPT而言,论文审稿只是他们4大应用中的其中一块,当然,他们选用的基座模型的参数规模更大、卡也比我们多 - 做摘要抽取的模型不一样
他们通过BERT对review数据抽取出7个要点,而早期模型BERT抽取的结果不一定准确(即便加了一定的人工校正),毕竟和我司所用的GPT3.5还是没法比的 - 做摘要抽取时的策略不一样
即他们通过BERT对review做抽取式摘要时,直接抽取review原话(通过“抽取式摘要”拿出来,相当于抽取、挪动、组合原有的review词 ),可review是由各式各样的人写的,原话风格高度不统一,模型可能会收敛困难
总之,他们与我司论文审稿GPT的差异就在于
他们是抽取式提取要点、我司是生成式归纳要点
抽取式抽出来的是原话,但是原话措辞风格迥异,而且抽取式模型能力有限需要做很多人工核验等后处理
但对于生成式而言,尤其是LLM的生成式可以根据要求生成相对统一的措辞风格 - review本身信息的全面程度不一样
他们把各个review抽取出7个要点后,没继续做多聚一的操作
我司把各个review归纳出4个要点后,为让单篇paper所对应的review信息更加全面,做了多聚一的操作
所以虽然AcademicGPT最终基于LLaMA2-70B去微调,模型参数规模比我司选用的大
但因为review数据的质量有限,最终效果自然不会太好
当然,在没有实际开源出来让用户使用之前,也不好下太多论断,具体等他们先对外开放吧(且他们看到本文后,我相信很快也会改进)
第四部分 模型的选型:从Mistral、Mistral-YaRN到LongLora LLaMA
23年12月中旬,本项目总算要走到模型选型阶段了,在此前的工作:数据的处理和数据的质量提高上,下足了功夫,用了各种策略 也用了最新的GPT3.5 16K帮归纳review信息,整个全程是典型的大模型项目开发流程
而论文审稿GPT第二版在做模型选型的时候,我司一开始考虑了三个候选模型:
- Mistral
- Yarn-Mistral-7b-64k
- LLaMA-LongLora
以下逐一介绍这三个模型,以及对应的训练细节、最终效果
4.1 Mistral 7B:通过分组查询注意力 + 滑动窗口注意力超越13B模型
今年5月,DeepMind和Meta的三位前员工在巴黎共同创立了Mistral AI(其CEO Arthur Mensch此前在DeepMind巴黎工作,CTO Timothée Lacroix和首席科学家Guillaume Lample则在Meta共同参与过LLaMA一代的研发,很像当年OpenAI的部分员工出走成立Anthropic啊),今年10月,他们发布了第一个基座大模型,即Mistral 7B
据其对应的论文《Mistral 7B》称( 另,这是其GitHub地址),以下是「模型参数图」
- Mistral 7B在所有评估基准中均胜过了目前最好的13B参数模型(Llama 2),并在推理、数学和代码生成方面超越了Llama 34B
Mistral 7B outperforms the previous best 13B model (Llama 2, [Llama 2: Open foundation and fine-tuned chat models]) across all testedbenchmarks, and surpasses the best 34B model (LLaMa 34B, [Llama: Open and efficient foundation language models]) in mathematics and codegeneration. - 该模型采用了分组查询注意力(GQA),GQA显著加快了推理速度,还减少了解码期间的内存需求,允许更高的批处理大小,从而提高吞吐量
GQA significantly accelerates the inference speed, and also reduces the memory requirement during decoding, allowing for higher batch sizes hence higher throughput
所以你看上面的「模型参数图」,维度(dim):4096,总计32个头(n_heads),每个头的维度(head_dim):128,这一眼可以看出来,而n_kv_heads是啥呢?
咋一看好像不太好理解 是不?其实,正是因为Mistral用了GQA,n_heads指的是Q的头数,n_kv_heads指的是K、V的头数不过要注意的是,与上图中间所示部分不太一样的地方在于:
关于GQA的更多介绍,请参见《一文通透各种注意力:从多头注意力MHA到分组查询注意力GQA、多查询注意力MQA》
上图中间所示部分中,Q的头数是K V头数的2倍
但在Mistral的GQA中,Q的头数是K V头数的4倍 - 同时结合滑动窗口注意力(sliding window attention,简称SWA)以有效处理任意长度的序列,
SWA is designed to handle longer sequences more effectively at a reduced computational cost
包括你再看上上张图所示的「模型参数图」,可知context_len 8192是说它训练的时候,传进来的数据最大只能到8192个tokens,也就是训练时的上下文长度上限,
windows_size 4096是sliding windows attention的滑窗大小,1次attention计算的上下文范围只4096个tokens
言外之意是,每个token只最多计算4096的范围
第5000个token只计算[905: 5000]这个范围的attention
第5001个token只计算[906: 5001]这个范围的attention
以此类推..
此外,作者提供了一个针对遵循指令进行了微调的模型,名为Mistral 7B-Instruct,它在人工和自动化基准测试中均超过了LLaMA 2 13B-chat模型
4.1.1 滑动窗口注意力:扩展上下文长度
vanilla attention的操作次数在序列长度上是二次型的,记忆量随着token数量线性增加。在推理时,由于缓存可用性的降低,这导致了更高的延迟和更小的吞吐量(The number of operations in vanilla attention is quadratic in the sequence length, and the memory increases linearly with the number of tokens. At inference time, this incurs higherlatency and smaller throughput due to reduced cache availability)
为了缓解这个问题,Mistral 7B使用滑动窗口注意力(sliding window attention)
- 每个token最多可以关注来自上一层的W个token(上图中,W = 3)。请注意,滑动窗口之外的token仍然影响下一个单词预测
each token can attend to at most W tokens from the previous layer (here, W = 3). Note that tokensoutside the sliding window still influence next word prediction.
举个例子,在面对这个序列时:The cat sat on the
如果是标准注意力,在计算最后一个token “the”时,得计算the本身所对应的query与整个上文每个token对应的key的内积,当序列长度一长时,该计算量还是比较大的
但如果是滑动窗口注意力,则在计算最后一个token “the”时,只需计算the本身所对应的query与上文中3个token对应的key的内积(这里说的上文中的3个token 包括the自己在内) - 在每个注意力层,信息可以向前移动W个token。因此,在k层注意力之后,信息最多可以向前移动k个×W个token
At each attention layer, information can moveforward by W tokens. Hence, after k attention layers, information can move forward by up to k ×W tokens.
4.1.2 滚动缓冲区缓存(Rolling Buffer Cache)
固定的注意力长度意味着可以使用滚动缓存来限制的缓存大小(A fixed attention span means that we can limit our cache size using a rollingbuffer cache)
- 缓存的大小是固定的W,时间步长i的键和值存储在缓存的位置i mod W中。因此,当位置i大于W时,缓存中过去的值就会被覆盖,缓存的大小就会停止增加
The cache has a fixed size of W, and the keys and values for the timestep i are storedin position i mod W of the cache. As a result, when the position i is larger than W, past valuesin the cache are overwritten, and the size of the cache stops increasing
以“The cat sat on the mat”为例..
当 i = 0 时,指The,0 mod 3=0
当 i = 1 时,指cat,1 mod 3=1
当 i = 2 时,指sat,2 mod 3=2
当 i = 3 时,指on,3 mod 3=0
当 i = 4 时,指the,4 mod 3=1
当 i = 5 时,指mat,5 mod 3 = 2 - 在32k token的序列长度上,这减少了8倍的缓存内存使用,而不影响模型质量
On a sequence length of 32k tokens, this reduces the cache memory usageby 8x, without impacting the model quality.
如果把缓冲区比作一座仓库,每存进一个新东西,都会占据相应的位置,而仓库的总容量是固定的,当仓库被装满时,就会把最早放入的东西移除,让新的物品继续进仓,相当于入仓时间更接近当前时间的物品则会留在仓库中,如此,即能在节约资源的同时保留一定长度的序列
4.1.3 预填充与分块:减少重复运算
在生成序列时,需要一个一个地预测token,因为每个token都以前面的token为条件。然而,prompt是提前知道的,可以用prompt预填充(k, v)缓存,即
- 如果prompt非常大,可以把它分成更小的块,用每个块预填充缓存。为此,可以选择窗口大小作为分块大小。因此,对于每个块,需要计算缓存和块上的注意力
- 下图展示了注意力掩码在缓存和分块上的工作原理 在预填充缓存时,长序列被分块,以限制内存使用
我们把一个序列分成三个块来处理,“The cat sat on”,“the mat and saw”,“the dog go to”。上图中显示了第三块(“the dog go to”)发生的情况:它使用因果掩码(最右块)来关注自己,使用滑动窗口(中心块)来关注缓存,并且不关注过去的token,因为它们在滑动窗口之外(左块)
4.1.4 Mistral 7B – Instruct
与Mistral 7B同期发布的Mistral 7B – Instruct(We also provide a model fine-tuned to follow instructions,Mistral 7B –Instruct),在MT-Bench的表现可以略微超过13B –Chat模型
// 待更
4.2 Mistral 7B结合YaRN
4.2.1 什么是YaRN
因项目中要用到YaRN,所以我又专门写了一篇文章介绍什么是YaRN,详见《大模型上下文扩展之YaRN解析:从直接外推ALiBi、位置插值、NTK-aware插值、YaRN》
比如该文中有讲到:“3.1 YaRN怎么来的:基于“NTK-by-parts”插值修改注意力”
除了前述的插值技术,他们还观察到,在对logits进行softmax操作之前引入温度t可以统一地影响困惑度,无论数据样本和扩展上下文窗口上的token位置如何,更准确地说,将注意力权重的计算修改为
通过将RoPE重新参数化为一组2D矩阵对,给实现注意力缩放带来了明显的好处(The reparametrization of RoPE as a set of 2D matrices has a clear benefit on the implementation of this attention scaling)
- 可以利用“长度缩放”技巧,简单地将复杂的RoPE嵌入按相同比例进行缩放,使得qm和kn都以常数因子进行缩放
这样一来,在不修改代码的情况下,YaRN能够有效地改变注意力机制
we can instead use a "length scaling" trick which scales both qm and kn by a constant factor p 1/t by simply scaling the complex RoPE embeddings by the same amount.
With this, YaRN can effectively alter the attention mechanism without modifying its code.- 此外,在推理和训练期间,它没有额外开销,因为RoPE嵌入是提前生成并在所有向前传递中被重复使用的。结合“NTK-by-parts”插值方法,就得到了YaRN方法
Furthermore, it has zero overhead during both inference and training, as RoPE embeddings are generated in advance and are reused for all forward passes. Combining it with the "NTK-by-parts" interpolation, we have the YaRN method对于LLaMA和LLaMA 2模型,他们推荐以下值:
上式是在未进行微调的LLaMA 7b、13b、33b和65b模型上,使用“NTK-by-parts”方法对各种因素的尺度扩展进行最小困惑度拟合得到的(The equation above is found by fitting p 1/t at the lowest perplexity against the scale extension by various factors s using the "NTK-by-parts" method)
Yarn-Mistral-7b-64k相当于自己实现了modeling,即把mistral的sliding windows attention改了,相当于把sliding windows的范围从滑窗大小直接调到了65536即64K(即直接滑65536那么个范围的滑窗,其实就是全局)
4.3 LongLoRA LLaMA与LongQLoRA LLaMA
通过此文《通透理解FlashAttention与FlashAttention2:让大模型上下文长度突破32K的技术之一》的开头可知,LLaMA2的上下文长度只有4K,但通过longlora技术的加持,可以让其上下文长度扩展到32K(LLaMA2 7B可以扩展到100K、LLaMA2 70B可以扩展到32K)
模型 | 对应的上下文长度 |
LLaMA | 2048 |
LLaMA2 | 4096 |
LLaMA2-long(其23年9.27发的论文) | 32K |
基于LongLoRA技术的LongAlpaca-7B/13B/70B | 32K以上 |
而LongQLoRA则相当于LongLoRA + QLoRA
至于什么是LongLoRA、LongQLoRA,请参见此文:《大模型上下文长度的超强扩展:从LongLoRA到LongQLoRA》
4.4 模型怎么选,此三PK:Yarn-Mistral-7b-64k、Mistral-instruct、LLaMA-LongLoRA/LLaMA-LongQLoRA
接上文《3.2.4 对review数据的最后梳理:得到JSON文本的变体版且剔除长尾数据》,我们终于要开始选择合适的模型来微调了,然后在具体微调的时候,又注意到了微调库llama factory
所以我们有以下三种微调模式
- Yarn-Mistral-7b-64k(qlora+s2 + llama factory),准备1张A40
- LLaMA-LongLoRA (搭配llama factory),准备2张24g的卡
- LLaMA-LongQLoRA (直接用的longqlora论文的源码)
接下来便一一通过上面这些模型来进行具体的微调
4.4.1 Yarn-Mistral-7b-64k
一开始阿荀通过「yarn-mistral + qlora + s2attn + llama factory」跑起来了几百条数据后发现,初始loss达到了6(当然,虽然loss初期很高,但有在下降,说明模型还是有学到,只不过初期loss很高说明我们给的数据和模型所学过的数据差异比较大)
这里面有两个比较有意思的事
- 细究才发现Yarn-Mistral-7b-64k不是个chat模型(yarn-mistral使用的基座是非sft模型),说白了Yarn-Mistral-7b系列均是基于非chat模型训练所得 故一方面我们在微调Yarn-Mistral-7b-64k的同时,也开始关注跟随Mistral 7B一同发布的Mistral 7B – Instruct
- 但后来我们还是不信邪,还是把Yarn-Mistral-7b-64k硬跑了下来,在1.10日下午loss已经降到1.8拉,可喜可贺,^_^ // 待更
4.4.2 直接通过llama factory微调Mistral-instruct
如果我们要微调Mistral 7B – Instruct的话,我们当时的第一反应是怎么扩展Mistral 7B – Instruct的长度呢(Mistral 7B – Instruct的上下文长度只有8K)
- 既然可以给Mistral-7b加YaRN,那类似的,给Mistral 7B – Instruct加YaRN行不行?
然问题是不好实现:YaRN-Mistral 7B – Instruct,因为Yarn是全量训的方案,而大滑窗范围+全量很吃资源 - 受LongLora LLaMA的启发,既然没法给Mistral 7B – Instruct加YaRN,那可以给其加longlora么?
然问题是mistral又没法享有longlora,因为mistral的sliding windows attention和longlora的shift short attention无法同时兼容,但要对原chat模型的上下文长度进行有效扩展又会需要shift short attention - 至此,是不只能意味着,chat版本的mistral-instruct不加其他技巧盲练长文本(用雪狼那边的4张24G的p40),还是有别的办法?这个,我司的「大模型项目开发线上营」里见
4.4.3 LLaMA 2 7B chat-LongLoRA,或LLaMA 2 7B chat-LongQLoRA
项目组一同事不染在最开始用微调库llama factory实际微调LLaMA-LongLoRA时,发现即便用上了longlora占用还很大,后来阿荀发现原来是需要用llama-factory的stable版本
// 待更
第五部分 模型的训练/微调、评估:如何评估审稿GPT的效果
5.1 llama-2-7B-chat的微调
// 待更
5.2 斯坦福研究者如何评估GPT4审稿意见的效果
如下图所示
- 针对LLM提出的Review与人类的Review,均分别使用一定的prompt交由GPT-4进行摘要处理
即对LLM下达任务,要求其关注Review中潜在的拒绝原因,并以特定的JSON格式来提供Review所指出的关键问题所在,研究团队解释侧重关键问题的目的在于“Review中的批评直接有助于指导作者改进论文” - 将需要评估的LLM Review与人类Review由上一步得到的内容共同输入至GPT-4中,利用特定的prompt来指示GPT-4输出新的JSON内容,让GPT-4指出两个传入的内容中的匹配项,并且对匹配程度进行评估(5-10分)
作者研究发现5分、6分的相似项置信程度不佳,因此设定7分以上视为“匹配”,再基于计算重叠程度,其中为LLM提出的批评项数,为LLM与人类提出的匹配批评项数
5.3 借鉴斯坦福的工作,我司如何评价审稿GPT的效果
// 待更
至此,本文中已透露了很多我司论文审稿GPT项目的各种工程细节,这些细节网上很少有,毕竟商用项目,当然 更多在「大模型项目开发线上营」见
参考文献与推荐阅读
- GPT4当审稿人那篇论文的全文翻译:【斯坦福大学最新研究】使用大语言模型生成审稿意见
- GPT-4竟成Nature审稿人?斯坦福清华校友近5000篇论文实测,超50%结果和人类评审一致
- 几篇mistral-7B的中文解读
从开源LLM中学模型架构优化-Mistral 7B
开源社区新宠Mistral,最好的7B模型 - Mistral 7B-来自号称“欧洲OpenAI”Mistral AI团队发布的最强7B模型
- [论文尝鲜]LongLoRA - 高效微调长上下文的LLMs,如果你发现该文与本博客中的有些表述不一致,请以本博客的为准
- 2行代码,「三体」一次读完!港中文贾佳亚团队联手MIT发布超长文本扩展技术,打破LLM遗忘魔咒
创作、修改、完善记录
- 第一大阶段 review数据处理
11.2日,开写本文 - 11.3日,侧重写第二部分、GPT4审稿的思路
- 11.4日,侧重写第三部分中的Mistral 7B
- 11.5日,继续完善Mistral 7B的部分
- 11.11日,更新此节:“2.2.2 如何让梳理出来的review结果更全面:多聚一”
完善1.1.1节Meta nougat
顺带感慨下,为项目落地而进行的技术研究,这种感觉特别爽,^_^ - 11.15,增加2.2节:对review数据的二次处理
- 11.18,优化2.2节中的部分描述
- 11.22,补充了第二部分关于论文审稿GPT第一版中数据处理部分的细节,比如对paper数据处理只是做了去除reference
补充“3.2.3节 通过最终的prompt来处理review数据:ChatGPT VS 开源模型”的相关内容 - 11.23,新增此节:1.2 对2.6万篇paper的解析
- 11.25,考虑到数据解析、数据处理、模型训练之后,还得做模型的评估
故新增一部分的内容,即第五部分 模型的评估:如何评估审稿GPT的效果 - 12.8,因为要在武汉给一公司做内训,且也将在「大模型项目开发线上营」里讲论文审稿GPT,所以随着该项目的不断推进,故
补充在通过OpenAI的API对review数据做摘要处理时,如何绕开API做的各种访问限制
新增一节:“3.3 相关工作之AcademicGPT:增量训练LLaMA2-70B,包含论文审稿功能” - 12.9,重点优化此节的内容:“3.3.2 论文评审:借鉴ReviewAdvisor抽取出review的7个要点(类似我司借鉴斯坦福工作把review归纳出4个要点)”
- 12.17,重点优化关于「相关工作AcademicGPT」的描述,特别是其review抽取式归纳的策略
- 12.18,补充了Mistral 7B的模型参数图,并补充了和GQA、window_size等参数相关的解释说明
- 12.20,新增:“1.2.2 ScienceBeam的解析结果”,以及review数据的组织格式
- 12.21,完善关于第二版中对paper和review数据处理相关的内容描述,即
第一版,paper有解析无数据处理,review无解析有处理
第二版,paper有解析无数据处理,review也无解析但做了更多处理 - 第二大阶段 模型的选型、训练、调优
12.24,增加对YaRN的补充介绍,即
3.1 YaRN怎么来的:基于“NTK-by-parts”插值修改注意力 - 12.26,开始更新“4.3 LongLora LLaMA”一节
- 12.28,新增一节:4.4 模型怎么选,此三PK:Mistral-instruct、LLaMA-LongLoRA、LLaMA-LongQLoRA
- 24年1.4,为把LongLora和LongQLora更好的写清楚,故把本文中关于LongLora的部分抽取出来独立成一篇新的文章
且新增一节:3.2.4 对review数据的最后梳理:得到JSON文本的变体版 - 1.6,4.4.1节中,确切地说应该是yarn-mistral + qlora + s2attn,且没直接用longqlora的实现,团队直接改的代码,但运行还是基于llama factory的框架
故最终定为:yarn-mistral + qlora + s2attn + llama factory - 1.7,修正关于Mistral中GQA的一个表述:在Mistral的GQA中,Q的头数是K V头数的4倍,而非2倍
- 1.9,修订“4.4 模型怎么选,此三PK:Yarn-Mistral-7b-64k、Mistral-instruct、LLaMA-LongLoRA/LLaMA-LongQLoRA”中相关的内容
这篇关于七月论文审稿GPT第2版:从Meta Nougat、GPT4审稿到微调Mistral、LongLora Llama的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!