七月审稿之提升模型效果的三大要素：prompt、数据质量、训练策略(附PeerRead)

本文主要是介绍七月审稿之提升模型效果的三大要素：prompt、数据质量、训练策略(附PeerRead)，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

前言

我带队的整个大模型项目团队超过40人了，分六个项目组，每个项目组都是全职带兼职，且都会每周确定任务/目标/计划，然后各项目组各自做任务拆解，有时同组内任务多时则2-4人一组方便并行和讨论，每周文档记录当周工作内容，平时群内随时讨论 1-2周一次语音会，最后通过相关课程不断招募各项目组成员

比如在我司审稿项目之前的工作中，我们依次想尽各种办法微调以下模型(我之外，包括且不限于阿荀、朝阳、三太子、文弱、鸿飞、apple、不染、贾斯丁等)

七月论文审稿GPT第1版：通过3万多篇paper和10多万的review数据微调RWKV
七月论文审稿GPT第2版：用一万多条paper-review数据集微调LLaMA2 7B最终反超GPT4
七月论文审稿GPT第2.5和第3版：分别微调GPT3.5、Llama2 13B以扩大对GPT4的优势
七月论文审稿GPT第3.2版和第3.5版：通过paper-review数据集分别微调Mistral、gemma
七月论文审稿GPT第4版：通过paper-review数据集微调Mixtral-8x7b，对GPT4胜率超过80%

如上文文末回复一读者的评论所说，“近期我们一方面等llama2 70b的结果，一方面准备提高下数据的质量了”，故有了本文，而如何提高数据质量呢，便是我和我司审稿项目组在3月底登杜甫江阁时所确定的：一个是提高review的质量(从而考虑到可以提高GPT对一篇篇paper的多个review做多聚一摘要出来的大review的质量，由于是设计prompt从而让GPT做多聚一的摘要操作，故可以优化下该prompt)，一个是看有没办法可以拿到review出来之前更早期的论文版本

第一部分提升模型效果的三大要素：prompt、数据质量、训练策略

1.1 让GPT对Review做多聚一操作的摘要prompt的优化

如本文开头所说，当我们把各种模型都微调一遍之后，发现最终还是得回归到数据上，其中一个便是提高review的质量

在我们之前的一系列工作中，我们针对一篇篇论文的多个review做多聚一，且摘要出多个要点，从而，一篇paper 一条review，最后，就可以弄成qa对去微调开源模型

而之前5k 15k条paper-review数据对中的review，就是根据旧prompt 通过GPT3.5 16K摘要出来的，但之前的旧prompt 比较简单，就4个点

重要性和新颖性
可能被接收的原因
可能被拒绝的原因
其他改进建议

现在，想把review摘要的更好些，好提高微调效果，说白了，如果摘要出来的review质量不够高，会非常影响咱们微调模型的效果

总之，咱们的核心目标还是

不断逼近顶会审稿人的视角，以一针见血指出论文的问题、闪光点，从而侧面帮助作者修订论文

在经过反复看一系列论文的review意见之后我个人的反复琢磨，以及七月平台上一系列顶会审稿人对审稿的意见，外加和审稿项目组阿荀、朝阳等人的反复讨论之后，暂定把摘要prompt优化如下(至于完整的prompt设计见七月官网的：大模型商用项目之审稿GPT实战)

** How to evaluate the idea of the paper **,
** Compared to previous similar works, what are the essential differences **,
** How to evaluate the experimental results in the paper **,
** Possible reasons for its acceptance **,
** Possible reasons for its rejection **,
** Other suggestions for improving the quality of the paper **,
and ** Other important review comments **.

总的思路就是，对于一篇paper，先看它的重要性、新颖性以及与众不同之处；接着看实验是否充分有说服力，然后总结闪光点、不足；最后看如果改进，看往哪几个方面做改进

1.2 论文早期版本的爬取

把各种模型都微调对比一遍之后，最后还是要再次回归到数据上，所以4.3日，我又开始反复琢磨之前阿荀爬下来的review数据

结果当晚意外解决了困扰我和我司审稿项目组一两月的一个问题，即之前没有找到review所对应的论文早期版本(review是旧review 但论文是新论文)，而那晚在反复琢磨review数据时，发现可爬到review对应的论文早期版本

从而，也就解决了审稿项目的一个大问题，毕竟我们要的就是这种论文所对应的最早的审稿版本，这样和review的匹配程度才能达到100%((至于如何具体爬取见七月官网的：大模型商用项目之审稿GPT实战)

1.3 训练策略

在大模型时代

一个技术人保持竞争力的最佳方式就两点：保持对最新技术/paper的跟踪，每天各种大量实践/折腾/实验
对于一个组织也是如此，通过项目(大队伍 + 小队伍双重协作)，是提高组织战斗力的最佳方式，不然各自为战

// 待更

第二部分相关工作之PeerRead：根据review给paper的各方面要点打分

paper读多了，便不再唯一关注阅读速度因为大部分情况下读的快没啥用(但少部分情况下还是有用的)，更多时候，更重要的是理解效率和理解深度，有时多看看参考文献中的论文，都会很有收获

读多了，便能在某一个时间点达到“量变引起质变”的效果，也就是在面对一个个新技术点时的开窍速度，会越来越快

2.1 康奈尔大学关于论文审稿的工作：特异性很强

用PGE方法从人工review中生成预设问题数据
相当于paper =》人工review =》通过PGE：即llama2 70B提炼预设问题 =》预设问题
使用 [paper, 预设问题] 数据训练得到一个能根据不同paper提出不同问题的模型A
相当于让模型A学会根据不同的paper提问(毕竟，每篇review的预设问题不太一样)，毕竟提问是门艺术
使用 [paper + A产生的预设问题, review] 训练得到模型B
用的时候就是把不同的paper输入模型A来产生对应的预设问题，然后再把paper和预设问题输入模型B来得到review
和人工review对比词的叠度

// 待更