Anthropic LLM论文阅读笔记

本文主要是介绍Anthropic LLM论文阅读笔记，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

研究时间：与Instrcut GPT同期的工作，虽然其比ChatGPT发布更晚，但是其实完成的时间比ChatGPT更早。
与ChatGPT的应用区别：该模型比ChatGPT回答我不知道的概率更高。
将强化学习用于大语言模型（RLHF）：发现这种方法可以提升几乎在所有NLP任务上的性能。随着参数的增加，效果也越来越好。如果模型经过了强化学习的辅助，效果会进一步提升；如果经过了有用性的训练，模型会有更大的提升；但是如果经过了有害性的训练，模型的有用性会下降，非有害性会提升。
模型不断更新：每个星期用一个新的奖励函数和强化学习目标进行训练，相当于一个在线学习。
模型实现了有用性和无害性：让模型分别在两组表示有用性和无害性的数据集上进行学习。这两个特性其实是相矛盾的，尽管将两个数据集放在一起训练问题也不大，但是仍然需要后续的改进来进行优化。
数据标注：数据标注阶段，每次让模型生成两个回答，让标注工人选择他们觉得更好的回答。
RLHF对不同规格的模型的效果：如果模型本身的规模较小，经过RLHF后Zero-shot条件下的模型准确度会下降；但是这个问题在模型规模变大后解决掉。
数据类型：采用的是多轮对话数据，而非常规的QA（单轮）数据，因此和ChatGPT的方式是类似的。
比较不同模型的效果：通过Elo分数进行比较，通过Elo分数计算两个模型中的获胜率。获胜率越高，模型效果越好。
模型精确度与数据量的关系：随着数据量的指数级提升，模型的精确度呈现一个线性的提升。
模型精确度和对话轮数的关系：总体趋势是，对话轮数变多时，模型的精确度会下降。

这篇关于Anthropic LLM论文阅读笔记的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

原文地址:
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.chinasem.cn/article/413884。如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈，一经查实，立即删除！我们的邮箱：23002807@qq.com