DYVAL: GRAPH-INFORMED DYNAMIC EVALUATION OF LARGE LANGUAGE MODELS

本文主要是介绍DYVAL: GRAPH-INFORMED DYNAMIC EVALUATION OF LARGE LANGUAGE MODELS，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

本文是LLM系列文章，针对《DYVAL: GRAPH-INFORMED DYNAMIC EVALUATION OF LARGE LANGUAGE MODELS》的翻译。

大语言模型的基于图形的动态评估

摘要
1 引言
2 相关工作
3 DYVAL
4 实验
5 DYVAL帮助进行微调
6 结论和讨论

摘要

大型语言模型(llm)在各种评价基准中取得了显著的成绩。然而，对其性能的担忧是由于其大量的训练语料库中潜在的数据污染。此外，当前基准的静态性质和固定复杂性可能无法充分衡量llm的先进能力。本文介绍了一种新颖、通用、灵活的LLM动态评价协议DYVAL。基于我们提出的动态评估框架，我们利用有向无环图的结构优势，构建了基于图的DYVAL，以动态生成具有可控复杂性的评估样本。DYVAL在推理任务上生成具有挑战性的评估集，包括数学、逻辑推理和算法问题。我们评估了从Flan-T5-large到ChatGPT和GPT-4的各种llm。实验表明，llm在dyval生成的不同复杂度的评价样本中表现较差，强调了动态评价的重要性。分析了不同提示方法的失败案例和结果。此外，dyval生成的样本不仅是评估集，也是用于微调以提高llm在现有基准测试中的性能的有用数据。我们希望DYVAL能对未来LLM的评价研究有所启发。

1 引言

2 相关工作

3 DYVAL

4 实验

5 DYVAL帮助进行微调

6 结论和讨论

我们提出DYVAL，一个动态llm评估协议，以减轻现有基准的数据污染和静态复杂性。我们为推理任务设计了带有图形的DYVAL。DYVAL的优势在于它可以动态生成样本，具有调整难度的灵活性。我们在使用基准的实验中观察到几个有趣的发现。更重要的是，dyval生成的样本不仅可以用作评估样本，还可以作为llm的微调数据，以提高其在现有基准测试中的性能。
我们的工作有一些局限性。(1)任务:我们目前专注于推理任务。虽然DYVAL支持其他任务，但它需要设计生成算法 $\mathcal{G}$ ，我们乐观地认为DYVAL将为跨各种任务的进一步探索铺平道路。(2)样本:由于资源限制，我们的实验使用了有限的测试样本。对更大的集合进行评估可能有助于观察到更多的发现。(3)微调:我们只对Llama2-13b模型进行了微调，在更多的数据集上使用不同的模型进行进一步的研究，可以更深入地了解DYVAL。

这篇关于DYVAL: GRAPH-INFORMED DYNAMIC EVALUATION OF LARGE LANGUAGE MODELS的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！