mmlu专题

阿里开源截止目前为止参数规模最大的Qwen1.5-110B模型：MMLU评测接近Llama-3-70B，略超Mixtral-8×22B！

本文原文来自DataLearnerAI官方网站：阿里开源截止目前为止参数规模最大的Qwen1.5-110B模型：MMLU评测接近Llama-3-70B，略超Mixtral-8×22B！ | 数据学习者官方网站(Datalearner)https://www.datalearner.com/blog/1051714140775766 Qwen1.5系列是阿里开源的一系列大语言模型，也是目前为

【LLM评估篇】Ceval | rouge | MMLU benchmarks

note 一些大模型的评估基准benchmark：多轮：MTBench关注评估：agent bench长文本评估：longbench，longeval工具调用评估：toolbench安全评估：cvalue，safetyprompt等文章目录 note常见评测benchmarkMMLUSuperCLUE：中文通用大模型综合性评测基准知识评估：C-EvalC-EvalGSM8KBBH 工具