mmlu专题

阿里开源截止目前为止参数规模最大的Qwen1.5-110B模型:MMLU评测接近Llama-3-70B,略超Mixtral-8×22B!

本文原文来自DataLearnerAI官方网站:阿里开源截止目前为止参数规模最大的Qwen1.5-110B模型:MMLU评测接近Llama-3-70B,略超Mixtral-8×22B! | 数据学习者官方网站(Datalearner)https://www.datalearner.com/blog/1051714140775766   Qwen1.5系列是阿里开源的一系列大语言模型,也是目前为

【LLM评估篇】Ceval | rouge | MMLU benchmarks

note 一些大模型的评估基准benchmark:多轮:MTBench关注评估:agent bench长文本评估:longbench,longeval工具调用评估:toolbench安全评估:cvalue,safetyprompt等 文章目录 note常见评测benchmarkMMLUSuperCLUE:中文通用大模型综合性评测基准知识评估:C-EvalC-EvalGSM8KBBH 工具