阿里 Qwen2 模型开源，教你如何将 Qwen2 扩展到百万级上下文

本文主要是介绍阿里 Qwen2 模型开源，教你如何将 Qwen2 扩展到百万级上下文，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

本次开源的 Qwen2 模型包括 5 个尺寸，分别是 0.5B、1.5B、7B、72B、57B，其中 57B 的属于 MoE 模型（激活参数 14B），其余为 Dense 模型，本篇文章会快速介绍下各个尺寸模型的情况，然后重点介绍下如何利用 Qwen-Agent 将 Qwen2 模型的 8k 上下文扩展到 1M。

本文首发自博客阿里 Qwen2 模型开源，教你如何将 Qwen2 扩展到百万级上下文

我的新书《LangChain编程从入门到实践》已经开售！推荐正在学习AI应用开发的朋友购买阅读，此书围绕LangChain梳理了AI应用开发的范式转变，除了LangChain，还涉及其他诸如 LIamaIndex、AutoGen、AutoGPT、Semantic Kernel等热门开发框架。

Qwen2 和 Qwen1.5 的模型结构基本一致，主要是模型预训练数据有所增加（大约在 7T 以上），Qwen2-0.5B、Qwen2-1.5B 模型支持最大上下文长度为 32K；Qwen2-57B-A14B MoE 模型支持最大上下文为 64K；Qwen2-7B、Qwen2-72B 模型支持最大上下文为 128K，代码和数学能力显著提升。

模型	Qwen2-0.5B	Qwen2-1.5B	Qwen2-7B	Qwen2-57B-A14B	Qwen2-72B
参数量	0.49B	1.54B	7.07B	57.41B	72.71B
非 Embedding 参数量	0.35B	1.31B	5.98B	56.32B	70.21B
GQA	True	True	True	True	True
Tie Embedding	True	True	False	False	False
上下文长度	32K	32K	128K	64K	128K

在 Qwen1.5 系列中，只有 32B 和 110B 的模型使用了 GQA，Qwen2 所有尺寸的模型都使用了 GQA，GQA 显著加速推理，降低显存占用。

模型效果

Qwen2 系列模型效果不光整体超过 Qwen1.5 系列，相对于其他同级别参数开源模型也很亮眼，下面是指令微调模型 Qwen2-72B-Instruct 和 Qwen2-7B-Instruct 和常见开源 SOTA 模型比较。

Qwen2-72B-Instruct 在多项指标超过 Llama-3-70B-Instruct，特别是中文领域，大幅领先。

Qwen2-72B-Instruct 在多项指标超过 Llama-3-70B-Instruct

代码和数学方面都超过了 Llama-3-70B-Instruct

Qwen2-7B-Instruct 和智谱最近开源的 GLM-4-9B-Chat水平相当。

Qwen2-7B-Instruct

最后说下开源 License，除了 Qwen2-72B 使用 Qianwen License（有使用范围限制）其余模型 4 个尺寸模型均采用 Apache 2.0 的许可。

更多详细内容，请前往官网博客查看 https://qwenlm.github.io/zh/blog/qwen2/

借助 Qwen-Agent 实现长文本理解

这个也是阿里开源的，特别是在本地使用 Qwen2-0.5B、Qwen2-1.5B 这类上下文长度有限的模型时，通过 Qwen-Agent 框架，能够把处理的上下文扩展到 1M，整体采用的是代理式 RAG（Agentic RAG）思路，具体的做法分为三步。

第一步查询转换

查询重写

将文本分成每块不超过 512 字短块，保留最相关在 8k 上下文，采用查询转换的方法：

步骤 1：引导模型分离用户查询中的指令信息与非指令信息。例如，将用户查询转为{“信息”: [“自行车是什么时候发明的”], “指令”: [“回答时用 2000 字”, “尽量详尽”, “用英文回复”]}。
步骤 2：从信息部分提取多语言关键词。例如，"自行车是什么时候发明的"转为{“关键词英文": [“bicycles”, “invented”, “when”], "关键词中文”: [“自行车”, “发明”, “时间”]}。
步骤 3：利用 BM25 基于关键词的检索，找出最相关的块。

这也是比较成熟的方案，详细可以看我半年前介绍的完整工程化实现使用这个工具后，我将 RAG 的准确性和召回率都提高了两倍！