通义开源长文本思考模型：QwenLong-L1-32B！强化长上下文推理!

近日，阿里开源长文本深度思考模型QwenLong-L1！

通过渐进式上下文扩展策略逐步提升模型在长上下文推理任务上的表现，最终在多个长文档问答 benchmarks 上表现卓越！其32B参数版本超过OpenAI-o3-mini、Qwen3-235B-A22B等，取得与
Claude-3.7-Sonnet-Thingking相当的性能。

功能创新：

定义长上下文推理强化学习范式

区别于短上下文推理强化学习促进模型利用内部知识推理，长上下文推理强化学习需要模型首先定位外部关键信息然后整合内部推理。

识别长上下文推理强化学习关键问题

长上下文推理强化学习训练效率低，具体表现在（a）奖励收敛较慢，（b）模型输出熵的显著降低，限制了优化过程中的探索行为。同时，长上下文推理强化学习训练不稳定，具体表现为（c）KL 散度突刺较多，这是由于（d）较长的输出长度和不均匀的输入长度导致方差变大，导致策略更新不稳定。

构建 QwenLong-L1 长上下文推理强化学习框架

基于渐进式上下文扩展技术和混合奖励机制，QwenLong-L1 通过强化学习实现了从短文本到长文本的稳定上下文适应。

开源 QwenLong-L1-32B 长上下文文档推理大模型

与前沿长上下文推理大模型相比，QwenLong-L1-32B 实现了显著的性能提升，相较于
DeepSeek-R1-Distill-Qwen-32B 平均提升 7.8%，不仅超越 OpenAI-o3-mini、Qwen3-235B-A22B 等旗舰模型，更与
Claude-3.7-Sonnet-Thinking 性能对标，为长文本推理优化提供了基础性技术方案。

性能测试：

在国内外旗舰推理模型中处于领先地位：

QwenLong-L1-14B 模型平均 Pass@1 达到 68.3，超越 Gemini-2.0-Flash-Thinking, R1-Distill-Qwen-32B, Qwen3-32B；
QwenLong-L1-32B 模型平均 Pass@1 达到 70.7，超越 QwQ-Plus, Qwen3-Plus, OpenAI-o3-mini, 与 Claude-3.7-Sonnet-Thinking 持平；