Ring-lite是什么
Ring-lite是蚂蚁技术AntTech团队推出的基于MoE架构的轻量级推理模型。模型用Ling-lite-1.5为基础,基于独创的C3PO强化学习训练方法,在多项推理Benchmark上达到SOTA效果,仅用2.75B激活参数。Ring-lite基于稳定强化学习训练、优化Long-CoT SFT与RL的训练比重、解决多领域任务联合训练难题等技术创新,实现高效推理。Ring-lite开源了技术栈,包括模型权重、训练代码、数据集等,推动轻量级MoE推理模型的发展。

Ring-lite的主要功能
- 高效推理:Ring-lite能在多项复杂的推理任务中实现高效推理,如数学推理、编程竞赛和科学推理等。
- 轻量级设计:Ring-lite的总参数量为16.8B,激活参数仅为2.75B,在保持高性能的同时,具有较低的计算资源需求,适合在资源受限的环境中使用。
- 多领域推理:Ring-lite能处理多个领域的推理任务,包括数学、编程和科学等。它通过联合训练和分阶段训练的方法,实现在不同领域之间的协同增益,提高模型的泛化能力。
- 稳定训练:Ring-lite基于C3PO强化学习训练方法,解决传统强化学习训练中的不稳定性问题,提高训练过程的稳定性和效率。
Ring-lite的技术原理
- MoE架构:Ring-lite基于Mixture-of-Experts(MoE)架构,基于多个专家网络的组合处理输入数据。每个专家网络负责处理特定的子任务或数据特征,提高模型的推理能力和效率。
- C3PO强化学习训练方法:C3PO(Constrained Contextual Computation Policy Optimization)是创新的强化学习训练方法。基于固定每个训练步骤的总训练token数,消除由于生成回复长度波动带来的优化不稳定和吞吐波动问题。C3PO基于熵损失(entropy loss)的策略选择合适的起点模型,进一步稳定训练过程。
- Long-CoT SFT与RL的结合:Ring-lite基于Long-CoT(长推理链)监督微调(SFT)和强化学习(RL)相结合的两阶段训练方法。用Long-CoT SFT,模型能学习到复杂的推理模式;基于RL,模型能在特定任务上进一步优化性能。Ring-lite基于实验确定最佳的SFT和RL训练比重,在token效率和性能之间取得平衡。
- 多领域数据联合训练:Ring-lite在训练过程中采用数学、编程和科学等多个领域的数据。基于分阶段训练的方法,在数学任务上进行训练,然后在代码和科学任务上进行联合训练,有效地解决多领域数据联合训练中的领域冲突问题。
Ring-lite的项目地址
- GitHub仓库:https://github.com/inclusionAI/Ring
- HuggingFace模型库:https://huggingface.co/inclusionAI/Ring-lite
- arXiv技术论文:https://arxiv.org/pdf/2506.14731
Ring-lite的应用场景
- 教育领域:辅助学生解决复杂的数学和科学问题,提供详细的解题步骤和推理过程,帮助学生更好地理解和掌握知识。
- 科研领域:辅助研究人员验证和探索复杂的数学和科学问题,提供详细的推理步骤和解决方案,支持理论研究和实验设计。
- 工业和商业领域:处理和分析复杂的数据,提供推理过程和解决方案,用于金融、医疗和市场营销等领域的预测和决策支持。
- 智能助手:集成到智能助手中,提供更智能的推理和解答能力,处理复杂的查询和任务,提升用户体验。
- 医疗领域:辅助医生和研究人员分析和处理复杂的医学数据,提供详细的推理过程和解决方案,支持疾病诊断和治疗方案制定。