Ling-V2 – 蚂蚁百灵推出的大型语言模型系列
# AI工具,# AI项目和框架 AI视频

Ling-V2 – 蚂蚁百灵推出的大型语言模型系列

AI中国 AI中国 5小时前 152 阅读
4.8 (1280评分)

Ling-V2是什么

Ling-V2 是蚂蚁百灵团队推出的基于 MoE 架构的大型语言模型家族,首个版本 Ling-mini-2.0 拥有 160 亿总参数,每个输入标记仅激活 14 亿参数。模型在 20 万亿高质量数据标记上训练,经多阶段监督微调和强化学习增强,在复杂推理和指令遵循方面表现出色。Ling-mini-2.0 用 1/32 激活比率的 MoE 架构,实现 7 倍等效密集性能杠杆,生成速度快,训练和推理效率高,开源了 FP8 高效训练解决方案,提供多种预训练检查点,支持持续训练,是 MoE 研究的理想起点。

Ling-V2的主要功能

  • 强大的推理能力:在编码、数学以及跨领域知识密集型推理任务中表现出色,与10亿以下的密集模型和更大规模的MoE模型相比,展现出卓越的推理能力。
  • 高效率:采用1/32激活比率的MoE架构,实现7倍等效密集性能杠杆,激活14亿参数能提供相当于7-8亿密集模型的性能,在简单问答场景中生成速度可达300+ token/s,处理128K上下文长度时相对速度提升可达7倍以上。
  • 高效的训练解决方案:整个训练过程中用FP8混合精度训练,开源了FP8训练解决方案,基于tile/blockwise FP8缩放,进一步引入FP8优化器等,实现极致的内存优化,在8/16/32个80G GPU上,与LLaMA 3.1 8B和Qwen3 8B相比,训练吞吐量显著提升。
  • 开放的开源策略:除发布经过训练的版本外,开源了五个预训练检查点,支持更深入的研究和更广泛的应用。

Ling-V2的技术原理

  • MoE架构:基于混合专家(MoE)架构,通过将模型分解为多个专家网络,在每个输入标记上仅激活部分专家,实现模型的稀疏性,在保持高性能的同时提高计算效率。
  • 优化设计:在专家粒度、共享专家比率、注意力比率、无辅助损失+sigmoid路由策略、MTP损失、QK-Norm、半RoPE等方面进行经验优化设计,进一步提升模型的性能和效率。
  • FP8混合精度训练:在训练过程中用FP8混合精度,与BF16相比,在超过1万亿训练标记的实验中,损失曲线和下游基准性能几乎相同,同时开源FP8训练解决方案,支持社区在有限的计算资源下进行高效的持续预训练和微调。
  • 多阶段训练:模型在超过20万亿高质量数据标记上进行训练,通过多阶段的监督微调和强化学习进行增强,在复杂推理和指令遵循方面取得显著的改进。

Ling-V2的项目地址

  • GitHub仓库:https://github.com/inclusionAI/Ling-V2
  • HuggingFace模型库:https://huggingface.co/collections/inclusionAI/ling-v2-68bf1dd2fc34c306c1fa6f86

Ling-V2的应用场景

  • 自然语言处理(NLP)任务:高效处理各种自然语言处理任务,如文本分类、情感分析、机器翻译等,提供准确且高效的解决方案。
  • 智能客服:作为智能客服的核心引擎,快速响应用户问题,提供精准的解答,提升用户体验和客服效率。
  • 内容创作:辅助内容创作,生成高质量的文本内容,如新闻报道、创意写作、广告文案等,帮助创作者提高创作效率和质量。
  •  教育领域:用于教育领域,如智能辅导、自动批改作业、个性化学习计划等,为学生和教师提供个性化的教育支持。
  • 医疗健康:Ling-V2能处理医疗文本数据,辅助医生进行病例分析、医疗文献检索等,提高医疗决策的准确性和效率。

评分

4.8 (1280 人评分)

评论 (0)

睡觉动画