技术解读 21小时前 80 浏览次数 0 评论

DeepSeek V3.1 发布,采用了混合推理架构

InfoQ
InfoQ

发布了 256 文章

DeepSeek发布V3.1版本,引入了一种混合架构,在一个系统中提供了思考和非思考模式。思考模式,即DeepSeek-V3.1-Think,相较于之前的DeepSeek-R1-0528模型,它在保持类似的响应质量的同时提供了更快的推理速度。此外,通过一系列精心设计的后训练优化调整,改进了工具使用和多步骤任务执行。


DeepSeek-V3.1的开发以 DeepSeek-V3-Base 检查点为基础,采用了两阶段上下文扩展策略。第一阶段将上下文窗口扩展到 32000 个词元,使用了包含 6300 亿个词元的训练数据。第二阶段进一步将上下文扩展到 128000 个词元,增加了 2090 亿个训练词元。这种策略显著提升了模型处理长输入序列的能力,远超早期版本。


V3.1 的训练还采用了FP8 UE8M0精度,用于权重和激活。这种精度格式不仅提升了计算效率,还与微缩放技术完美兼容,从而使得大规模模型的部署变得更加高效。从规模来看,完整的 DeepSeek-V3.1 模型包含 6710 亿个总参数,每个词元大约可激活 370 亿个参数,同时支持扩展至 128000 个词元上下文长度。


在开源编码和推理基准测试中,DeepSeek V3.1 的排名接近榜首。在社区测试环节,它在Aider基准测试中得分 71.6%,超过了Claude 4,并与GPT-4接近,而运行完整套件的计算成本约为 1 美元,相较于其他模型动辄数十美元,其性价比优势不言而喻。


Reddit 和 X 上的讨论呈现出对 DeepSeek V3.1 的多样化评价。一些开发人员将其描述为 GPT 或 Claude 的高性价比替代品,指出其在编码和推理基准测试中以极低的成本取得了极佳的效果。用户badgerbadgerbadgerWI评论道:

DeepSeek 的成本和性能比令人难以置信。我们现在在本地部署运行它来进行代码审查工作。


AI 工程师Prince Ramoliya分享道:

混合推理真是太棒了。拥有一个可以在深度思考和快速响应之间切换的模型,这感觉像是实用 AI 的未来。


DeepSeek 模型可通过多个平台获取,包括Hugging FaceOpenRouterReplicate。它还附带了官方的API文档更新说明,详细描述了技术细节和性能基准。开发人员可以尝试标准响应生成和推理增强输出,并根据任务需求选择合适的模式。


与 DeepSeek-V3 相比,新版本旨在平衡效率与推理能力。通过整合工具使用和结构化的后训练优化,DeepSeek-V3.1 力图攻克多步骤推理任务所面临的难题,同时确保推理速度契合生产环境的实用需求。混合架构设计是融合显式推理之长与传统自回归生成高效吞吐量优势的匠心之举。


【声明:本文由 InfoQ 翻译,未经许可禁止转载。】


原文链接:

https://www.infoq.com/news/2025/09/deepseek-v31-hybrid/

InfoQ

InfoQ

256 文章 36191 浏览次数 0 粉丝

评论 (0)

睡觉动画