Zhipu AI发布了 GLM-4.5 和 GLM-4.5-Air。按照设计,这两个新 AI 模型可以在单一架构内处理推理、编码和代理任务。它们使用了双模式系统,可以在复杂问题解决和快速响应两种模式之间切换,从而提高准确性和速度。
GLM-4.5 总共有 355B 个参数,其中 32B 是活跃的,而它的轻量级版本 GLM-4.5-Air 则总共有 106B 个参数和 12B 的活跃参数。两个模型都使用专家混合(MoE)架构,并针对两种模式进行了优化:一种是“思考”模式,用于复杂推理和工具使用;另一种是“非思考”模式,用于快速响应。
GLM-4.5 的架构优先考虑深度而非广度——与 DeepSeek-V3 等模型形成了鲜明对比——并且每层使用 96 个注意力头。它还整合了 QK-Norm、分组查询注意力、多令牌预测和 Muon 优化器,加快收敛速度,改进推理性能。
训练是在一个有 22T 令牌的语料库上进行的,其中包括 7T 专门用于代码和推理的令牌,随后使用 Zhipu AI 自研的 slime RL 基础设施进行了强化学习。其设置中有一个异步代理 RL 训练管道,可以最大化吞吐量并支持长视距任务。
Zhipu AI 报告称,在涵盖代理任务、推理和编码的 12 个基准测试的综合排名中,GLM-4.5 位列第三,仅次于最顶级模型 OpenAI 和 Anthropic。GLM-4.5-Air 排名第六,超过了许多类似或规模更大的模型。

图片来源:Zhipu AI 博客
GLM-4.5 在编码基准测试中表现特别强势。它在 SWE-bench Verified 上达到了 64.2%,在 TerminalBench 上达到了 37.5%,这使得它在多个指标上领先于 Claude 4 Opus、GPT-4.1 和 Gemini 2.5 Pro。其工具调用成功率达到了 90.6%,超过了 Claude-4-Sonnet(89.5%)和 Kimi K2(86.2%)。
早期测试者对 GLM-4.5 的编码和代理能力给予了高度评价。一位 Reddit 用户分享道:
从初步比较来看,这些模型似乎非常好。GLM-4.5 在编码任务上似乎非常出色,而在我的代理研究和摘要基准测试中,GLM-4.5-Air 似乎比 Qwen 3 235B-a22b 2507 更好。
还有一位用户对 GLM 系列的速度和语言熟练度发表了看法:
GLM 令人印象非常深刻。我还没有尝试 4.5,但 4.1 Thinking Flash 在 Scolarius 的法语语言测试中得分约为 150/200——在我个人比较过的 19 个 LLM 中是最好的模型之一。速度也极快。
GLM-4.5 可以通过 Z.ai 直接使用,也可以通过Z.ai API调用,或集成到现有的编码代理工具如 Claude Code 或 Roo Code 中。Hugging Face和 ModelScope 提供了本地部署的模型权重,支持 vLLM 和 SGLang 推理框架。
声明:本文为 InfoQ 翻译,未经许可禁止转载。
原文链接: