AI21 发布开放源代码迷你语言模型Jamba Reasoning3B

AI21Labs 近日宣布推出其最新的开源小型语言模型 ——Jamba Reasoning3B。这款被称为 “迷你语言模型” 的系统专为在设备上进行人工智能计算而设计。Jamba Reasoning3B 是该公司在特拉维夫开发的 Jamba 系列模型的最新成员，并采用 Apache2.0许可证发布。

与大多数市场上流行的大型语言模型（LLM）不同，Jamba Reasoning3B 建立在 AI21自有的混合状态空间模型(SSM)- 变换器架构之上。状态空间模型是一种用于序列建模的深度学习算法，相比传统变换器在某些任务上更加高效。这类模型通过当前状态预测下一个状态。Mamba 是一种基于 SSM 的神经网络架构，构成了 Jamba 架构的一部分。

这款迷你语言模型的上下文窗口长度达到了256，000个标记，最多可以处理1，000，000个标记，具备与 Anthropic Claude、Google Gemini 和 Meta Llama 等大型语言模型相似的能力，但却可以在 iPhone、Android 设备、Mac 和 PC 等小型设备上运行。

Futurum Group 的分析师 Brad Shimmin 表示，他一直是状态空间模型的支持者，认为这一理念在行业内已有相当长的历史，但直到现在才有切实可行的实现方式。他指出，随着技术的演进，状态空间模型的使用变得更加可行，因为其扩展性强且速度快。

SSM 类型模型使用绳索缩放技术来扩展模型的注意机制，从而有效优先处理任务，同时所需的计算能力比大型语言模型少。虽然 AI21是一家相对较小的生成 AI 公司，但由于其获得了 Google 和 AI 芯片巨头 Nvidia 的支持，并自2017年成立以来融资超过6亿美元，因此它可以通过建立生态系统来从开放源代码模型 Jamba Reasoning3B 中获利。

在发布会上，AI21展示了 Jamba 模型在广泛使用的基准测试系统如 IFBench、MMLU-Pro 和 Humanity"s Last Exam 上的表现，证明其超越了包括阿里巴巴的 Qwen3.4B、谷歌的 Gemma3.4B、Meta 的 Llama3.23B、IBM 的 Granite4.0Micro 和微软的 Phi-4Mini 等多个大型开源 LLM。

Shimmin 认为，这款迷你语言模型在企业市场中有广阔的前景，因其支持检索增强生成技术，企业能够根据自身需求进行定制，同时确保数据的安全性。他提到，一个潜在的应用领域是客户服务中心，通过其推理能力来处理客户投诉，判断问题是否需要升级到人工或其他模型。

划重点:
✨ AI21Labs 发布了 Jamba Reasoning3B，一个开放源代码的迷你语言模型，专为边缘 AI 应用设计。
🔍 Jamba Reasoning3B 采用了混合的状态空间模型架构，能够高效处理大量数据并在小型设备上运行。
💼 该模型在企业市场具有潜力，能够根据企业需求进行定制，同时确保数据安全。