AI21Labs 近日宣布推出其最新的开源小型语言模型 ——Jamba Reasoning3B。这款被称为 “迷你语言模型” 的系统专为在设备上进行人工智能计算而设计。Jamba Reasoning3B 是该公司在特拉维夫开发的 Jamba 系列模型的最新成员,并采用 Apache2.0许可证发布。

与大多数市场上流行的大型语言模型(LLM)不同,Jamba Reasoning3B 建立在 AI21自有的混合状态空间模型(SSM)- 变换器架构之上。状态空间模型是一种用于序列建模的深度学习算法,相比传统变换器在某些任务上更加高效。这类模型通过当前状态预测下一个状态。Mamba 是一种基于 SSM 的神经网络架构,构成了 Jamba 架构的一部分。

这款迷你语言模型的上下文窗口长度达到了256,000个标记,最多可以处理1,000,000个标记,具备与 Anthropic Claude、Google Gemini 和 Meta Llama 等大型语言模型相似的能力,但却可以在 iPhone、Android 设备、Mac 和 PC 等小型设备上运行。

Futurum Group 的分析师 Brad Shimmin 表示,他一直是状态空间模型的支持者,认为这一理念在行业内已有相当长的历史,但直到现在才有切实可行的实现方式。他指出,随着技术的演进,状态空间模型的使用变得更加可行,因为其扩展性强且速度快。

SSM 类型模型使用绳索缩放技术来扩展模型的注意机制,从而有效优先处理任务,同时所需的计算能力比大型语言模型少。虽然 AI21是一家相对较小的生成 AI 公司,但由于其获得了 Google 和 AI 芯片巨头 Nvidia 的支持,并自2017年成立以来融资超过6亿美元,因此它可以通过建立生态系统来从开放源代码模型 Jamba Reasoning3B 中获利。

在发布会上,AI21展示了 Jamba 模型在广泛使用的基准测试系统如 IFBench、MMLU-Pro 和 Humanity"s Last Exam 上的表现,证明其超越了包括阿里巴巴的 Qwen3.4B、谷歌的 Gemma3.4B、Meta 的 Llama3.23B、IBM 的 Granite4.0Micro 和微软的 Phi-4Mini 等多个大型开源 LLM。

Shimmin 认为,这款迷你语言模型在企业市场中有广阔的前景,因其支持检索增强生成技术,企业能够根据自身需求进行定制,同时确保数据的安全性。他提到,一个潜在的应用领域是客户服务中心,通过其推理能力来处理客户投诉,判断问题是否需要升级到人工或其他模型。

划重点:

✨ AI21Labs 发布了 Jamba Reasoning3B,一个开放源代码的迷你语言模型,专为边缘 AI 应用设计。  

🔍 Jamba Reasoning3B 采用了混合的状态空间模型架构,能够高效处理大量数据并在小型设备上运行。  

💼 该模型在企业市场具有潜力,能够根据企业需求进行定制,同时确保数据安全。