大模型六小虎MiniMax推出Agent全栈开发功能，一键构建全栈应用

Mistral AI只是想做欧洲版的OpenAI？

最近几个月，由谷歌和 Meta 前研究人员建立的欧洲的 AI 初创公司 Mistral AI 有些躁动不安。

他们接连发布了好些个开源模型，覆盖不同的领域，包含号称「世界上最优秀」的 OCR 模型、「对标 Claude」的多模态模型、首个推理大模型 Magistral 以及两天前发布的「全球最佳」的开源语音模型 Voxtral。

这样似乎也很难让这位欧洲 AI「新贵」感到满意，他们还想在应用层面好好地卷一卷 OpenAI。

他们将 Le Chat 再一次升级，引入了一些强大的新功能，使其更强大、更直观，也更有趣，在功能上几乎全方位对标 ChatGPT。

Le Chat 的新功能

深度研究模式：即使是复杂主题，也能快速生成结构化的研究报告。
语音模式：使用我们的新 Voxtral 模型与 Le Chat 对话，而不是用键盘输入。
原生多语言推理：借助我们的推理模型 ——Magistral，获取深思熟虑的答案。
项目管理：将您的对话组织到内容丰富的文件夹中。
高级图像编辑，在 Le Chat 中直接进行，与 Black Forest Labs 合作。

研究模式可将 Le Chat 转变为一个协调的研究助手，能够规划、明确需求、搜索和综合信息。提出一个有深度的问题，它会将其分解，收集可靠的资料，并构建一个结构清晰、有参考文献支持且易于理解的报告。

它由工具增强型深度研究 Agent 驱动，但设计得简单、透明且真正有帮助，仿佛与一个组织良好的研究伙伴合作。

Mistral AI 也在官网展示了一些用例。深度研究模式能够追踪市场趋势、撰写商业策略书、做个人计划以及最重要的、进行学术研究。

语音模式可以像和人聊天一样与 Le Chat 交流 —— 无需打字。你可以在散步时头脑风暴、在处理杂事时快速获取答案或转录会议内容。它由 Mistral 新的语音输入模型 Voxtral 驱动，专为自然、低延迟的语音识别而构建，能跟上用户的工作速度。

但目前 Le Chat 仅支持语音转文字的输入，该功能并非实时语音对话。

所以，跟电子助手聊天的功能依旧没有实现，更别提 Grok 4 Ani 那样的数字伴侣了。

在图像编辑功能方面，可以通过「移除物体」或「将我放置在另一个城市」等简单提示来创建并编辑图像。模型支持转换场景，同时保留角色和细节。这有助于保证编辑的一致性：可以保持人物、物体和设计元素在图像之间的不会变得认不出来。

图像编辑这块，Le Chat 似乎做得出人意料的好。网友在论坛分享了使用体验，认为 Le Chat 做得比 OpenAI 更好。

「OpenAI 的模型在编辑时会改变整个图像，导致无关区域出现细节错误。（Le Chat）似乎完美地保留了与查询无关的图像部分，并选择性地应用编辑，这令人印象深刻！」

网友上传了一张家庭办公室的照片，并提出了以下提示：「修复照片底部略微撕裂的灰色面板，让它们看起来像全新的」，编辑结果非常令人满意。

上图为原始图像，下图为编辑后图像

对于这些新功能，我们的读者想必已经非常熟悉。在这一次的大更新之后，Le Chat 在功能上基本实现了与 ChatGPT 等行业领先的产品保持一致。

最近 Mistral AI 的动作确实让人看到了欧洲在大模型领域保持追赶的势头。对此，网友们表达了对 Mistral 快速追赶的兴奋。

值得分享的是，Le Chat 在法语中意为「猫」，而 Mistral AI 的主页底部就有一只像素猫咪，Mistral AI 图标也形似一只猫猫头，非常可爱。

Mistral AI 的语音识别模型

7 月 15 日，Mistral AI 发布了全新的语音识别模型 Voxtral，号称是「全球最佳（且开源）」的语音识别模型。

Voxtral 在语音转写方面全面超越了 Whisper large-v3，当前领先的开放源代码语音转写模型。它在所有任务中都击败了 GPT-4o mini Transcribe 和 Gemini 2.5 Flash，并在英语短形式和 Mozilla Common Voice 上取得了最先进的结果，超越了 ElevenLabs Scribe，展示了其强大的多语言能力。

Voxtral 3B 和 Voxtral 24B 模型不仅仅具备语音转录功能，还具备以下能力：

超长上下文理解：支持最长 32k token 的上下文，转录最长达 30 分钟音频，理解可达 40 分钟；
内置问答与摘要功能：无需将语音识别与语言模型串联，即可直接针对音频内容提问或生成结构化摘要；
原生多语种支持：具备自动语言识别功能，在全球主流语言（如英语、西班牙语、法语、葡萄牙语、印地语、德语、荷兰语、意大利语等）中均达到业内领先表现，助力团队以单一系统服务全球用户；
从语音直接触发函数调用：可根据用户的语音意图直接触发后端函数、工作流或 API 调用，无需中间解析步骤，实现语音到系统指令的无缝转换；
强大的文本理解能力：延续其语言模型基础（Mistral Small 3.1）在文本处理方面的高性能表现。

文章来自微信公众号 “ 机器之心 ”