AI日报：京东物流推出超脑大模型2.0；DeepSeek V3.1终结版发布；Kimi 推出全新 Agent 模式

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解：https://app.aibase.com/zh

1、京东物流推出 “超脑大模型 2.0” 和 “异狼具身智能机械臂系统”

京东物流在JDDiscovery-2025大会上发布了“超脑大模型2.0”和“异狼具身智能机械臂系统”，标志着物流行业从“辅助决策”迈向“具身执行”时代。这些技术提升了物流供应链效率，并实现了智能化闭环系统。

【AiBase提要:】
🚀 京东物流发布“超脑大模型2.0”和“异狼机械臂”，推动物流行业智能化升级。
📦 “超脑大模型2.0”可在2小时内解决千万级变量，提升物流作业效率。
🤖 “异狼”机械臂具备自主学习能力，实现复杂包裹的高精度抓取操作。

2、DeepSeek V3.1终结版发布：修复关键漏洞提升稳定性，V4新架构呼之欲出

DeepSeek发布了V3.1-Terminus版本，显著提升了模型稳定性并修复了关键问题。同时，该版本可能标志着V3系列的结束，并为即将推出的V4版本或R2重大更新铺路。

【AiBase提要:】
✅ 提升模型稳定性，修复了中英文混杂输出和异常字符问题。
🛠️ 优化Code Agent和Search Agent模块，提高代码生成和搜索准确性。
🚀 预示V4版本或R2重大更新，可能采用全新架构设计。

3、Kimi 推出全新 Agent 模式 “OK Computer”，开启灰度测试

Kimi 推出了全新的 Agent 模式 "OK Computer"，并开启了灰度测试。该模式基于 Kimi K2 模型，支持多功能智能服务，用户只需简单下达需求即可完成网站开发、数据分析等复杂任务。

【AiBase提要:】
🌟 Kimi 推出全新 Agent 模式 "OK Computer"，支持多功能智能服务。
💻 用户可通过简单需求下达，完成网站开发和数据分析等复杂任务。
🚀 Kimi K2 模型在自主编程和工具调用方面展现出卓越性能，参数总量达1T。

4、ChatGPT 全新上线个性化资讯功能，您的专属新闻助手来了！

ChatGPT 推出个性化资讯功能，通过分析用户对话历史，为用户提供定制化的每日资讯，涵盖多个领域，提升信息获取效率。

【AiBase提要:】
🤖 ChatGPT 根据用户聊天历史推送个性化资讯
📰 资讯涵盖新闻、科技、经济等多个领域
💡 旨在提升用户获取信息的效率和体验

5、LLM编码幻觉终结者！Exa Code发布，亿级代码索引让AI代理零失误

Exa Code是一款专为Coding Agent优化的网络上下文工具，通过索引大量文档和代码库，提供高效、精确的代码上下文，帮助大型语言模型避免生成错误代码。其核心创新在于精准提取相关token，减少幻觉风险，并在多个场景中表现出色。

【AiBase提要:】
🔥 Exa Code是首个针对Coding Agent设计的专用解决方案，提升AI代理的可靠性。
💡 精确上下文提取确保信息密度最大化，避免冗长输出。
🚀 免费开源且易于集成，适用于多种编程需求，加速开发流程。
详情链接:https://exa.ai/blog/exa-code

6、Meta推出AI视频生成平台Vibes，轻松创作和分享 AI 短视频

Meta 推出的 Vibes 平台为用户提供了便捷的 AI 视频创作工具，支持多种创作方式，并允许跨平台分享，提升了用户的创意体验。

【AiBase提要:】
🎬 Vibes 是一个让用户轻松创建和分享 AI 生成短视频的平台。
🎨 用户可以使用现有素材、从头开始或 remix 动态进行创作。
📱 视频可直接发布到 Vibes 或跨平台分享至 Instagram 和 Facebook。
详情链接:https://about.fb.com/news/2025/09/introducing-vibes-ai-videos/

7、蚂蚁数科发布新隐私保护AI算法，推理速度提升超100倍

蚂蚁数科凭借其新推出的隐私保护AI训练框架Gibbon，在隐私计算领域取得重大突破，显著提升数据隐私与高效计算的平衡能力。

【AiBase提要:】
🧠 Gibbon框架通过创新的安全两方训练方式，显著提升了传统GBDT模型的训练速度。
🔒 基于同态查找表的隐私保护决策图推理技术，极大增强了数据隐私保护下的计算效率。
🌐 蚂蚁数科构建了多元化的隐私计算产品矩阵，为多个行业提供高安全、高性能的解决方案。

8、OpenAI 最新基准测试显示 GPT-5 在多个行业中逐渐逼近人类专家

OpenAI 发布了新的基准测试 GDPval，用于评估 AI 模型在多个行业与人类专业人士的表现。GPT-5 和 Claude Opus4.1 在部分任务中表现接近行业专家，但目前仍无法完全取代人类工作。测试涵盖了九个主要行业和44种职业，并计划未来推出更全面的测试。

【AiBase提要:】
🌟 OpenAI 发布的新基准测试 GDPval 评估 AI 模型在多个行业的表现，与人类专家的能力逐渐接近。
🤖 GPT-5 模型在 44 种职业中有 40.6% 的任务表现优于或持平于行业专家，而 Claude Opus4.1 则为 49%。
📈 OpenAI 计划未来推出更全面的测试，以更准确评估 AI 在真实工作中的能力和表现。
详情链接:https://openai.com/index/gdpval/

（举报）