AI日报：腾讯混元3D生成模型2.5版本发布；海螺推出图像人物参考功能；百度上线移动端超级智能体心响App

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、Manus开源平替!Kortix-AI正式发布开源通用AI智能体平台Suna

Kortix-AI推出了Suna，一个开源的通用AI智能体平台，旨在成为Manus的替代品。Suna集成了多种功能，如浏览器自动化、文件管理和API集成，能够通过自然语言对话自动化处理复杂任务。该项目已在GitHub上线，迅速吸引了AI开发者和自动化爱好者的关注。

【AiBase提要:】
🌐 Suna集成浏览器自动化、文件管理和API集成等多种功能，支持复杂任务的自动化处理。
📊 通过模块化设计，Suna为用户提供从数据处理到流程自动化的完整解决方案，适用于多种实际场景。
🚀 Suna的开源特性和灵活部署选项使其成为开发者和企业的理想选择，降低了开发与部署的门槛。
详情链接:https://github.com/kortix-ai/suna

2、腾讯混元3D生成模型正式发布2.5版本

腾讯混元3D生成模型的2.5版本正式发布，标志着3D生成技术进入超高清时代。此次升级在建模精细度和用户体验上都有显著提升，降低了3D内容创作的门槛。新版本支持4K高清纹理和细粒度bump贴图，极大增强了模型的真实感和质感。此外，免费生成额度翻倍，吸引更多创作者使用，推动3D内容创作的普及。

【AiBase提要:】
🚀 建模精细度提升，几何分辨率达到1024，模型表面更平整、细节更丰富。
💰 免费生成额度翻倍，提升至每天20次，吸引更多创作者尝试使用。
🌐 混元3D生成API上线腾讯云，支持企业级应用，推动3D内容创作普及。
详情链接:https://3d.hunyuan.tencent.com/

3、海螺推出图像人物参考功能，允许用户基于单张图像生成多角度、动态姿势的角色图像

MiniMax旗下的Hailuo AI推出了Hailuo Image的全新功能——Character Reference，允许用户基于单张参考图像生成多角度、动态姿势的角色图像。此功能引入了丰富的表情控制和电影化的光影效果，极大提升了AI图像生成的创意表达和角色一致性。

【AiBase提要:】
🎭 多角度与动态姿势:用户可基于单张图像生成角色在不同视角与姿势的图像，保持角色特征一致。
💡 丰富表情控制:支持多样化角色表情生成，确保情感表达自然生动，适合叙事与品牌内容创作。
🎥 电影化光影与构图:提供专业光影效果与优化构图，生成结果媲美电影画面，增强视觉冲击力。
详情链接:https://hailuoai.video/create

4、百度上线“心响”App 号称复杂任务全托管超级AI智能体

百度近期推出了心响App，这是一款专为移动端设计的多智能体协作应用。该应用通过智能化手段解决用户在日常生活中遇到的复杂需求。心响App整合了地图类MCP功能，支持行程自动标注和出行打车推荐，用户只需自然语言描述需求，系统便能快速规划出行方案。此外，该应用在健康和法律领域引入了多智能体协作机制，提供更专业的咨询服务。

【AiBase提要:】
🗺️ 心响App整合了地图类MCP功能，提供行程自动标注和出行打车推荐服务。
🏥 在健康领域，系统通过调度多位“医生AI分身”进行联合会诊，提供全面的健康建议。
⚖️ 法律服务方面，多个律师AI分身组成的“律师智囊团”协同为用户提供高质量的法律咨询。

5、颠覆性开源 TTS 模型 Dia 发布:情绪、非语言提示全支持，媲美真人对话

Nari Labs 发布了其开源文本转语音模型 Dia，具备16亿参数，旨在生成自然对话。与 ElevenLabs 和谷歌的产品相比，Dia 的表现更为出色，尤其在情感语调和非语言提示方面。该模型在零资金情况下开发，已在 Hugging Face 和 GitHub 开源，支持用户下载和本地部署。

【AiBase提要:】
🎤 Dia 是一个拥有16亿参数的开源文本转语音模型，旨在生成自然对话。
💡 该模型支持情绪语调和非语言音频提示，能够正确解读多种文本标签。
🔗 Dia 的代码和权重已在 Hugging Face 和 GitHub 上开源，供用户下载和体验。
详情链接:https://github.com/nari-labs/dia

6、Grok大更新!视觉能力、多语言音频处理与实时搜索功能震撼上线

Grok的最新更新为用户带来了显著的功能提升，特别是在视觉处理、多语言音频交互和实时搜索方面的突破。这些新功能不仅增强了Grok的智能化水平，还提升了用户的交互体验。通过视觉能力，用户可以上传图片进行分析，而多语言音频处理则支持145种语言的实时语音交互，极大地方便了跨语言沟通。

【AiBase提要:】
🖼️ Grok的视觉处理能力现已上线，用户可通过上传图片分析复杂视觉内容，提升应用价值。
🌍 支持145种语言的多语言音频处理功能，用户可以享受流畅的语音交互体验，适用于多种场景。
🔍 新增的实时搜索功能使用户能够通过语音指令快速获取最新信息，提升了信息的时效性与可信度。

7、Genspark AI幻灯片工具发布，革新专业演示文稿创作

Genspark推出的AI幻灯片工具通过自动化和智能整合，显著提升了专业演示文稿的创作效率。该工具支持多种数据格式的处理，能够快速生成学术报告和商业演示，尤其适合学术研究和企业报告。用户反馈积极，认为其高效性和艺术风格化的功能为演示文稿创作带来了新的可能性，未来还将不断优化与扩展。

【AiBase提要:】
📊 多格式数据整合:支持处理多种数据格式，自动提取关键信息，减少手动整理时间。
📚 学术报告生成:利用自然语言处理快速生成包含引文和可视化图表的学术报告，适合学术场景。
🎨 艺术风格化支持:提供多种视觉表达选项，用户可根据品牌需求生成个性化演示文稿。

8、Character.AI 推出 AvatarFX 模型:让静态图片中的人物“开口说话”

Character.AI 最近推出的 AvatarFX 模型是一项革命性的技术，它能够将静态图片转化为生动的可说话视频角色。通过先进的动态生成技术，AvatarFX 不仅实现了图像中的人物动态表情和唇部同步，还提供多样的音频选择，增强了用户的沉浸感。此外，平台非常重视用户的安全体验，确保创作过程中的内容健康。

【AiBase提要:】
🎨 AvatarFX 利用基于扩散模型的动态生成技术，将静态图片转化为生动的视频角色，具备真实感的表情和动作。
🔊 内置多种音频功能，用户可自由选择不同风格的声音，增强故事叙述的生动性和吸引力。
🛡️ 平台重视用户安全，提供强大的安全控制措施，确保创作环境健康，避免不适当内容风险。
详情链接:https://character-ai.github.io/avatar-fx/

9、白板+代码编辑器组合工具pad.ws:开发者可在同一界面画图编程，实现边画边写代码

pad.ws是一款创新的在线工具，将白板与代码编辑器完美结合，为开发者和设计师提供了全新的协作体验。它支持多种编程语言，并具备实时协作、无限画布等功能，满足了远程团队和教育场景的多样化需求。用户反馈显示，pad.ws以其流畅的用户体验和开源特性受到广泛欢迎，未来有望推出更多创新功能。

【AiBase提要:】
🖊️ 无限画布与协作白板:用户可以在无限画布上绘制流程图和草图，支持多人实时协作，提升团队效率。
💻 实时代码编辑:内置支持多种编程语言的代码编辑器，提供语法高亮和错误提示，实现边画边码的流畅体验。
🔒 开源与隐私保护:作为开源工具，用户可定制功能，支持本地部署和端到端加密，确保数据安全。
详情链接:https://github.com/pad-ws/pad.ws

10、OpenBMB “卷姬” 入职!革新长文本生成，挑战传统综述模式

OpenBMB开源社区新成员“卷姬”在长文本生成领域引起了广泛关注。通过信息熵和卷积算法，“卷姬”能够高效整合大量文献，生成高质量的综述报告。用户只需提供关键词，便可获得逻辑严谨、见解独到的内容。与其他模型的横向评测显示，“卷姬”在结构、内容及引用方面表现优异，展现出强大的技术实力。

【AiBase提要:】
📚 “卷姬”利用信息熵和卷积算法，快速整合海量文献生成高质量综述。
💻 用户可通过简单操作获取综述报告，支持普通和专业模式。
🚀 LLMxMapReduce-V2技术赋能“卷姬”，在长文本生成领域展现强劲实力。
详情链接:https://surveygo.thunlp.org/

11、腾讯混元大模型AI阅读助手——企鹅读伴正式上线

腾讯在世界读书日推出的“企鹅读伴”是一款创新的AI阅读助手，旨在为中小学生提供丰富的阅读体验。该产品结合了AI技术与教育理念，能够根据学生的年级和兴趣进行个性化书籍推荐。通过角色扮演、情景生成等互动方式，学生不仅能深入理解经典作品，还能在游戏化的环境中提升阅读兴趣，最终实现阅读成果的量化和可追踪。