AI日报：阿里通义开源音频生成模型ThinkSound；谷歌Veo3支态图片生成视频；昆仑万维发布 Skywork-R1V 3.0

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、阿里通义开源支持链式推理的音频生成模型ThinkSound

阿里语音AI团队开源了全球首个支持链式推理的音频生成模型ThinkSound，该模型通过引入思维链技术，突破传统视频转音频技术的局限，实现高保真、强同步的空间音频生成。这一技术进步标志着AI音频从“看图配音”向“结构化理解画面”的跨越。

【AiBase提要:】
🧠 ThinkSound首次将多模态大语言模型与统一音频生成架构结合，实现精准音频合成。
📊 研究团队构建了包含2531.8小时高质量样本的AudioCoT数据集，提升模型处理复杂指令的能力。
🚀 ThinkSound在多个测试集中表现优于主流方法，代码和预训练权重已开源，开发者可免费获取。
详情链接:https://github.com/FunAudioLLM/ThinkSound https://huggingface.co/spaces/FunAudioLLM/ThinkSound https://www.modelscope.cn/studios/iic/ThinkSound

2、谷歌Veo3重磅升级，支持静态图片生成生动视频

谷歌宣布对 AI 视频生成工具 Veo3进行重磅升级，用户只需上传一张静态照片即可生成高质量的音频和视频内容，展示了 AI 在创作领域的巨大潜力。Veo3的核心功能包括保持角色在多个镜头下的一致性，并提供丰富的运镜功能，如推镜头。此外，用户可以选择不同质量的生成模型，但需要消耗相应的 credits。

【AiBase提要:】
🖼️ Veo3升级后支持从单张静态图片生成高质量动态视频。
🎥 支持运镜功能，如推镜头（Dolly in），提升视频专业性。
🔊 用户可选择不同质量模型，但需消耗相应 credits 资源。

3、Hugging Face发布新一代小参数模型 SmolLM3:128K上下文，双模式推理

Hugging Face发布了SmolLM3，一款具有30亿参数的小型开源模型，其性能优于Llama-3.2-3B和Qwen2.5-3B。该模型支持多种语言处理，并具备双模式推理功能，同时公开了架构细节以促进研究与优化。

【AiBase提要:】
🧠 SmolLM3拥有30亿参数，性能超越同类开源模型，支持多语言处理。
⚙️ 提供深度思考和非思考两种推理模式，灵活应对不同需求。
📊 采用先进的transformer解码器架构，通过三阶段混合训练提升能力。
详情链接:https://huggingface.co/HuggingFaceTB/SmolLM3-3B-Base

4、阿里开源 WebSailor，具备强大的推理和检索能力

阿里通义开源了网络智能体 WebSailor，其在中英文任务的 BrowseComp 评测集中表现出色，超越了 DeepSeek R1和 Grok-3等闭源模型，展现了强大的推理和检索能力。银河证券指出 AI Agent 经济已全面开启，并建议关注布局领先的 SAAS 企业。相关上市公司如焦点科技和中科金财已在 AI Agent 技术应用上有所布局，推动了智能体技术的发展。

【AiBase提要:】
📌 阿里通义开源 WebSailor，展现出色的推理与检索能力。
📈 银河证券指出 AI Agent 经济全面开启，建议关注相关 SAAS 企业。
💡 相关公司如焦点科技和中科金财在智能体技术应用上具备明显优势。
详情链接:https://github.com/Alibaba-NLP/WebAgent

5、Moonvalley发布Marey Realism v1.5:原生1080P AI视频模型，零版权风险引领行业新风向!

Moonvalley推出的Marey Realism v1.5AI视频生成模型在画质、创作自由度和法律合规性上实现了全面升级。其原生1080P视频生成能力、基于授权内容的训练数据以及精准解读复杂提示的能力，为影视制作和广告创意提供了更安全、高效的工具。