全球AI新闻头条 | 政策解读·巨头动向·融资快讯 - AI中国|教程|工具大全

全球首部AI电影登陆院线：70分钟的长片，AI怎么做？｜对话主创

AIGC动画短片

全球首部AI电影登陆院线：70分钟的长片，AI怎么做？｜对话主创

声明:本文来自于微信公众号深响，授权站长之家转载发布。AI用于影视作品生产，早已不是什么新鲜事。Netflix早在2023年就发布了首部AIGC动画短片《犬与少年》;芒果TV的旅行综艺《我们仨》启用AI导演，负责旁白、串场和行程策划;美国导演哈莫尼·科林运用AI和游戏引擎制作的影片《暴力漂1流》入围威尼斯电影节非竞赛单元;上海国际电影节在今年的“SIFF ING青年新锐影像计划”中特地拆分出A

百度推出通用多智能体协作 App 心响，已上线超 200 个任务类型

百度推出通用多智能体协作 App 心响，已上线超 200 个任务类型

感谢IT之家网友 F宝、西窗旧事的线索投递！IT之家 4 月 25 日消息，今日 Create2025 百度 AI 开发者大会在武汉举行，会上百度正式推出一款通用多智能体协作 App 心响。目前产品已上线安卓版，iOS 正在上架中。目前，心响 App 已上线了包括例行任务、城市旅游、AI 相亲、深度研究、法律咨询、健康咨询、智慧图表、试题讲解、AI 绘本、游戏开发在内的十大场景超 200 个

Tavus发布SOTA唇形同步模型Hummingbird-0：革新零样本唇形同步技术

Tavus发布SOTA唇形同步模型Hummingbird-0：革新零样本唇形同步技术

近日，AI视频研究公司Tavus正式发布了其最新零样本唇形同步模型Hummingbird-0，被誉为当前最先进的唇形同步技术（State-of-the-Art， SOTA）。该模型已在Tavus平台、API以及FAL上开放研究预览，引发了AI内容创作领域的广泛关注。零样本唇形同步的突破性进展Hummingbird-0是Tavus基于其旗舰模型Phoenix-3组件开发的全新唇形同步模型。该模型的最

Secretary自媒体神器发布，自动化社交媒体分析赋能多场景应用

AI自媒体工具

社交媒体分析

Secretary自媒体神器发布，自动化社交媒体分析赋能多场景应用

一款名为Secretary的AI驱动自媒体工具正式亮相，专注于自动化跟踪与分析社交媒体内容，并将结果以Markdown格式推送至微信平台。据AIbase了解，Secretary支持Truth Social和Twitter（现为X）两大平台，允许用户为不同账号设置定制化分析主题(如财经、政治、科技)，并实现多团队定向推送。该工具的发布在开发者与企业用户中引发广泛关注，已通过GitHub开源。核心功能

利用AI助力办公，英国员工每年可节省122小时！

利用AI助力办公，英国员工每年可节省122小时！

近日，谷歌发布了一项新报告，指出如果能有效培训员工使用人工智能（AI），英国经济可能从 AI 驱动的增长中获益4000亿英镑(约合5330亿美元)。这项报告基于一项在英国进行的试点计划，结果显示，员工在行政工作中通过使用 AI 工具平均每年能够节省超过122小时的时间。报告强调，简化 AI 的使用步骤和提供适当的培训是提升 AI 普及率的关键。谷歌的欧洲、中东和非洲地区总裁黛比・温斯坦（Debbi

百度发布文心大模型 4.5 Turbo 与 X1 Turbo：降价提速，强力进化

文心大模型

百度发布文心大模型 4.5 Turbo 与 X1 Turbo：降价提速，强力进化

在4月25日举行的百度 Create 开发者大会上，百度创始人李彦宏隆重发布了最新的文心大模型系列 —— 文心4.5Turbo 和 X1Turbo。这两款新模型在速度和成本方面都进行了显著优化，标志着百度在人工智能领域的进一步突破。据悉，文心4.5Turbo 相比于之前的版本，其速度提升显著，处理效率更高，同时价格下降了整整80%。具体来看，每百万个 token 的输入费用仅为0.8元，而输出费用

Meta 发布 WebSSL 模型：无语言视觉学习的新探索

视觉自监督学习

多模态任务

Meta 发布 WebSSL 模型：无语言视觉学习的新探索

在人工智能领域，Meta 公司最近推出了 WebSSL 系列模型，这一系列模型的参数规模从3亿到70亿不等，基于纯图像数据进行训练，旨在探索无语言监督的视觉自监督学习（SSL）的巨大潜力。这一新研究为未来的多模态任务带来了新的可能性，也为我们理解视觉表征的学习方式提供了新的视角。过去，OpenAI 的 CLIP 模型因其在视觉问答（VQA）和文档理解等多模态任务中的优异表现而备受关注。然而，由于数

Eagle 2.5 – 英伟达推出的视觉语言模型

# AI项目和框架

Eagle 2.5 – 英伟达推出的视觉语言模型

Eagle 2.5是什么Eagle 2.5是英伟达推出的视觉语言模型，专注于长上下文多模态学习的 AI 模型，参数规模仅为 8B。参数量较小，但在处理高分辨率图像和长视频序列方面表现出色，性能媲美参数量更大的 Qwen 2.5-VL-72B 和 InternVL2.5-78B。Eagle 2.5 采用创新训练策略：信息优先采样和渐进式后训练。信息优先采样通过图像区域保留和自动降级采样技术，确保

DAM-3B – 英伟达推出的多模态大语言模型

# AI项目和框架

DAM-3B – 英伟达推出的多模态大语言模型

DAM-3B是什么DAM-3B（Describe Anything 3B）是英伟达推出的多模态大语言模型，专为生成图像和视频中特定区域的详细描述设计。模型通过点、边界框、涂鸦或掩码等方式指定目标区域，能生成精准且符合上下文的描述文本。 DAM-3B的核心创新包括“焦点提示”技术和“局部视觉骨干网络”。焦点提示技术将全图信息与目标区域的高分辨率裁剪图融合，确保细节不失真，同时保留整体背景。局部视

真正懂你的移动智慧屏酷开AI闺蜜机C20系列发布：3999元起

春季发布会

真正懂你的移动智慧屏酷开AI闺蜜机C20系列发布：3999元起

快科技4月23日消息，酷开在以大爱AI”为主题的2025春季发布会上发布超级智能体以及智能体硬件酷开学习机Y41 Air、酷开闺蜜机C20系列等产品，在这次活动上，深耕AI领域多年的酷开宣布：正式以AI原生企业的定位面向未来发展。本次发布会的重点产品之一是酷开AI闺蜜机C20系列，其中32英寸Pro版8GB 128GB售价3999元，32英寸Ultra版升级为4K分辨率，8GB 256GB售价

Ray-Ban Meta 智能眼镜正式推出实时翻译功能，支持四种语言和离线使用

Ray-Ban Meta 智能眼镜正式推出实时翻译功能，支持四种语言和离线使用

IT之家 4 月 24 日消息，Meta 公司今日宣布，将向所有 Ray-Ban Meta 智能眼镜用户推出一项全新的实时翻译功能。此前该功能仅以测试版的形式向部分早期体验用户开放，如今正式面向广大用户推出。据IT之家了解，该实时翻译功能支持英语、法语、意大利语和西班牙语四种语言，用户可以在对话中实时将这些语言相互翻译。只要提前下载了相应的语言包，即使没有 Wi-Fi 或移动网络连接，用户也能够

Anthropic 示警：Claude 等 AI 被滥用，引导舆论威胁公众认知

Anthropic 示警：Claude 等 AI 被滥用，引导舆论威胁公众认知

IT之家 4 月 24 日消息，Anthropic 昨日（4 月 23 日）发布博文，报告称 Claude 等前沿 AI 模型正被恶意行为者滥用，涉及“舆论引导服务”（influence-as-a-service）操作、凭证填充、招聘诈骗及恶意软件开发等活动。Anthropic 开发团队为 Claude 采取了多项安全措施，成功阻止了许多有害输出，但威胁行为者仍在尝试绕过这些保护。IT之家援引博

谷歌Gemini用户暴涨至3.5亿！但仍被ChatGPT碾压

AI聊天机器人

谷歌Gemini用户暴涨至3.5亿！但仍被ChatGPT碾压

最新数据显示，谷歌AI聊天机器人Gemini全球月活跃用户已达3.5亿，展现出惊人的增长势头。这一数据来自谷歌反垄断诉讼中披露的内部文件，揭示了AI助手市场的激烈竞争格局。爆发式增长轨迹-2024年10月:日活仅900万-2025年3月:日活飙升至3500万- 短短5个月:用户规模增长近4倍市场格局对比尽管增长迅猛，Gemini与行业领头羊仍存在明显差距:- ChatGPT:月活约6亿- Met

Ostris发布Flex.2-preview，8B参数扩散模型革新ComfyUI工作流

文本到图像扩散模型

Ostris发布Flex.2-preview，8B参数扩散模型革新ComfyUI工作流

Ostris团队发布Flex.2-preview，一款基于8亿参数的文本到图像扩散模型，专为集成到ComfyUI工作流设计。据AIbase了解，该模型在基于线条、姿态和深度的控制生成能力上表现出色，支持通用控制与图像修补功能，延续了从Flux.1Schnell到OpenFlux.1、Flex.1-alpha的微调进化路径。Flex.2-preview已在Hugging Face开源，凭借Apach

香港与英国研究团队提出创新图像标记化方法分层结构提升重建质量

图像标记化

主成分分析(PCA)

香港与英国研究团队提出创新图像标记化方法分层结构提升重建质量

一组来自香港和英国的研究人员近日提出了一种新型图像标记化方法，旨在以更紧凑、更精确的方式将图像转换为数字表示（即令牌）。与传统方法将信息均匀分布于所有标记中不同，该方法采用分层结构，逐层捕捉视觉信息，从而提升了图像重建的质量和效率。传统的图像标记化技术通常会将图像的每个部分均等地划分为多个标记，而新方法则采取了分层结构。最初的标记会编码大致的形状和结构元素，而后续的标记则逐渐添加更精细的细节，直到

mcp-server-weread工具实现Claude与微信读书笔记无缝交互，助力阅读与AI深度融合

mcp-server-weread

mcp-server-weread工具实现Claude与微信读书笔记无缝交互，助力阅读与AI深度融合

近日，一款名为mcp-server-weread的实用工具在Twitter上引发热议。这款工具能够让用户在Anthropic的Claude AI中无缝访问微信读书的笔记和阅读数据，实现阅读笔记与AI的深度交互，为知识工作者和阅读爱好者提供了高效的解决方案。mcp-server-weread:微信读书与Claude的桥梁mcp-server-weread是一款开源工具，旨在打破微信读书数据与AI工具