NVIDIA AI推出Audio-SDS,革新音效生成与多任务音频处理 74 0 NVIDIA AI研究团队发布了一项突破性技术——Audio-SDS,将Score Distillation Sampling(SDS)技术扩展至文本条件音频扩散模型,显著提升了音效生成、音源分离及多任务音频处理的能力。这一创新成果已在学术界和工业界引发热议。技术核心:SDS赋能音频扩散模型Audio-SDS基于NVIDIA此前在图像生成领域广泛应用的SDS技术,通过将其适配到预训练的音频扩散模型
苹果携手复旦大学推 StreamBridge 端侧视频大语言模型框架,AI 可实时响应视频流 75 0 IT之家 5 月 13 日消息,科技媒体 marktechpost 今天(5 月 13 日)发布博文,报道称苹果公司联合复旦大学,推出 StreamBridge 端侧视频大语言模型(Video-LLMs)框架,助力 AI 理解直播流视频。直播流视频理解的挑战与需求传统视频大语言模型擅长处理静态视频,但无法适应机器人技术和自动驾驶等需要实时感知的场景,在这些场景下,要求模型能快速理解直播视频流内容
MiracleF1 AI图像生成 人工智能 WHEE平台 美图WHEE推出图像生成模型 Miracle F1 :风格多元更逼真 75 0 近日,WHEE 平台推出了全新的人工智能图像生成模型 Miracle F1,该模型以其极高的图像生成质量和对复杂概念的精准理解,为 AI 图像创作领域带来了新的突破。Miracle F1的一大亮点是其能够生成极具真实感的图像。它能够像摄影师一样理解物体的反光效果,像建筑师一样精准地计算空间透视关系,像画家一样捕捉光线流动的轨迹,从而实现了画面质感和语义理解的跨越式升级。通过智能模拟真实世界的光影和
Figma Sites重磅上线,AI驱动建站功能颠覆设计工作流 75 0 Figma于2025年5月7日在Config2025大会上正式推出Figma Sites,一项革命性的AI驱动建站功能。该功能允许设计师将Figma设计文件直接转化为功能齐全的响应式网站,并通过原生AI编码支持实现精准的页面元素修改。社交媒体上,设计社区对此反响热烈,称Figma Sites不仅巩固了设计师在AI时代的核心地位,还通过整合社区模板和内容管理系统(CMS),为建站流程带来了前所未有的
通义千问Qwen3发布:推理能力显著增强 支持两种思考模式 75 0 通义千问团队宣布推出Qwen3,这是Qwen系列大型语言模型的最新成员。Qwen3系列模型在代码、数学和通用能力等基准测试中表现出色,与DeepSeek-R1、o1、o3-mini、Grok-3和Gemini-2.5-Pro等顶级模型相比,展现了极具竞争力的结果。其中,小型MoE模型Qwen3-30B-A3B的激活参数数量仅为QwQ-32B的10%,但表现更胜一筹,而像Qwen3-4B这样的小模型
超越A2A和MCP?新协议LOKA将重塑AI智能体的身份与道德标准 75 0 近日,卡内基梅隆大学的研究人员提出了一项名为 “层次化知识智能体架构(Layered Orchestration for Knowledgeful Agents)”(LOKA)的新协议,可以加入其他拟议的标准,例如 Google 的 Agent2Agent (A2A) 和 Anthropic 的模型上下文协议 (MCP),旨在为自主 AI 智能体的身份、责任和伦理提供规范。随着 AI 智能体的普及
Qwen3正式发布,优化编码与代理能力,强化MCP支持引领AI新潮流 75 0 阿里云Qwen团队宣布Qwen3系列模型正式发布,以卓越的编码能力、增强的代理功能和对Model Context Protocol(MCP)的深度支持,掀起AI社区热潮。据AIbase了解,Qwen3涵盖从0.6B到235B-A22B的多种模型规模,优化了数学推理、代码生成和多模态任务,性能直追GPT-4o与Gemini-2.5-Pro。社交平台上的讨论显示,Qwen3的MCP集成与开源策略备受期
检索增强生成(RAG) Llama-3.1 Qwen2 Gemma2 研究发现:RAG系统中文档数量影响AI语言模型性能 75 0 耶路撒冷希伯来大学的研究人员最近发现,在检索增强生成(RAG)系统中,即使总文本长度保持不变,处理的文档数量也会显著影响语言模型的性能。研究团队利用MuSiQue验证数据集中的2,417个问题进行实验,每个问题链接到20个维基百科段落。其中两到四段包含相关答案信息,其余段落作为干扰项。为研究文档数量的影响,团队创建了多个数据分区,逐步将文档数量从20个减少到最少只保留包含相关信息的2-4个文档。为
2025 年度十大 IP 揭晓,DeepSeek App等作品入选 75 0 由中国版权协会与中国文化娱乐行业协会指导的 “2025 世界 IP 经济发展大会暨全球 IP 授权博览会” 在广州成功举行。本次博览会吸引了众多专家和业内人士的关注,最终评选出了 2025 年度十大 IP 和多个细分领域的 TOP10 名单。此次评选共计有 2368 个参赛 IP 参与角逐,经过专家评审和网络投票的双重筛选,最终确定了十个优秀作品。值得一提的是,《哪吒之魔童闹海》凭借其出色的故事情
AI数据抓取 FIRE-1 网页动作智能体 Firecrawl Firecrawl推出FIRE-1智能交互AI数据抓取工具,革新网页数据提取体验 75 0 人工智能驱动的网页数据抓取技术迎来新突破。AIbase从社交媒体获悉,Firecrawl于2025年4月15日正式发布全新AI数据抓取工具FIRE-1,该工具不仅能提取静态网页内容,还具备智能网页交互能力,可执行点击按钮、填写表单、处理模态窗口等操作,深入挖掘隐藏在动态交互背后的数据。这一创新标志着Firecrawl从传统抓取工具向智能化、自动化解决方案的转型。以下是AIbase对FIRE-1的深
AI健康助手 ProjectMulberry 苹果健康应用 iOS19.4 报道称苹果开发 AI 健康助手“Project Mulberry” 75 0 苹果公司近日据报道正在全力研发一款名为 “Project Mulberry” 的新型健康应用,这应用将配备人工智能助手,旨在为用户提供个性化的健康管理建议。据悉,新的健康应用将与 iOS19.4版本一同推出,具体发布时间尚未确定,可能会在近期发布,也可能推迟到明年。新版本的健康应用将继续与用户的苹果设备和第三方应用程序进行数据连接,AI 健康助手将利用这些数据,为用户提供改善健康的建议和推荐。为了
人工智能 Xiaomi MiMo 开源模型 AI日报:小米首个推理大模型开源Xiaomi MiMo;快手上线AI笔记工具“喵记多”;腾讯拆分AI团队 75 0 欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、小米首个推理大模型开源Xiaomi MiMo,70亿参数小米正式推出其首个大型开源推理模型Xiaomi MiMo,标志着其在人工智能领域的重要进展。MiMo以7亿参数在数学推
亚马逊推出能“感知”触碰的机器人,可与仓库工人协同作业 75 0 IT之家 5 月 7 日消息,亚马逊宣布推出一款名为 Vulcan 的新型仓储机器人,该机器人配备先进的人工智能技术,并具备触觉功能,能够完成公司仓库中约四分之三的物品拣选与存放任务,而这些工作此前主要由人工完成。“Vulcan 代表了机器人技术的一大突破。”亚马逊应用科学总监亚伦・帕内斯(Aaron Parness)在新闻稿中表示,“它不仅能够感知世界,还能感知触摸,从而实现亚马逊机器人此前无
HyenaEdge 边缘AI LiquidAI 卷积混合模型 Liquid AI推出Hyena Edge,开创智能手机边缘设备的新时代 75 0 Liquid AI近日在国际学习表示会议(ICLR)2025前发布了新款模型 “Hyena Edge”。这是一款基于卷积的多混合模型,旨在为智能手机及其他边缘设备提供更高效的人工智能解决方案。该公司成立于波士顿,源自麻省理工学院(MIT),致力于超越目前大多数大型语言模型(LLM)所依赖的 Transformer 架构。Hyena Edge 在计算效率和语言模型质量方面均表现出色。根据实测数据,在
新兴混合 AI 模型 CausVid:几秒钟内生成高质量视频 75 0 近日,麻省理工学院计算机科学人工智能实验室(CSAIL)与 Adobe Research 联合研发的创新性 AI 模型 CausVid 引起了广泛关注。这一混合模型可以在几秒钟内生成高质量视频,标志着视频创作领域的一次重大技术突破。 创新的技术架构CausVid 的设计理念颠覆了传统的视频生成方式。许多现有的 AI 视频生成模型通常采用逐帧生成的方式,效率较低,且质量容易下降。而 CausVid
OpenAI 将 ChatGPT 新图像生成技术引入 API,每张图约 2 美分起 76 0 IT之家 4 月 24 日消息,OpenAI 于本周三宣布,将其 ChatGPT 中新升级的图像生成功能背后的技术引入 API,使开发者能够将这一功能集成到他们的应用程序和服务中。今年 3 月底,OpenAI 推出的新 ChatGPT 图像生成器因其能够创建逼真的吉卜力风格图片和“AI 人偶”而迅速走红。这一功能的推出吸引了数百万新用户注册 ChatGPT,也给公司的服务器容量带来了巨大压力。据