Runway发布图像一致性参考功能 Gen-4 References 支持提取人物、场景或风格特征及多图混合 84 0 Runway于近日正式推出Gen-4References功能,为其AI视频生成模型Gen-4新增了图像一致性参考能力。这一功能允许用户通过上传参考图像,提取人物、场景或风格特征,并在生成内容中保持高度一致性,支持多张图像混合生成,为AI视频创作带来了前所未有的控制力与创意自由。核心功能解析:多图像融合与一致性控制Gen-4References的核心在于其强大的图像参考与风格嵌入能力。用户可上传1至
谷歌DeepMind:大模型明知到最优解,但还是故意绕了一圈 160 0 现在的大模型(LLMs)已经非常智能。写文章、编代码、当医生、当老师,样样精通。于是乎,有人就想了:既然它们这么聪明,能不能让它们自己做决定,当个“智能体”呢?比如,在复杂的环境里自己探索、自己解决问题。毕竟,大家觉得LLMs肚子里有“世界知识”,不需要手把手教也能猜到怎么干。而且,它们还有“思维链”(Chain-of-Thought,CoT)这种“聪明脑回路”,能一步一步推理,更好地理解环境和自
谷歌推出儿童专用 AI 聊天机器人,引发安全隐忧 146 0 近日,谷歌宣布将在本周推出其新开发的 Gemini AI 聊天机器人,专为13岁以下儿童设计,且将由家长管理账户。此举是谷歌进一步拓展年轻用户群体的一部分,旨在为孩子们提供更多的 AI 产品和服务。图源备注:图片由AI生成,图片授权服务商Midjourney这款新的 AI 功能将通过谷歌的 “家庭链接” 服务使用,该服务允许家长为未成年子女设置 Gmail 和 YouTube 等账户。根据谷歌向家
新一代唇形同步工具KeySync发布:突破表情泄漏与遮挡难题 169 0 近日,一款名为KeySync的创新唇形同步工具正式亮相,迅速引发了视频内容创作领域的广泛关注。这款工具以其独特的技术优势,成功解决了长期困扰AI唇形同步技术的两大难题——表情泄漏和嘴部遮挡问题,为影视制作、动画、虚拟主播以及多语言配音等领域带来了全新的可能性。核心技术:解决表情泄漏与遮挡挑战传统AI唇形同步工具在处理复杂视频场景时,往往会受到原始视频中人物表情或嘴部遮挡的干扰,导致生成的唇部动作不
马斯克决定继续起诉 OpenAI,争议仍未平息 155 0 近日,美国亿万富翁埃隆・马斯克的律师马克・托洛夫在一场新闻发布会上宣布,马斯克将继续对人工智能公司 OpenAI 提起诉讼。这一消息引起了业界的广泛关注,尤其是在 OpenAI 之前宣布放弃转变为营利性公司的计划后,矛盾似乎愈演愈烈。马斯克是 OpenAI 的联合创始人之一,早在不久前,他就曾提起诉讼,试图阻止 OpenAI 从非营利组织转变为营利性公司。这一诉讼的核心问题在于,马斯克担心公司的商
芝浦工大创新Vote-based框架,大幅提升手持物体姿态估计精度 179 0 在增强现实(AR)等应用中,手持物体的姿态估计是一项至关重要但颇具挑战性的任务。近期,日本芝浦工业大学的研究团队提出了一种基于 Vote 机制的多模态融合框架,显著提高了这一领域的准确性,令人瞩目地提升了13.9% 的姿态估计精度。这一新方法的核心在于有效整合来自 RGB(颜色)和深度图像的数据,特别是在手遮挡物体的情况下。研究团队指出,现有的姿态估计技术往往在手部遮挡时遇到精度下降的难题,而手与
南天信息与新华三合作推出行业领先的大模型一体机 90 0 近日,南天信息的子公司海捷科技与紫光集团旗下的新华三集团达成深度合作,联合推出了一款基于新华三 LinSeer Cube 的大模型一体机。这一新产品的发布,标志着在人工智能领域内又一次重要的技术进步,特别是在行业应用方面。随着人工智能的迅猛发展,企业在数字转型和智能化进程中亟需高效、便捷的解决方案。海捷科技和新华三的合作正是针对这一市场需求而生。新推出的 LinSeer Cube 大模型一体机,不
马斯克决定继续对 OpenAI 提起诉讼,关注焦点转向新计划 196 0 美国亿万富翁埃隆・马斯克近日表示,他将继续对 OpenAI 提起诉讼,尽管这家人工智能初创公司刚刚宣布放弃转变为营利性公司的计划。这场法律争斗的背景相当复杂,而最近的动向更是为其增添了新的戏剧性。马斯克是 OpenAI 的联合创始人之一,他对 OpenAI 的转变一直持有异议。早前,OpenAI 计划将其非营利性质转变为营利性公司,这一决定引发了马斯克的不满。他认为,这样的变化会违背当初成立 Op
商汤科技携手中移动香港与香港中文大学法学院 开展视觉 AI 与大模型领域合作 124 0 近日,商汤科技在香港与中国移动香港有限公司及香港中文大学法学院签署了合作备忘录,正式启动在视觉人工智能(AI)与大模型技术等领域的深入合作。这一合作旨在利用三方的优势,共同推动科技的创新与应用,助力香港及中国的科技发展。商汤科技作为一家领先的人工智能企业,在视觉 AI 领域具有丰富的经验和技术积累。通过与中国移动香港的合作,商汤希望借助后者的网络基础设施和市场资源,将视觉 AI 技术应用于更广泛的
腾讯元宝上线「对话分组」:全平台同步 完全免费、不限次数 127 0 腾讯元宝宣布上线了一项新功能——「对话分组」。这一功能的推出旨在帮助用户更好地管理和组织与元宝的聊天记录,使不同的对话能够根据项目、主题或任务进行分类,从而提升用户的使用体验。「对话分组」功能允许用户为与元宝的聊天创建文件夹,就像在电脑上整理文件一样。用户可以根据写作、工作安排、口语练习等不同需求,创建如「灵感库」、「ToDo清单」或「英语对话」等分组。这样一来,无论是简短的对话还是数百条的聊天记
Perplexity AI 推出全新 Comet 浏览器,挑战 Chrome 霸主地位 145 0 近日,Perplexity AI 宣布将在本月推出其新款 AI 驱动的 Comet 浏览器,标志着互联网浏览器市场的一场变革。作为一种新兴的浏览器,Comet 旨在成为 Google Chrome 的有力竞争者,特别是在信息检索和用户体验方面。图源备注:图片由AI生成,图片授权服务商MidjourneyComet 浏览器的构想早有端倪,近期用户发现 Perplexity 官网上新增了一个 “Lea
IBM 首席执行官进军人工智能市场并加大美国投资 184 0 在最近的一次采访中,IBM 首席执行官阿尔温德・克里希纳(Arvind Krishna)表示,随着人工智能(AI)市场竞争的加剧,IBM 正计划通过提供能够整合客户使用的不同 AI 代理的工具,来提升其在该领域的销售。这些工具将帮助客户管理他们在关键业务应用中的一系列 AI 代理,主要包括 Salesforce、Workday 和 Adobe 等公司的产品。克里希纳指出,IBM 将助力客户构建适合
音乐界的sd?ACE-Step音乐生成模型发布,20秒打造4分钟完整歌曲 150 0 ACE-Step,一款由ACE Studio与StepFun联合开发的音乐生成“基础模型”,于近日正式亮相,被誉为“音乐界的Stable Diffusion”。该模型以其惊人的生成速度和多样化功能引发行业热议,支持19种语言,可在短短20秒内生成一首长达4分钟的完整音乐作品,效率比主流模型快15倍以上。核心功能亮点:从歌词到完整歌曲一气呵成ACE-Step以其强大的生成能力重新定义了AI音乐创作。
实时口语聊天大模型 LLaMA-Omni 2 来了,能让你的 AI 聊天体验起飞! 126 0 最近 AI 圈可是热闹非凡,今天咱们就来聊聊其中的 “狠角色”——LLaMA-Omni2。这是一系列超厉害的语音语言模型(SpeechLMs),参数规模从0.5B 到14B 不等,专门为实现高质量实时语音交互而生,在 Hugging Face 上一经发布,就引起了广泛关注。语音交互发展历程回顾:从 “卡顿” 到 “丝滑”语音交互在人机交互领域的地位愈发重要,它就像是为我们打开了一扇便捷的大门,极大
月之暗面 Kimi 长思考模型 API 正式发布 80 0 月之暗面科技有限公司宣布正式发布其最新的长思考模型API——kimi-thinking-preview。这一模型具备多模态推理能力和通用推理能力,擅长深度推理,能够帮助用户解决复杂的代码问题、数学难题和工作中的挑战。kimi-thinking-preview模型是目前最新的k系列思考模型,用户可以通过简单的API调用轻松使用。该模型的API响应中包含了一个独特的字段——reasoning_con
Recraft 获 3000 万美元 B 轮融资,图像生成技术挑战行业巨头 171 0 初创公司 Recraft 近日宣布完成3000万美元的 B 轮融资。这轮融资由知名风险投资公司 Accel 领投,其他投资机构如 Khosla Ventures 和 Madrona 也参与其中。Recraft 总部位于美国旧金山,此前在2024年曾获得1200万美元的 A 轮融资,目前公司年化经常性收入已超过500万美元,并拥有400万注册用户。Recraft 推出的图像生成模型 “red_pan