AI “看图说话” 更懂细节!腾讯开源多模态理解技术HaploVL 14 0 3月27日,腾讯开源团队宣布推出了一项创新的多模态理解技术——HaploVL。这一技术旨在通过单个Transformer架构实现高效的多模态融合,显著提升AI在视觉和语言交互中的表现,特别是在细粒度视觉理解任务上。在人工智能领域,多模态大模型(LMMs)近年来迅速崛起,它们能够实现复杂的视觉-语言对话和交互。然而,现有的多模态模型大多采用“视觉编码器 + 大语言模型”的组合架构,这种架构虽然有效,
阿里通义千问 QwenQ-32B 上线 中科院科研项目大规模接入 14 0 近日,阿里巴巴宣布其最新的开源大模型 —— 通义千问 QwenQ-32B,已在多个中科院科研项目中得到广泛应用。这一创新标志着人工智能在科研领域的进一步深入,尤其是在气候变化和水资源管理方面的潜力。中国科学院国家天文台、青藏高原研究所和南海海洋研究所等单位,均已开始利用 QwenQ-32B 进行科研项目。这些项目的核心之一是青藏所推出的全球首个水能粮大模型 “洛书”,该模型已在青藏高原及相关能源企
魔法原子发布人形机器人与四足机器人,揭示未来智能发展新蓝图 14 0 在3月26日举行的2025场景战略发布会上,魔法原子公司正式推出了其最新的人形机器人和四足机器人,并首次推出了具备端到端能力的 “原子万象大模型”。这一举措不仅标志着公司的技术进步,还展现了其在智能机器人领域的雄心壮志。发布会中,魔法原子的总裁吴长征表示,未来将启动 “千景共创计划”,计划与1000家合作伙伴共同开发人形机器人应用场景,以推动技术在实际生活和工作中的落地。根据吴长征的预测,到202
人形机器人明星企业宇树科技盈利状况曝光,连续多年保持盈利 14 0 备受瞩目的国内人形机器人制造商宇树科技(Unitree Robotics)的盈利情况近日首次对外披露。3月26日,宇树科技的早期投资人、SevenUp Capital创始人赵楠透露,自2020年以来,宇树科技的财务报表每年都保持盈利状态。这一消息已得到接近宇树科技人士的证实。图源备注:图片由AI生成,图片授权服务商Midjourney据了解,宇树科技自2016年成立以来,发展势头强劲,已完成9轮融
美图WHEE接入DeepSeek R1,提示词优化可自动补全关键词 14 0 近日,美图公司旗下的 AI 素材生成器 WHEE 宣布与 DeepSeek R1满血版成功接入。这一合作旨在将 DeepSeek 的专业提示词设计能力与 WHEE 的易用性相结合,帮助用户在无专业背景的情况下轻松生成高质量的图像内容。用户只需输入简单的词汇,AI 便能一键生成专业提示词,大大降低了使用门槛。在 AI 创作领域,提示词的质量往往直接影响到 AI 输出内容的水平。然而,许多用户在使用过
华为 ModelEngine 成功获中国信通院认证,助力AI大模型发展 14 0 近日,华为推出的 ModelEngine AI 全流程工具链获得了中国信息通信研究院的官方认证,成为国内首个通过该评估的软件。此次认证标志着华为在人工智能领域的重要进展,同时也为 AI 技术的普及化和应用落地提供了新的契机。在当今科技迅猛发展的时代,AI 已经成为各行业转型的重要工具。然而,如何高效地实现 AI 大模型的训练和应用,依然是企业面临的一大挑战。大模型工具链平台作为 AI 应用落地的基
飞牛私有云 fnOS 升级支持音频播放,有望打造独立音乐应用 14 0 感谢IT之家网友 末生、2W 的线索投递!IT之家 3 月 27 日消息,飞牛私有云今日宣布推送 v1.10.2 版本更新,升级支持音乐播放并支持中继网络下使用。不过,这并非飞牛最终版的音乐应用,目前正专注于 NAS 核心功能的补齐,后续核心功能完善好之后,会再去打造飞牛的独立音乐应用。IT之家整理更新内容如下:文件管理新增 MP3、FLAC、WAV、M4A 等音频文件播放功能支持 MP3、F
英语印度口音太重不用愁:初创公司 Krisp 推出 AI 转换,一键变为地道美式 14 0 IT之家 3 月 27 日消息,据外媒 TechCurnch 报道,音频初创公司 Krisp 周三推出一项 AI 口音转换功能,用户可在通话时改变自己的口音。首个版本支持将印度英语口音转换为美式英语。Krisp 表示,该功能不会改变说话者的声音,仅调整音素以匹配美式发音。目前,该功能已在企业环境中测试,Beta 版已上线 Krisp 桌面应用,用户可在通话前或通话中随时启用。公司联合创始人阿尔托
华为 ModelEngine 全流程 AI 开发工具链开源 14 0 IT之家 3 月 27 日消息,在 2025 华为中国合作伙伴大会期间,华为 ModelEngine AI 全流程工具链向全球开发者开源发布。ModelEngine 开源版本围绕数据使能、模型使能、应用使能打造 AI 全流程工具链,致力于解决 AI 行业化落地时遇到的数据工程耗时长、模型训练和应用落地难的关键问题,缩短通用大模型基于行业私域数据训练成行业大模型,并开发成 AI 应用的整体周期,加
MIT 与哈佛联合推出 Lyra:一种高效的生物序列建模新方法 14 0 在生物序列建模领域,深度学习技术的进步令人瞩目,但高昂的计算需求和对大数据集的依赖让许多研究者感到困扰。最近,麻省理工学院(MIT)、哈佛大学和卡内基梅隆大学的研究团队推出了一种名为 Lyra 的新型生物序列建模方法。这种方法不仅参数显著减少到仅有传统模型的12万分之一,而且能够在短短两小时内使用两块 GPU 进行训练,极大地提升了模型的效率。Lyra 的设计灵感来源于生物学中的上位效应(即序列内
腾讯元宝已支持多达36种文件格式的解析与处理 14 0 3月28日,腾讯元宝宣布了一项重大更新,其AI助手现在能够支持多达36种文件格式的解析与处理。这一更新进一步拓展了元宝在工作和学习场景中的应用能力,为用户提供了更加便捷和高效的服务。元宝作为腾讯推出的AI助手,一直以来都致力于通过强大的模型能力帮助用户提升效率。此次更新后,用户可以直接上传包括Word、PDF、Excel在内的常见文档格式,以及.py、.java、.json等开发文件。元宝不仅能够
微软CEO内部发言看好DeepSeek 重塑AI协作与创新范式 14 0 在最近的员工大会上,微软首席执行官萨蒂亚·纳德拉对DeepSeek的评价引人注目,透露出公司在人工智能领域的战略深思。纳德拉被DeepSeek200人团队的协同能力深深打动,他认为这不仅仅是一个研究项目,更是一个成功转化为市场领先产品的典范。CoreAI负责人Jay Parikh进一步强调,这个小型团队的成就促使微软重新审视内部协作模式。\图源备注:图片由AI生成,图片授权服务商Midjourne
Anthropic与Databricks达成1亿美元合作,开发AI代理工具 14 0 Anthropic和 Databricks 宣布达成一项为期五年的合作协议,合作总金额达1亿美元。此次合作的重点是开发 AI 代理工具,旨在为企业处理各种任务。Databricks 首席执行官阿里・戈德西(Ali Ghodsi)表示,Anthropic的 Claude 模型将直接在 Databricks 平台上提供,这将使客户能够利用公司的数据开发自己的 AI 代理。图源备注:图片由AI生成,图片
人工智能 视觉推理 阿里巴巴 AI产品应用 AI日报:阿里最新视觉推理模型QVQ-Max;可灵AI上新AI音效功能;GPT-4o升级后性能飙升;Midjourney V7将于下周发布 14 0 欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、阿里巴巴发布最新视觉推理模型 QVQ-Max阿里巴巴旗下的AI研究团队Qwen发布了其最新的视觉推理模型QVQ-Max。该模型能够理解图片和视频,并进行深入分析与推理,应用场
软银拟豪掷万亿美元建设全美 AI 工厂集群,机器人将成制造业主力 14 0 感谢IT之家网友 HH_KK 的线索投递!IT之家 3 月 28 日消息,据日经新闻今日报道,软银集团正酝酿一项在全美建设集聚人工智能工厂的产业园区计划。该集团可能承诺与美国政府共同投入超过 1 万亿美元(IT之家注:现汇率约合 7.27 万亿元人民币),规模远超此前公布的 5000 亿美元“星际之门”AI 网络基建计划。面对劳动力短缺问题,软银致力于打造搭载 AI、实现自主运行的机器人工厂集
OpenAI 审查策略大转向!ChatGPT 新图像生成器爆红,争议内容限制放宽引关注 14 0 OpenAI 审查策略大转向!ChatGPT 新图像生成器爆红,争议内容限制放宽引关注本周,OpenAI 在 ChatGPT 中推出全新图像生成器,其生成吉卜力风格图像的能力迅速走红。该生成器基于 GPT-4o,显著提升了 ChatGPT 的图片编辑、文本渲染和空间表示功能。然而,更引人注目的是 OpenAI 对内容审核政策的重大调整。新政策允许 ChatGPT 根据用户要求生成描绘公众人物、仇恨