Member standard
Member expire
Member points 0
还没有账号? 立即注册
已有账号? 立即登录
9.63万
粉丝
615
文章
8.84万
总浏览
5
平均评分
AI领域资深专家
近日,字节跳动与香港大学联合推出了一款全新的开源视觉推理模型 ——Mini-o3,标志着多轮视觉推理技术的又一重大突破。与以往只能进行1-2轮对话的视觉语言模型(VLM)不同,Mini-o3在训练时限制了对话轮数为6轮,但在测试阶段却能将推理轮数扩展至数十轮,极大提升了视觉问题处理的能力。Mini-o3的强大之处在于其在高难度视觉搜索任务中实现了深度推理,达到当前技术的顶尖水平。这得益于该模型的三
9 月 16 日,在 2025 腾讯全球数字生态大会主峰会上,腾讯公布多项AI技术和产品最新进展,并宣布通过腾讯云全面开放腾讯AI落地能力及优势场景,助力“好用的AI”在千行百业中加速落地。面对各界关注的算力问题,腾讯集团副总裁、腾讯云总裁邱跃鹏宣布,目前腾讯已经全面适配主流的国产芯片,并积极参与和回馈开源社区。与此同时,软硬件协同全栈优化是腾讯云的长期战略投入,通过异构计算平台的软件能力,整合不
近日,上海人工智能实验室与多所知名高校合作推出了新一代多模态生成与理解模型 ——Lumina-DiMOO。该模型以 “全方位扩散大语言模型” 命名,旨在推动多模态 AI 技术的发展。Lumina-DiMOO 采用了创新的 “全离散扩散架构”,突破了传统模型在文本与图像处理上的局限,提供了更为高效的解决方案。多模态 AI 的核心在于如何将不同类型的数据有效整合。Lumina-DiMOO 通过将文本、
近日,媒体曝光了谷歌在英国埃塞克斯郡兴建新数据中心的规划文件,该项目预计每年将排放超过57万吨二氧化碳,相当于每周约500个短途航班的碳排放。该数据中心位于瑟洛克,面积达52公顷(约128英亩),计划包含多达四个数据中心,若获得批准,将成为一座 “超大规模” 的计算和人工智能中心。图源备注:图片由AI生成,图片授权服务商Midjourney该项目由谷歌母公司字母表(Alphabet)的一家子公司提
近日,腾讯推出了一种新方法,旨在提升 AI 生成图像的真实感与美学评分。据悉,这一微调技术在仅用32块 H20显卡训练10分钟后就能实现显著的收敛效果,其人工评估得分甚至提升了300% 以上。当前的扩散模型虽然能够借助奖励机制来优化图像质量,但却面临着一些挑战。首先,模型优化步骤较少,容易出现所谓的 “奖励作弊” 现象,即模型为了获取高分而生成质量较低的图像。其次,离线调整奖励模型的过程不够灵活,
在德国慕尼黑举行的 IAA Mobility 汽车展上,美国芯片巨头高通公司与三星子公司哈曼宣布达成新合作,旨在提升汽车的人工智能(AI)功能。这一合作将把高通的 Snapdragon Cockpit Elite 平台集成到哈曼的汽车产品组合中,从而变革人们与车辆的互动方式。据双方介绍,此次合作将使得先进的 AI 模型能够被应用于车内体验,包括实时高级驾驶辅助系统(ADAS)可视化、情境智能以及能
腾讯集团高级执行副总裁、云与智慧产业事业群CEO 汤道生9月16日,2025腾讯全球数字生态大会举行,腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生表示,“向智能化要产业效率,向全球化要收入规模”,已经成为企业增长的两大核心动力。腾讯将打造“智能化”与“全球化”两大效率引擎,助力企业稳健和可持续增长。智能化方面,腾讯云正式发布腾讯云智能体战略全景图,全面开放AI能力、C端和B端优势场景。通
在哈佛法学院读书期间,马克・李(Mark Lee)上了一门商标法课程,了解到全球每年有超过3万亿美元的假冒产品交易,这一惊人的数据令他意识到反假冒产业的庞大。虽然他最初打算成为一名律师,但随着对法律职业的重新思考,他决定踏上创业之路。李在一次课程中了解到,随着在线购物的普及,假冒产品的市场在疫情期间每年增长了20%。他认为,假冒问题是一个全球性难题,能够通过他热爱的计算机视觉技术来解决。于是,他和
近日,VEED推出Fabric1.0,这款被誉为“全球首款AI会说话视频模型”的创新工具,仅需一张图片即可生成任意会说话视频,具备逼真的唇形同步和自然面部表情。官方表示,该模型最长支持1分钟视频生成,成本降低60倍、速度提升7倍。这一发布迅速在科技圈引发热议,开发者与内容创作者反馈其在社交广告、产品演示和教育内容领域的应用潜力巨大。根据最新公开信息整理,Fabric1.0标志着从静态图像到动态叙事
Meta AI 近日推出了 MobileLLM-R1,这是一系列轻量级边缘推理模型,目前已在 Hugging Face 上发布。该系列模型参数范围从140M 到950M,专注于高效的数学、编码和科学推理,且在不足10亿的参数规模下实现了优秀的性能表现。MobileLLM-R1的最大模型为 MobileLLM-R1-950M,采用了一系列架构优化设计:包括22层 Transformer 结构、24个