苹果推出革命性 AI 模型 Matrix3D：轻松将 3 张照片转化为 3D 场景

AIbase基地

发布了 11569 文章

苹果机器学习团队与南京大学和香港科技大学合作，推出了一款名为 Matrix3D 的先进 AI 模型。该模型的主要功能是从少量的2D 照片中重建真实的物体和场景，为用户提供高质量的3D 输出。

用户只需提供三张照片，Matrix3D 便能自动生成详细的3D 重建效果。这一过程不仅简化了3D 建模的操作步骤，也为各类应用领域带来了新的机遇，同时推动了 AI 技术的进一步发展。

在传统的3D 建模中，通常需要使用摄影测量技术，通过多张照片进行测量和建模。然而，目前的流程往往依赖于多个独立模型，例如姿态估计和深度预测，这种分散的方法容易导致效率低下和误差。Matrix3D 则改变了这一传统做法，它将图像、相机参数（如拍摄角度和焦距）以及深度数据等所有环节统一整合，采用一个统一的架构来处理这些信息，减少了中间步骤，从而使得重建过程更加顺畅可靠。研究人员指出，这种整合设计显著降低了人为错误的风险，并提高了整体性能。

在训练方法上，Matrix3D 运用了掩码学习策略，灵感来源于早期的 Transformer 基础 AI 系统。这种技术通过随机隐藏部分输入数据，促使模型学习如何 “填补空白”，增强了其适应性。即使在数据集较小或不完整的情况下，Matrix3D 也能够有效学习关键特征。

测试结果显示，Matrix3D 的表现非常出色。用户只需输入三张照片，该模型便可生成精细的3D 重建效果，涵盖物体和整个环境。这为沉浸式技术的应用提供了实质性的潜力。例如，在 Apple Vision Pro 等头显设备中，Matrix3D 能够创建真实感十足的虚拟场景，从而提升用户体验。研究者认为，这种能力将进一步推动元宇宙和增强现实的发展。

官方介绍:https://machinelearning.apple.com/research/large-photogrammetry-model