Matrix-3D是什么
Matrix-3D 是昆仑万维 Skywork AI 团队推出的用在生成可探索全景3D世界的框架。框架结合全景视频生成与3D重建,从单图像或文本提示出发,生成高质量、全向可探索的3D场景。基于轨迹引导的全景视频扩散模型和两种3D重建方法(快速前馈网络与高质量优化方法),Matrix-3D 实现大范围、高一致性的3D场景生成,支持文本和图像输入,具备高效性和强泛化能力。框架配套的 Matrix-Pano 数据集为研究提供有力支持。

Matrix-3D的主要功能
- 全景视频生成:从单张图像或文本提示生成高质量全景视频,支持用户自定义相机轨迹。
- 3D场景重建:提供快速前馈网络和高质量优化方法两种3D重建方式,满足不同需求。
- 多种输入支持:支持文本和图像输入,用户根据需求选择,生成对应的3D场景。
- 大范围场景生成:生成的3D场景范围大,支持360°自由探索,探索范围优于其他方法。
- 高度可控性:用户能自定义生成轨迹,能在已生成场景基础上无限续写扩展。
Matrix-3D的技术原理
- 轨迹引导的全景视频生成:用场景网格(Mesh)渲染图作为条件输入,训练一个视频扩散模型。模型根据用户定义的相机轨迹生成全景视频,确保生成内容的空间一致性和几何准确性。
- 全景视频到3D场景的转换:基于 Transformer 架构,直接从生成的全景视频的 latent 特征中预测3D几何属性。实现快速3D场景重建,适合实时应用。
- 优化方法(Optimization-based):对生成的全景视频进行超分辨率处理和3D Gaussian Splatting 优化。生成高质量、细节丰富的3D场景,适合对视觉质量要求较高的场景。
- Matrix-Pano 数据集:为解决现有3D场景数据稀缺的问题,Matrix-3D 提供一个大规模合成数据集。包含116,759个高质量静态全景视频序列,每个序列都带有相机轨迹和注释。数据集的多样性和高质量为模型训练提供了有力支持。
- 全景表示:用全景图作为中间表示,覆盖360°水平视角和180°垂直视角。基于多个位置的全景图拼接生成全景视频,包含3D世界生成所需的所有信息。
Matrix-3D的项目地址
- 项目官网:https://matrix-3d.github.io/
- GitHub仓库:https://github.com/SkyworkAI/Matrix-3D
- HuggingFace模型库:https://huggingface.co/Skywork/Matrix-3D
- 技术论文:https://github.com/SkyworkAI/Matrix-3D/blob/main/asset/report.pdf
Matrix-3D的应用场景
- 游戏开发:快速生成高质量3D游戏场景,缩短开发周期,提升玩家个性化体验。
- 影视制作:生成逼真虚拟场景和特效,降低拍摄成本,助力故事板设计与场景预览。
- 虚拟现实(VR)和增强现实(AR):Matrix-3D生成的全景3D场景支持360°自由探索,可用在虚拟旅游和AR应用,提升沉浸感。
- 机器人导航与自动驾驶:生成复杂3D环境,用在机器人导航和自动驾驶系统的训练与测试,提升决策安全性。
- 教育与培训:生成虚拟实验室和逼真训练场景,用在教育和技能培训,提高效果。