近日,英伟达与多伦多大学、向量研究所及德克萨斯大学奥斯汀分校的研究团队联合发布了一项名为 **ViPE(视频姿势引擎)**的突破性技术。ViPE 旨在解决3D几何感知领域的关键挑战,即如何从复杂的自然视频中高效且精准地提取3D信息。
技术核心与应用
3D几何感知是自动驾驶、虚拟现实(VR)和增强现实(AR)等多种现代技术的核心。ViPE 创新性地从原始视频中快速获取相机的固有特性、运动信息以及高精度的深度图,为这些空间AI系统提供了可靠的数据基础。
ViPE 具有强大的适应性,能够处理各种场景和相机类型,包括动态自拍视频、电影镜头、行车记录仪以及针孔、广角和360°全景相机模型。
工作原理与性能
研究团队采用了一种多重约束的混合方法来确保 ViPE 的高精度:
束调整:在关键帧上进行密集束调整,以估算相机参数、姿态和深度图。
密集流与稀疏点约束:引入 DROID-SLAM 网络的密集流约束和 cuvslam 库的稀疏点约束,确保稳健性和亚像素精度。
深度正则化:利用单目度量深度网络,解决尺度模糊性和一致性问题,生成高分辨率且时间一致的深度信息。
测试结果显示,ViPE 在多个基准测试中的表现均优于现有技术(如 MegaSAM、VGGT 和 MASt3R-SLAM)。它不仅在姿态和内在函数精度方面表现出色,还能在单个GPU上以每秒3到5帧的速度稳定运行,并成功生成了尺度一致的轨迹。
为推动空间AI领域的进一步研究,该团队还发布了一个包含约9600万帧标注数据的大规模数据集,为未来的技术探索提供了宝贵资源。ViPE的发布不仅标志着3D几何感知技术的一次重要进步,也为未来的空间AI应用奠定了坚实的基础。
地址:https://research.nvidia.com/labs/toronto-ai/vipe/