Video-XL-2 智源研究院 视觉编码器 Qwen2.5-Instruct 智源研究院开源轻量级超长视频理解模型Video-XL-2 ⭐0 👥0 近日,智源研究院联合上海交通大学等机构正式发布了一款新一代超长视频理解模型——Video-XL-2。这一模型的推出标志着长视频理解技术在开源领域取得了重大突破,为多模态大模型在长视频内容理解方面的发展注入了新的活力。在技术架构方面,Video-XL-2主要由视觉编码器、动态Token合成模块(DTS)以及大语言模型(LLM)三个核心组件构成。该模型采用SigLIP-SO400M作为视觉编码器,对输