Deep Video Discovery – 微软推出的深度视频探索智能体

Deep Video Discovery是什么

Deep Video Discovery（DVD）是微软推出的深度视频探索智能体，专为理解和分析长视频设计。Deep Video Discovery将长视频分割成多个较短的片段，基于大型语言模型（LLM）的高级推理能力，自主地规划和选择合适的工具及参数来收集信息。Deep Video Discovery配备一套搜索中心的工具，包括全局浏览、片段搜索和帧检查，能在不同层次上收集信息，基于迭代推理逐步构建对视频内容的理解。在多个长视频理解基准测试中，Deep Video Discovery均取得最先进的性能，显著提高长视频理解的准确性和效率。

Deep Video Discovery的主要功能

多粒度视频理解：从全局、片段和帧三个层次理解和分析视频内容，提供全面的视频理解能力。
自主搜索与推理：自主地规划和执行搜索策略，根据用户查询动态选择合适的工具和参数，逐步收集信息并构建对视频内容的理解。
高效信息检索：基于全局浏览、片段搜索和帧检查等工具，快速定位和提取与用户查询相关的视频片段和细节。
长视频理解：擅长处理长达数小时的信息密集型视频，能有效解决长视频理解中的时间和空间复杂性问题。
灵活的工具使用：根据不同的任务需求，灵活组合和使用多种工具，实现高效的视频内容分析和问题回答。

Deep Video Discovery的技术原理

多粒度视频数据库构建：将长视频均匀分割成多个较短的片段（clips），每个片段大约5秒。从全局、片段和帧三个层次提取视频信息。全局层提供视频的主体和事件总结，片段层提供文本描述（caption），帧层保留原始像素信息。构建一个包含解码帧、文本描述和对应嵌入向量的结构化数据库，支持快速检索和详细分析。
自主搜索与答案生成：
- 全局浏览（Global Browse）：提供视频的全局总结，帮助代理快速解视频的主体和主要事件。
- 片段搜索（Clip Search）：基于文本嵌入匹配，快速检索与用户查询相关的视频片段。
- 帧检查（Frame Inspect）：在特定时间范围内进行细粒度的视觉问答（VQA），提取帧级别的详细信息。
- 自主代理设计：Agent基于迭代的观察-推理-行动循环，用LLM的推理能力，动态选择和使用工具，逐步收集信息并构建对视频内容的理解。
- 迭代推理：Agent根据当前的观察状态和推理结果，选择合适的工具和参数，逐步细化查询，最终生成准确的答案。
LLM驱动的推理：LLM作为核心，负责推理和规划。LLM根据当前的对话历史和观察结果，选择合适的工具和参数，动态调整推理策略。根据任务需求，灵活组合和使用不同的工具，构建多步骤的工具使用链，解决复杂的查询任务。