Deep Video Discovery – 微软推出的深度视频探索智能体

Deep Video Discovery – 微软推出的深度视频探索智能体

4.8
0热度

Deep Video Discovery是什么Deep Video Discovery(DVD)是微软推出的深度视频探索智能体,专为理解和分析长视频设计。Deep Video Discovery将长视频分割成多个较短的片段,基于大型语言模型(LLM)的高级推理能力,自主地规划和选择合适的工具及参数来收集信息。Deep Video Discovery配备一套搜索中心的工具,包括全局浏览、片段搜索

Deep Video Discovery是什么

Deep Video Discovery(DVD)是微软推出的深度视频探索智能体,专为理解和分析长视频设计。Deep Video Discovery将长视频分割成多个较短的片段,基于大型语言模型(LLM)的高级推理能力,自主地规划和选择合适的工具及参数来收集信息。Deep Video Discovery配备一套搜索中心的工具,包括全局浏览、片段搜索和帧检查,能在不同层次上收集信息,基于迭代推理逐步构建对视频内容的理解。在多个长视频理解基准测试中,Deep Video Discovery均取得最先进的性能,显著提高长视频理解的准确性和效率。

Deep Video Discovery

Deep Video Discovery的主要功能

  • 多粒度视频理解:从全局、片段和帧三个层次理解和分析视频内容,提供全面的视频理解能力。
  • 自主搜索与推理:自主地规划和执行搜索策略,根据用户查询动态选择合适的工具和参数,逐步收集信息并构建对视频内容的理解。
  • 高效信息检索:基于全局浏览、片段搜索和帧检查等工具,快速定位和提取与用户查询相关的视频片段和细节。
  • 长视频理解:擅长处理长达数小时的信息密集型视频,能有效解决长视频理解中的时间和空间复杂性问题。
  • 灵活的工具使用:根据不同的任务需求,灵活组合和使用多种工具,实现高效的视频内容分析和问题回答。

Deep Video Discovery的技术原理

  • 多粒度视频数据库构建:将长视频均匀分割成多个较短的片段(clips),每个片段大约5秒。从全局、片段和帧三个层次提取视频信息。全局层提供视频的主体和事件总结,片段层提供文本描述(caption),帧层保留原始像素信息。构建一个包含解码帧、文本描述和对应嵌入向量的结构化数据库,支持快速检索和详细分析。
  • 自主搜索与答案生成
    • 全局浏览(Global Browse):提供视频的全局总结,帮助代理快速解视频的主体和主要事件。
    • 片段搜索(Clip Search):基于文本嵌入匹配,快速检索与用户查询相关的视频片段。
    • 帧检查(Frame Inspect):在特定时间范围内进行细粒度的视觉问答(VQA),提取帧级别的详细信息。
    • 自主代理设计:Agent基于迭代的观察-推理-行动循环,用LLM的推理能力,动态选择和使用工具,逐步收集信息并构建对视频内容的理解。
    • 迭代推理:Agent根据当前的观察状态和推理结果,选择合适的工具和参数,逐步细化查询,最终生成准确的答案。
  • LLM驱动的推理:LLM作为核心,负责推理和规划。LLM根据当前的对话历史和观察结果,选择合适的工具和参数,动态调整推理策略。根据任务需求,灵活组合和使用不同的工具,构建多步骤的工具使用链,解决复杂的查询任务。

Deep Video Discovery的项目地址

  • arXiv技术论文:https://arxiv.org/pdf/2505.18079

Deep Video Discovery的应用场景

  • 教育领域:在线教育平台分析长视频课程,学生快速定位到课程中特定知识点或章节。
  • 体育赛事分析:体育赛事分析比赛视频,快速提取关键事件。
  • 视频监控:安防监控系统中,实时分析监控视频,快速识别异常行为或事件。
  • 影视制作:影视后期制作团队分析拍摄素材,快速找到所需镜头。
  • 企业会议记录:企业分析会议视频,快速提取会议要点和关键决策。

首页 发现
看过 我的