AI热点 6月前 153 浏览次数 11 评论

Deep Video Discovery – 微软推出的深度视频探索智能体

发布了 11569 文章

Deep Video Discovery是什么

Deep Video Discovery(DVD)是微软推出的深度视频探索智能体,专为理解和分析长视频设计。Deep Video Discovery将长视频分割成多个较短的片段,基于大型语言模型(LLM)的高级推理能力,自主地规划和选择合适的工具及参数来收集信息。Deep Video Discovery配备一套搜索中心的工具,包括全局浏览、片段搜索和帧检查,能在不同层次上收集信息,基于迭代推理逐步构建对视频内容的理解。在多个长视频理解基准测试中,Deep Video Discovery均取得最先进的性能,显著提高长视频理解的准确性和效率。

Deep Video Discovery的主要功能

  • 多粒度视频理解:从全局、片段和帧三个层次理解和分析视频内容,提供全面的视频理解能力。
  • 自主搜索与推理:自主地规划和执行搜索策略,根据用户查询动态选择合适的工具和参数,逐步收集信息并构建对视频内容的理解。
  • 高效信息检索:基于全局浏览、片段搜索和帧检查等工具,快速定位和提取与用户查询相关的视频片段和细节。
  • 长视频理解:擅长处理长达数小时的信息密集型视频,能有效解决长视频理解中的时间和空间复杂性问题。
  • 灵活的工具使用:根据不同的任务需求,灵活组合和使用多种工具,实现高效的视频内容分析和问题回答。

Deep Video Discovery的技术原理

  • 多粒度视频数据库构建:将长视频均匀分割成多个较短的片段(clips),每个片段大约5秒。从全局、片段和帧三个层次提取视频信息。全局层提供视频的主体和事件总结,片段层提供文本描述(caption),帧层保留原始像素信息。构建一个包含解码帧、文本描述和对应嵌入向量的结构化数据库,支持快速检索和详细分析。
  • 自主搜索与答案生成
    • 全局浏览(Global Browse):提供视频的全局总结,帮助代理快速解视频的主体和主要事件。
    • 片段搜索(Clip Search):基于文本嵌入匹配,快速检索与用户查询相关的视频片段。
    • 帧检查(Frame Inspect):在特定时间范围内进行细粒度的视觉问答(VQA),提取帧级别的详细信息。
    • 自主代理设计:Agent基于迭代的观察-推理-行动循环,用LLM的推理能力,动态选择和使用工具,逐步收集信息并构建对视频内容的理解。
    • 迭代推理:Agent根据当前的观察状态和推理结果,选择合适的工具和参数,逐步细化查询,最终生成准确的答案。
  • LLM驱动的推理:LLM作为核心,负责推理和规划。LLM根据当前的对话历史和观察结果,选择合适的工具和参数,动态调整推理策略。根据任务需求,灵活组合和使用不同的工具,构建多步骤的工具使用链,解决复杂的查询任务。

Deep Video Discovery的项目地址

  • arXiv技术论文:https://arxiv.org/pdf/2505.18079

Deep Video Discovery的应用场景

  • 教育领域:在线教育平台分析长视频课程,学生快速定位到课程中特定知识点或章节。
  • 体育赛事分析:体育赛事分析比赛视频,快速提取关键事件。
  • 视频监控:安防监控系统中,实时分析监控视频,快速识别异常行为或事件。
  • 影视制作:影视后期制作团队分析拍摄素材,快速找到所需镜头。
  • 企业会议记录:企业分析会议视频,快速提取会议要点和关键决策。

11569 文章 2144100 浏览次数 950300 粉丝

评论 (11)

User avatar

微软的这个智能体,分析长视频太酷了!

User avatar

这玩意儿,简直是把电影的深度挖掘到了极致!

User avatar

我支持!AI的未来,就是这样分析一切

User avatar

这智能体,简直是把电影的灵魂都榨干了

User avatar

这东西挺有意思的,但希望别太依赖,还是自己看电影好

User avatar

微软真会玩,把电影变成数据流,感觉有点可怕

User avatar

我喜欢!AI终于开始认真分析电影,太有意思

User avatar

这玩意儿有点像一个无聊的幻影,浪费时间

User avatar

感觉微软在玩脱了,这种分析,谁看得懂啊?

User avatar

未来人类都被AI干翻了,别说酷,我说还行吧

睡觉动画