视觉语言模型新突破!Visual ARFT 助力多模态智能体能力

视觉语言模型新突破!Visual ARFT 助力多模态智能体能力

4.8
0热度

随着人工智能的迅猛发展,尤其是在大型推理模型领域,如 OpenAI 的 o3,研究者们正在努力让这些模型具备更强的智能体能力。这种能力不仅仅局限于文本处理,更扩展到了图像理解与操作。近日,来自上海交通大学、上海人工智能实验室、香港中文大学和武汉大学的研究团队推出了一种名为 Visual-ARFT(视觉智能体强化微调)的新方法,旨在提升视觉语言模型的多模态智能体能力,使其能够更灵活地执行复杂任务。V

随着人工智能的迅猛发展,尤其是在大型推理模型领域,如 OpenAI 的 o3,研究者们正在努力让这些模型具备更强的智能体能力。这种能力不仅仅局限于文本处理,更扩展到了图像理解与操作。近日,来自上海交通大学、上海人工智能实验室、香港中文大学和武汉大学的研究团队推出了一种名为 Visual-ARFT(视觉智能体强化微调)的新方法,旨在提升视觉语言模型的多模态智能体能力,使其能够更灵活地执行复杂任务。

Visual-ARFT 的核心在于赋予模型 “工具智能体” 的能力。这意味着,模型不仅能够分析和理解图像,还能主动调用外部工具进行搜索或编写代码。这一能力使得模型在面对复杂的多模态问题时,能够自主拆解任务、规划步骤,并完成任务。例如,它可以在分析图像信息后,通过搜索引擎查找所需信息,或者生成 Python 代码处理图像,完成视觉问答。

image.png

为了评估 Visual-ARFT 的有效性,研究团队构建了一个新的评测基准 MAT-Bench(多模态智能体工具基准)。该基准包含多个复杂的多跳视觉问答任务,能够准确评估模型在工具调用与多模态推理方面的能力。测试结果显示,使用 Visual-ARFT 方法的模型在多个子任务中均表现优异,超越了 GPT-4o 等先进模型,展现出显著的潜力。

image.png

值得一提的是,Visual-ARFT 采用了一种基于强化微调的训练策略,通过简单而高效的奖励机制,驱动模型自主探索如何使用工具,并形成完整的推理过程。研究团队在训练中使用了少量的数据,但却成功提升了模型的多模态智能体能力。

未来,Visual-ARFT 不仅将为智能体能力的发展开辟新路径,还可能在图像处理、智能搜索等多个领域产生深远影响。随着技术的不断进步,我们期待看到更多智能体在复杂场景中的表现,进而推动人工智能的边界不断拓展。

项目地址:https://github.com/Liuziyu77/Visual-RFT/tree/main/Visual-ARFT

立即下载

相似资讯

评论列表 共有 0 条评论

暂无评论
首页 发现
看过 我的