Kwai Keye-VL是什么
Kwai Keye-VL 是快手自主研发的多模态大语言模型,基于 Qwen3-8B 语言模型整合SigLIP初始化的视觉编码器,支持动态分辨率输入。模型能深度融合和处理文本、图像、视频等多模态信息,凭借创新的自适应交互机制与动态推理能力,致力于为用户打造更智能、更全面的多模态交互新范式。模型在视频理解、复杂视觉感知、逻辑推理等方面表现出色,尤其在2025高考全国数学卷中狂砍140分。模型已正式开源,为多模态研究和应用提供强大的支持。

Kwai Keye-VL的主要功能
- 视频理解:对短视频内容进行深度理解,例如分析视频中的场景、人物、动作等信息,为视频生成描述、标签或推荐相关内容。
- 图像识别与描述:自动解析图像细节,识别图像中的物体、场景等,生成准确的描述。
- 逻辑推理:在复杂的逻辑推理任务中表现出色,例如解决数学问题、进行科学推理等。
- 多模态交互:支持处理文本、图像、视频等多种模态的信息,在模态之间进行有效的交互和融合。
- 智能创作:基于对多模态信息的理解,辅助用户进行内容创作,如生成文案、脚本、创意方案等。
Kwai Keye-VL的技术原理
- 模型架构:基于Qwen3-8B语言模型,整合SigLIP初始化的视觉编码器。支持动态分辨率输入,按原始比例将图像切分为14×14分块,由MLP层整合视觉特征。用3D RoPE(旋转位置编码)统一处理文本、图像和视频,基于位置编码与时间戳对齐,精准捕捉视频时序变化。
- 预训练策略:持续预训练视觉编码器,适配内部数据分布并支持动态分辨率输入。冻结主干模型,仅训练轻量级MLP适配器,用极低成本高效建立鲁棒的图文/视频-文本对齐关系。解锁全部模型参数,进行多任务联合训练,全面提升模型的综合视觉理解能力。用精选高质量数据进行精调,进一步提升模型的精细理解和判别能力。探索同构异质融合技术,基于参数平均融合不同数据配比的退火训练模型,在保留多维度能力的同时,减小模型偏差,增强模型的鲁棒性。
- 后训练策略:
- 非推理训练(No-Reasoning Training):用500万条高质量多模态VQA数据,数据多样性由自研TaskGalaxy方案建立的任务体系(包含7万种任务)保证,数据质量经AI筛选困难样本及人工标注保障。结合开源数据与自建的偏好数据,后者收集SFT错误样本作提问素材、Qwen2.5VL 72B与SFT模型生成答案对、人工排序获得。
- 推理训练(Reasoning Training):混合四种推理模式的训练数据,实现对模型思维链能力的零基础激活,初步掌握人类分步思考的推理范式。在冷启动基础上,用GRPO算法进行混合模式强化学习,基于创新的双轨奖励机制(同步评估结果正确性与过程一致性)深度优化多模态感知、数学推理、短视频理解及智能体协同等综合能力,显著提升模型的推理能力。基于MPO算法对优劣数据对进行多轮迭代,根治内容重复崩溃与逻辑断层问题,最终赋予模型根据问题复杂度智能选择深度推理模式的自适应能力,实现性能与稳定性的双重突破。
Kwai Keye-VL的项目地址
- 项目官网:https://kwai-keye.github.io/
- GitHub仓库:https://github.com/Kwai-Keye/Keye/tree/main
- HuggingFace模型库:https://huggingface.co/Kwai-Keye
Kwai Keye-VL的应用场景
- 视频内容创作:帮助短视频创作者快速生成标题、描述和脚本,提高创作效率。
- 智能客服:基于多模态交互(文本、语音、图像),为用户提供智能客服服务,提升用户体验。
- 教育辅导:为学生提供个性化的学习辅导,包括作业解答和知识点讲解,助力学习。
- 广告营销:为广告商生成吸引人的文案和脚本,提高广告效果。
- 医疗辅助:辅助医生分析医学影像,提供初步诊断建议,提升医疗效率。