仅20B参数！字节推出Seed1.5-VL多模态模型，实现38项SOTA

AIbase基地

发布了 11569 文章

在上海举办的火山引擎 FORCE LINK AI 创新巡展上，字节跳动正式发布了最新的视觉 - 语言多模态模型 ——Seed1.5-VL。该模型凭借其出色的通用多模态理解和推理能力，成为此次活动的焦点，吸引了众多业界专家和开发者的关注。

Seed1.5-VL 的显著特点是其增强的多模态理解与推理能力。与之前的版本相比，Seed1.5-VL 在视觉定位和推理的速度与准确性上有了显著提升。此外，新增的视频理解和多模态智能体功能，使其在处理复杂任务时表现更加出色。

超高性能与低成本优势

尽管 Seed1.5-VL 的激活参数仅为20B，但其性能已经达到了与 Gemini2.5Pro 相当的水平。在60个公开评测基准中，Seed1.5-VL 在38个任务上取得了 SOTA（state-of-the-art）表现，尤其是在视频理解、视觉推理和多模态智能体能力方面，均处于行业领先地位。

在推理成本方面，Seed1.5-VL 也表现出色，其推理输入价格为每千 tokens 仅0.003元，输出价格为每千 tokens 仅0.009元，极具性价比。

便捷的 API 接入

目前，Seed1.5-VL 已经在火山引擎全面开放 API，开发者只需登录后选择 Doubao-1.5-thinking-vision-pro，即可快速调用其能力，构建自己的 AI 视觉助手、巡检系统、交互 Agent 或下一代智能摄像头。

为验证 Seed1.5-VL 的实际性能，记者进行了多项测试。通过上传一张货架图片，Seed1.5-VL 能够迅速识别出特定产品并计算其价格。在复杂的公务员图形推理题目中，Seed1.5-VL 也显示出了其强大的推理能力，能够在短时间内捕捉并推导出其中的规律，完成难度较大的逻辑任务。

Seed1.5-VL 作为 Seed 系列最新一代多模态模型，经过在超过3T token 的多模态数据上进行预训练，展现出在图像问答、图表理解、视觉推理等多个任务上的卓越表现。该模型由三个核心组件构成，包括视觉编码模块 SeedViT、用于视觉特征投影的多层感知机（MLP）适配器以及基于 MoE 架构的大语言模型 Seed1.5-LLM。

GitHub:https://github.com/ByteDance-Seed/Seed1.5-VL
https://seed.bytedance.com/zh/tech/seed1_5_vl