Midjourney操作界面

​仅20B参数!字节推出Seed1.5-VL多模态模型,实现38项SOTA

4.8
0热度

在上海举办的火山引擎 FORCE LINK AI 创新巡展上,字节跳动正式发布了最新的视觉 - 语言多模态模型 ——Seed1.5-VL。该模型凭借其出色的通用多模态理解和推理能力,成为此次活动的焦点,吸引了众多业界专家和开发者的关注。Seed1.5-VL 的显著特点是其增强的多模态理解与推理能力。与之前的版本相比,Seed1.5-VL 在视觉定位和推理的速度与准确性上有了显著提升。此外,新增的视

在上海举办的火山引擎 FORCE LINK AI 创新巡展上,字节跳动正式发布了最新的视觉 - 语言多模态模型 ——Seed1.5-VL。该模型凭借其出色的通用多模态理解和推理能力,成为此次活动的焦点,吸引了众多业界专家和开发者的关注。

Seed1.5-VL 的显著特点是其增强的多模态理解与推理能力。与之前的版本相比,Seed1.5-VL 在视觉定位和推理的速度与准确性上有了显著提升。此外,新增的视频理解和多模态智能体功能,使其在处理复杂任务时表现更加出色。

image.png

超高性能与低成本优势

尽管 Seed1.5-VL 的激活参数仅为20B,但其性能已经达到了与 Gemini2.5Pro 相当的水平。在60个公开评测基准中,Seed1.5-VL 在38个任务上取得了 SOTA(state-of-the-art)表现,尤其是在视频理解、视觉推理和多模态智能体能力方面,均处于行业领先地位。

在推理成本方面,Seed1.5-VL 也表现出色,其推理输入价格为每千 tokens 仅0.003元,输出价格为每千 tokens 仅0.009元,极具性价比。

image.png

便捷的 API 接入

目前,Seed1.5-VL 已经在火山引擎全面开放 API,开发者只需登录后选择 Doubao-1.5-thinking-vision-pro,即可快速调用其能力,构建自己的 AI 视觉助手、巡检系统、交互 Agent 或下一代智能摄像头。

为验证 Seed1.5-VL 的实际性能,记者进行了多项测试。通过上传一张货架图片,Seed1.5-VL 能够迅速识别出特定产品并计算其价格。在复杂的公务员图形推理题目中,Seed1.5-VL 也显示出了其强大的推理能力,能够在短时间内捕捉并推导出其中的规律,完成难度较大的逻辑任务。

Seed1.5-VL 作为 Seed 系列最新一代多模态模型,经过在超过3T token 的多模态数据上进行预训练,展现出在图像问答、图表理解、视觉推理等多个任务上的卓越表现。该模型由三个核心组件构成,包括视觉编码模块 SeedViT、用于视觉特征投影的多层感知机(MLP)适配器以及基于 MoE 架构的大语言模型 Seed1.5-LLM。

  • GitHub:https://github.com/ByteDance-Seed/Seed1.5-VL

  • https://seed.bytedance.com/zh/tech/seed1_5_vl

点赞(0)

评论列表 共有 0 条评论

暂无评论
发表
评论
顶部